岩手县小森的博客

努力将眼前的每一天过得精彩


  • 首页

  • 标签

  • 分类

  • 归档

HBase_HBase的批量写工具类BufferedMutator原理与应用实战

发表于 2024-01-20 | 分类于 HBase
HBase_HBase的批量写工具类BufferedMutator原理与应用实战1.背景如果未开启HBase客户端api的缓冲区,那么一次put就是一个RPC操作,将客户端数据传输到服务器再等待返回结果,这非常耗时,小数据量传输写入还好,如果数据量多,每一个put都建立一次RPC连接和数据传输非常耗时。为解决该问题,HBase客户端推出了缓冲区配置,设置HTable.setAutoFlush(fa ...
阅读全文 »

HBase_HBase的runsql协处理器实战与sql聚合计算原理

发表于 2024-01-19 | 分类于 HBase
HBase_HBase的runsql协处理器实战与sql聚合计算原理一、runsql客户端实战1.通过sql获取返回结果的统一方法在该方法内部解析处sql中的各个子句字段: 123456789101112131415161718192021222324252627282930313233343536public ResultSet getResultSet(String area) throws ...
阅读全文 »

HBase_HBase的Rowkey协议与获取紧接着的字典序更大的Byte数组

发表于 2024-01-18 | 分类于 HBase
HBase_HBase的Rowkey协议与获取紧接着的字典序更大的Byte数组1.HBase的Rowkey协议设计1.1 存储字段Rowkey: 1.不存在scan场景 MD5散列|时间|时间粒度|REALTIME/OFFLINE|分段(0)/累计(1)|维度id1,维度id2,维度id3|维值1,维值2,维值3 2.存在scan场景 比如维度2是scan维度字段 MD5散列|时间|时间粒度|RE ...
阅读全文 »

HBase_HBase的Region过大导致写数慢与Compact导致CPU使用率陡增问题实战

发表于 2024-01-17 | 分类于 HBase
HBase_HBase的Region过大导致写数慢与Compact导致CPU使用率陡增问题实战一、Region过大导致写数慢问题1.问题解决步骤1.1 问题背景在数仓到HBase集群的数据同步工具datapicker中使用了MapReduce和BufferedMutator来进行数据批量写入,没有任何变更的某一天,某个HBase表的推数任务就变得特别慢,数据写入命令经常报超时错误。 1.2 平台分 ...
阅读全文 »

京东商智_基于ClickHouse预计算架构

发表于 2024-01-17 | 分类于 京东商智
京东商智_基于ClickHouse预计算架构一、背景两问为什么要做ck2ck预计算,而不是hive2ck? 1.Spark引擎预计算,相对运算速度慢、资源按使用计费; 2.额外的数据传输损耗与精确去重资源损耗。 字节火山引擎、腾讯音乐等都有相应的物化加速能力 为什么不直接建物化视图和projection? 1.物化试图不支持基于分布式表直接建立分布式视图,也就是不支持跨节点物化加速,也不支持自 ...
阅读全文 »

HBase_HBase表行数统计实战

发表于 2024-01-16 | 分类于 HBase
HBase_HBase表行数统计实战一、HBase统计表行数的常见四种方法1.hbase-shell的count命令这是最简单直接的操作,但是执行效率非常低,适用于百万级以下的小表RowCount统计。本质就是scan,扫描3000w行数据耗时达到130min。 2.java代码请求带过滤器的scan接口这是通过在scan中添加FirstKeyOnlyFilter类型的过滤器来实现的,本质就是每一 ...
阅读全文 »

HBase_Spark_Connector开源代码适配自定义timestamp和cellTTL功能

发表于 2024-01-15 | 分类于 HBase
HBase_Spark_Connector开源代码适配自定义timestamp和cellTTL功能1.背景之前使用MapReduce实现从Hive表的HDFS源文件中读取行数据,进行转化和写入HBase,使用这种方法时直接使用HFileOutputFormat2.configureIncrementalLoad()方法即可使用HBase封装好的排序Reducer。但是使用这种MapReduce有一 ...
阅读全文 »

HBase_gRPC&protobuf&HBase基于protobuf创建endpoint协处理器实战

发表于 2024-01-14 | 分类于 HBase
HBase_gRPC&protobuf&HBase基于protobuf创建endpoint协处理器实战1.RPC1.1 RPC简介RPC,全称为Remote Procedure Call,即远程过程调用,它是一个计算机通信协议。它允许像调用本地服务一样调用远程服务。另外RPC是与语言无关的。 rpc框架做的最重要的一件事情就是封装,调用者和被调用者的通讯细节,客户端代理负责将调用方 ...
阅读全文 »

Java服务_git命令合并或删除提交记录

发表于 2024-01-13 | 分类于 Java服务
Java服务_git命令合并或删除提交记录git reset回滚到指定commit1.现在有两个commit 使用git log查看commit日志和对应hash码 12345678910111213commit def5adef853da4cc05752bdb36577c127be71ba5Author: xxxDate: Thu Dec 28 16:01:36 2017 +0800优化代码 ...
阅读全文 »

Java服务_ELK日志采集与可视化链路建设实战经验

发表于 2024-01-11 | 分类于 Java服务
Java服务_ELK日志采集与可视化链路建设实战经验一、分布式链路追踪的前世今生1.起源1.1 服务化框架 –> 微服务架构的演进产生新事物的原因一定是新事物的优越性和旧事物的缺陷两方面导致。传统的服务架构已经无法处理「服务的用户量逐渐增加、大规模高并发请求」的问题。 微服务架构(分布式系统): 微服务架构并不是为了拆分而拆分,拆分微服务的目的是通过对微服务进行水平扩展解决传统的单体应用在业 ...
阅读全文 »
1…567…18
zju岩手县小森

zju岩手县小森

看的远固然重要 但是走好眼前的路才是关键

176 日志
15 分类
143 标签
Instagram Bilibili
© 2025 zju岩手县小森