岩手县小森的博客

努力将眼前的每一天过得精彩


  • 首页

  • 标签

  • 分类

  • 归档

ClickHouse_MergeTree&ReplicatedMergeTree&Distributed原理解析

发表于 2022-09-29 | 分类于 ClickHouse
ClickHouse_MergeTree&ReplicatedMergeTree&Distributed原理解析1.MergeTree引擎1.1 建表ck在建表时需要指定几个关键信息: order by(排序键):可以是一组列名的组合,用于数据片段内的数据排序。例如排序键是(CounterID,Date),则片段内数据首先按照CounterID排序,具有相同CounterID的数 ...
阅读全文 »

HiveSQL实战积累_行转列与列转行

发表于 2022-09-23 | 分类于 HiveSQL实战积累
HiveSQL实战积累_行转列与列转行1.步骤拆分无论是行转列还是列转行,都不是一步完成的,一般都需要先转化成合并到单个单元格的状态。比如行转列,需要先将一行中多列数据合并到同一列中,然后再进行竖向展开。同理列转行,需要先讲一列中多行数据合并到同一个行中,然后再进行横向展开。 1.1 多列合并到一个单元格concat(字符串1/字段1,字符串2/字段2...)和concat_ws(分隔符,字符串1 ...
阅读全文 »

HiveSQL实战积累_数据仓库全量表&增量表&流水表&拉链表

发表于 2022-09-16 | 分类于 HiveSQL实战积累
HiveSQL实战积累_数据仓库全量表&增量表&流水表&拉链表1.基础概念 全量表:全量表就是每天拉取原表中的所有数据,每个dt分区存储全部的数据,进行任何数据查询都只需要使用dt='yyyy-mm-dd'即可。 增量表:增量表就是每天拉取当天的更新数据,至于如何处理每天的更新数据,又将增量表分为流水表和拉链表。 流水表:流水表就是每天拉取当天的更新数据,然 ...
阅读全文 »

HiveSQL实战积累_根据流量底表按半小时统计累加流量指标

发表于 2022-09-09 | 分类于 HiveSQL实战积累
HiveSQL实战积累_根据流量底表按半小时统计累加流量指标1.背景有一张流量底表,如下: item_second_cate_cd trade_type terminal_type browser_uniq_id browse_tm 10026 0 1 jd3433244448 2022-10-01 13:34:56 现要求根据该流量底表按半个小时统计累加pv、uv指标,比如00: ...
阅读全文 »

Java服务_读取properties配置文件

发表于 2022-08-27 | 分类于 Java服务
Java服务_读取properties配置文件1.使用背景为了减少参数与程序的耦合,我们有时将经常改变的参数以properties配置文件的形式来进行配置,在主程序运行之前进行配置文件的读取。其实归根结底就是因为——优雅! 2.使用方法2.1创建properties配置文件在java项目的resource文件夹下创建TargetField.properties配置文件。 1targetField= ...
阅读全文 »

Java服务_JOptSimple命令行参数处理器

发表于 2022-08-21 | 分类于 Java服务
Java服务_JOptSimple命令行参数处理器1.使用背景在服务器上运行任务类型的java程序,通常是使用java jar xxx.jar、hadoop jar xxx.jar、spark-submit xxx.jar等linux命令。为了将参数与程序进行解耦,加强代码的通用性,通常会将很多参数值与运行命令一起传入程序。 如hbase快照解析工具的运行命令: 1hadoop jar HBase ...
阅读全文 »

数据开发之离线计算_Hive存储格式与压缩格式&MapReduce输出Text文件压缩格式优缺点对比

发表于 2022-08-14 | 分类于 数据开发之离线计算
数据开发之离线计算_Hive存储格式与压缩格式&MapReduce输出Text文件压缩格式优缺点对比1.Hive存储格式hive底层数据是存储在hdfs系统中的文件,hive的存储格式和压缩格式是两个不同的概念。存储格式是指数据按照何种规则存储在hdfs文件中,如TextFile(行式存储)、SequenceFile(行式存储)、ORC(列式存储)、Parquet(列式存储)等;压缩格式是 ...
阅读全文 »

HBase_HBase删数策略总结

发表于 2022-08-08 | 分类于 HBase
HBase_HBase删数策略总结1.HBase存储预计算数据类型 day(天数据):永久保存,最长需求时间由业务产品设定。 tw(周至今数据):周一数据永久保存,非周一数据存储1天即可。 tm(月至今数据):1日数据永久保存,非1日数据存储1天即可。 d7(近7天数据):存储1天即可。 d30(近30天数据):存储1天即可。 2.存储治理策略2.1 读取hive源表重组rowkey这是当前最主 ...
阅读全文 »

HBase表数据倾斜治理_HBase快照映射到HDFS过程中HBase工具类解码与十六进制解码的区别

发表于 2022-08-03 | 分类于 HBase
HBase表数据倾斜治理_HBase快照映射到HDFS过程中HBase工具类解码与十六进制解码的区别1.背景在hbase倾斜治理过程中,将hbase快照数据的读取和bulkload分成两步,第一步读取hbase数据存储到hdfs系统的text文件中,第二步再读取hdfs系统的text文件数据bulkload到hbase中。 2.HBase内置编解码算法HBase内置的Bytes工具类中定义了对St ...
阅读全文 »

HBase表数据倾斜治理_Region切分管理与并行读取单Region

发表于 2022-07-27 | 分类于 HBase
HBase表数据倾斜治理_Region切分管理与并行读取单Region1.Region切分管理1.1 Region切分1.1.1预分区预分区就是在建表的时候预先设置拆分点,比如设置9个拆分点,那么建表时就会创建10个region,后序存入的数据与拆分点按字典序比较大小,决定存入哪个region。 拆分点的设置方式主要有四种:直接指定拆分点列表、HexStringSplit算法、UniformSpl ...
阅读全文 »
1…91011…18
zju岩手县小森

zju岩手县小森

看的远固然重要 但是走好眼前的路才是关键

176 日志
15 分类
143 标签
Instagram Bilibili
© 2025 zju岩手县小森