岩手县小森的博客

努力将眼前的每一天过得精彩


  • 首页

  • 标签

  • 分类

  • 归档

京东商智_DataFabric数据管理架构与指标服务建设&零售指标中台化与服务化实践

发表于 2024-01-10 | 分类于 京东商智
京东商智_DataFabric数据管理架构与指标服务建设&零售指标中台化与服务化实践文章读后感与京东切入现状分析本文主要为对谈了多年的 Data Fabric,我们终于见到了国内最佳落地实践一文阅读后的总结精炼。个人任务DataFabric最主要的思想就是保证数据从生产最源头到数据产品最末端的元数据一致性,就是确保最源头数据的定义到数据应用产品端上数据的定义是关联的,而且这种关联应该是强制 ...
阅读全文 »

ClickHouse_Clickhouse刷岗实战

发表于 2024-01-09 | 分类于 ClickHouse
ClickHouse_Clickhouse刷岗实战关键命令123456789101112131415161718192021222324252627282930INSERT INTO ge_order.%s( dateTime, skuId, spuId, saleOrdId, cateDept0, cateDept1 ) S ...
阅读全文 »

ClickHouse_ClickHouse数据生命周期管理

发表于 2024-01-08 | 分类于 ClickHouse
ClickHouse_ClickHouse数据生命周期管理1.背景ClickHouse作为数据库存储容量有限,数据随着时间变迁可能需要定期移动或删除数据,而且通常这类直接面向业务产品的olap引擎数据库中数据有较强的业务性质,需要随业务时间过期,而不应该随数据写入或更新时间过期,否则刷数就会造成数据生命周期紊乱。ClickHouse数据库本身提供了TTL子句帮助用户实现较为灵活的数据生命周期管理。 ...
阅读全文 »

ClickHouse_Clickhouse流量商详明细刷岗实战

发表于 2024-01-07 | 分类于 ClickHouse
ClickHouse_Clickhouse流量商详明细刷岗实战一、背景当前流量商详明细数据周期需具备近27个月,目前受明细数据量、资源、任务时效等限制暂未实现近27个月全周期的得岗位更新,明细数据只做了部分数据周期的岗位更新。 二、当前线上逻辑 刷岗+预计算 天数 刷岗范围 明细刷岗 42天 以最新岗位刷近15天,同比18天,农历同比3天,复合同比3天,复合农历同比3天 天预计算 4 ...
阅读全文 »

ClickHouse_ClickHouse跨集群迁移数据表工具

发表于 2024-01-06 | 分类于 ClickHouse
ClickHouse_ClickHouse跨集群迁移数据表工具关键命令1insert into sz.app_jdr_traffic_sz_all_chan_mvp_i_d_d_d select * from remote('11.102.245.98:9600',sz,app_jdr_traffic_sz_all_chan_mvp_i_d_d,'rw_sz_merchant_flow_slave ...
阅读全文 »

ClickHouse_ClickHouse服务中间态&本地去重优化实战

发表于 2024-01-05 | 分类于 ClickHouse
ClickHouse_ClickHouse服务中间态&本地去重优化实战一、ck函数原理1.中间态函数原理uniqState() uniqState(element):该函数用于将传入的元素转化为去重中间聚合状态AggregateFunction state,就是将去重指标的字段元素以bitmap的形式存储起来,以便在此基础上再次进行聚合计算。一般输入就是string类型,输出就是Aggre ...
阅读全文 »

ClickHouse_ClickHouse二级索引与实战

发表于 2024-01-03 | 分类于 ClickHouse
ClickHouse_ClickHouse二级索引与实战1.背景ClickHouse作为数据产品业务数据库,其中存储的明细数据表,通常要给多个看板或者多个不同维度组合提供数据,那么不可能实现每次查询都能命中主键索引粒度。例如交易用户款表,可能有从商品类目粒度的全行业交易数据查询,也有店铺粒度的交易数据查询。那么我们往往需要比较请求比例,对请求最多的维度路径设置主键索引,那么其他维度路径的查询就无法 ...
阅读全文 »

ClickHouse_ClickHouse按本地表推数组件原理与代码实战

发表于 2024-01-03 | 分类于 ClickHouse
ClickHouse_ClickHouse按本地表推数组件原理与代码实战1.组件流程 1.1 集群检查元数据补全 根据hive表schema信息,字段类型自动映射成CK表类型,支持自定义分区、表字段函数生成新的DataFrame,使用on Cluster方式创建CK本地表和分布式表。 集群负载 调用集群普罗米修斯监控接口或者直接查询集群相关系统表,获取集群中是否存在cpu低于80%、内存低于70% ...
阅读全文 »

Java服务_CheckStyle简介与使用实例

发表于 2024-01-02 | 分类于 Java服务
Java服务_CheckStyle简介与使用实例CheckStyle是一个帮助java开发人员遵守某些编写规范的工具,它能够自动化代码规范检查过程,从而使得开发人员从这项重要但是细致枯燥的工作中解脱出来。 checkstyle配置有两种配置方式,一种为安装插件,这种方式只能在本地运行代码是生效进行检查;第二种是添加maven依赖配置,这种在任意地方打包运行代码时都需要进行检查,推荐使用这种。Ide ...
阅读全文 »

ClickHouse_BitMap在hive和ck中的存储与两者之间的传输

发表于 2024-01-01 | 分类于 ClickHouse
ClickHouse_BitMap在hive和ck中的存储与两者之间的传输BitMapbitmap(位图)是一种利用比特位来进行数据存储的结构,简单举例:存储1-8的整数,如果我们用整数数组的话,1个int型整数是4字节,至少需要4*8=32个字节的存储空间,但是如果用bitmap的话,我们只需要1个字节(8bit),从低位到高位,每一位是否为1即可表示该数是否存在。 假设有这样一个需求:在20亿 ...
阅读全文 »
1…678…18
zju岩手县小森

zju岩手县小森

看的远固然重要 但是走好眼前的路才是关键

176 日志
15 分类
143 标签
Instagram Bilibili
© 2025 zju岩手县小森