岩手县小森的博客

努力将眼前的每一天过得精彩


  • 首页

  • 标签

  • 分类

  • 归档

Java服务_Java回调函数使用方法

发表于 2024-01-30 | 分类于 Java服务
Java服务_Java回调函数使用方法1.背景在java工程代码中,如果我们想要对在不同场景下执行不同操作的同类操作进行抽象,那么我们通常会创建一个接口来抽象,然后对这个接口创建不同的实现类,在不同常见下创建不同实现类的对象,调用其中的具体实现方法。这种写法相对比较冗余,有几个场景就得提前创建几个实现类和实现方法,那么借助回调函数的思想,可以在实际调用时再创建匿名内部类实现抽象方法,就显得更加轻量 ...
阅读全文 »

ClickHouse2HBase组件_JavaSql中的PreparedStatement原理与应用实战

发表于 2024-01-29 | 分类于 ClickHouse
ClickHouse2HBase组件_JavaSql中的PreparedStatement原理与应用实战1.简介PreparedStatement是statement的子类,它的实例对象可以通过调用Connection.preparedStatement()方法来获得。PreparedStatement相比于statement主要有两个优点:PreparedStatement更加安全的的,使用了带 ...
阅读全文 »

ClickHouse2HBase组件_JavaSqlResultSet转化为SparkSqlDataFrame

发表于 2024-01-28 | 分类于 ClickHouse
ClickHouse2HBase组件_JavaSqlResultSet转化为SparkSqlDataFrame1.背景当前预计算任务主要基于Spark集群进行数据计算再推到HBase等kv数据库,Spark离线计算集群按资源使用率进行计费,费用高昂;且在分区数据量级1亿场景下,Spark引擎计算效率不如ClickHouse引擎,考虑通过ClickHouse凌晨生产时段进行预计算加工既可以节约成本, ...
阅读全文 »

数据开发之离线计算_HIVE的mapjoin原理与夜间任务倾斜快速处理

发表于 2024-01-27 | 分类于 数据开发之离线计算
数据开发之离线计算_HIVE的mapjoin原理与夜间任务倾斜快速处理一、夜间任务运行慢排查1.任务运行情况查看某天晚上值班,一个任务之前每天运行10min完成,这天1h还没有完成,查看日志和mr监控也没有任务报错,但是mr处理行数翻了100倍。 前一天: 当天: 2.日志排查在源表数据量变化不大的情况下,mr任务处理数据量变化这么大,首先怀疑的就是某些优化措施失效了,首先想到的就是mapjo ...
阅读全文 »

HiveSQL实战积累_HiveSQL通过横向拆分10份缓解数据倾斜实战

发表于 2024-01-26 | 分类于 HiveSQL实战积累
HiveSQL实战积累_HiveSQL通过横向拆分10份缓解数据倾斜实战数据量较大的场景下,通过skuId等整数类型字段将全量数据横向拆分为多个任务执行相同的脚本,这样做主要有两个好处:1.提高并行度,争取更多资源,减小倾斜概率; 2.提高任务失败容错,当任务由于倾斜过于严重或者节点异常原因失败时,只需要重跑一个任务,不必重跑全量数据。 不过注意这种优化操作执行过程中使用的到临时表、临时文件夹一定 ...
阅读全文 »

HiveSQL实战积累_读取json数据

发表于 2024-01-25 | 分类于 HiveSQL实战积累
HiveSQL实战积累_读取json数据我们进行ETL(Extract-Transfer-Load)过程中,经常会遇到从不同数据源获取的不同格式的数据,其中某些字段就是json格式字符串,里面拼接了很多字段key和指标值value。 1. get_json_objectget_json_object(string json_string, string path)方法的第一个参数填写字符串类型js ...
阅读全文 »

HBase_HBase自定义带版本因子timestamp与行粒度TTL专利与实战代码

发表于 2024-01-24 | 分类于 HBase
HBase_HBase自定义带版本因子timestamp与行粒度TTL专利与实战代码一、专利撰写一种自定义行粒度生命周期的HBase表大批量数据写入方法技术领域本发明属于HBase数据库技术领域,具体涉及一种为每一行数据设置不同timestamp和cell TTL(time to live)的HBase表大批量数据写入方法。 背景技术HBase是一种非关系型数据库,具有高性能、高可靠性、分布式、可 ...
阅读全文 »

HBase_HBase自带压测工具PerformanceEvaluation改造与应用实战

发表于 2024-01-23 | 分类于 HBase
HBase_HBase自带压测工具PerformanceEvaluation改造与应用实战1.背景由于数据产品业务需求增长迅速,各种各样的看数需求和面板被提出,同时低频使用的页面关停并转又不能被各级领导写到汇报ppt中去,那么存量加增量数据看版所需要的HBase存储资源自然就迅速增长。但是在降本增效和技术升级的大背景下,平台也不再对HBase物理集群进行扩容支持,并不断推动物理集群的迁移和下线,推 ...
阅读全文 »

HBase_HBase倾斜治理专利与实战代码

发表于 2024-01-22 | 分类于 HBase
HBase_HBase倾斜治理专利与实战代码一、专利撰写一种多维度组合rowkey的HBase表数据倾斜治理方法技术领域本发明属于HBase数据库技术领域,具体涉及一种针对由聚集维度组成rowkey的HBase表的数据倾斜治理方法。 背景技术HBase是一种非关系型数据库,适合于存储非结构化数据,具有高可靠性、高性能、面向列、可伸缩、分布式等特点。HBase数据库构建于Hadoop分布式文件系统之 ...
阅读全文 »

HBase_HBase基础概念

发表于 2024-01-21 | 分类于 HBase
HBase_HBase基础概念1.什么是预计算预计算就是提前计算和存储中间结果,再使用预先计算的结果加快进一步的查询。在OLTP当中最常见的预计算就是关系型数据库(mysql)中的索引;OLAP当中最常见的与计算就是HBase中的预分区。预计算以空间换时间,如果追求响应速度,优先考虑预计算;预计算增加了数据准备的时间和成本,减少了数据服务的时间和成本,如果追求高并发,有限考虑预计算。 OLAP( ...
阅读全文 »
1…456…18
zju岩手县小森

zju岩手县小森

看的远固然重要 但是走好眼前的路才是关键

176 日志
15 分类
143 标签
Instagram Bilibili
© 2025 zju岩手县小森