岩手县小森的博客

努力将眼前的每一天过得精彩


  • 首页

  • 标签

  • 分类

  • 归档

数据开发之离线计算_Spark任务调优与RSS

发表于 2023-05-29 | 分类于 数据开发之离线计算
数据开发之离线计算_Spark任务调优与RSS1.Spark常用参数解释Spark的默认配置文件位于堡垒机上的这个位置: $SPARK_CONF_DIR/spark-defaults.conf,用户可以自行查看和理解。默认值优先级最低,用户如果提交任务时或者代码里明确指定配置,则以用户配置为先。以下常用参数配置均可以通过--conf XXX=Y方式使用: 2.Spark调优技巧2.1 并发相关参 ...
阅读全文 »

Java服务_java中的Lambda表达式与Stream流函数总结

发表于 2023-05-24 | 分类于 Java服务
Java服务_java中的Lambda表达式与Stream流函数总结1.Lambda表达式1.1 Lambda表达式概述Lambda表达式就是函数式编程。 面向对象编程的思想强调的是对象,必须通过对象的形式来做一些事情,比如调用函数之类的,一般情况会比较复杂。函数编程思想就是尽量忽略对象的复杂用法,通过一段代码完成面向对象想要做的代码量。 函数编程标准格式为:(参数列表) -> {方法代码} ...
阅读全文 »

Java服务_Mybatis动态SQL总结

发表于 2023-05-18 | 分类于 Java服务
Java服务_Mybatis动态SQL总结1.Mybatis映射xml文件概述【基础知识】_MyBatis 2.Mybatis动态SQLOGNL,全称为Object-Graph Navigation Language,它是一个功能强大的表达式语言,用来获取和设置Java对象的属性,它旨在提供一个更高的更抽象的层次来对Java对象图进行导航。 mybatis 的动态sql语句是基于OGNL表达式的, ...
阅读全文 »

HiveSQL实战积累_hiveUDF原理与使用&实现Bitmap

发表于 2023-05-12 | 分类于 HiveSQL实战积累
HiveSQL实战积累_hiveUDF原理与使用&实现Bitmap1.Hive的简单实现方法简单实现方法步骤: 1.新建maven项目,在pom.xml文件中添加hiveUDF依赖: 12345<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec< ...
阅读全文 »

HiveSQL实战积累_hiveUDF原理与使用

发表于 2023-05-12 | 分类于 HiveSQL实战积累
HiveSQL实战积累_hiveUDF原理与使用1.Hive的简单实现方法简单实现方法步骤: 1.新建maven项目,在pom.xml文件中添加hiveUDF依赖: 12345<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId&g ...
阅读全文 »

HiveSQL实战积累_unionall与groupingsets效率比较

发表于 2023-05-01 | 分类于 HiveSQL实战积累
HiveSQL实战积累_unionall与groupingsets效率比较1.SQL实例groupingsets实例: 1234567891011SELECT shop_id AS shop_id, COALESCE(chan_cd, 999999) AS chan_cd, COALESCE(stat_ct, 999999) AS stat_ct, SUM(cust_qty) AS cust_qt ...
阅读全文 »

HiveSQL实战积累_groupingsets加lvlcode实现快速多维度预聚合与关联

发表于 2023-01-04 | 分类于 HiveSQL实战积累
HiveSQL实战积累_groupingsets加lvlcode实现快速多维度预聚合与关联1.SQL实例1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787 ...
阅读全文 »

HiveSQL实战积累_多个去重指标用户id列与加和数据共同存储

发表于 2022-12-28 | 分类于 HiveSQL实战积累
HiveSQL实战积累_多个去重指标用户id列与加和数据共同存储1.背景在线数据引擎主要存储两种数据:预计算数据和明细数据,但是实际上有一些实际应用场景需要在这中间做一些均衡。比如最典型的行业模块数据,以同样一份成交底表明细数据为数据源,需要展示类目、品牌、店铺等不同维度的数据。如果完全使用预计算,需要预计算的维度有些多,而且只能限定预计算时间维度,无法进行自定义时间查询;如果使用明细数据做ola ...
阅读全文 »

HiveSQL实战积累_groupby&unionall与leftjoin效率比较

发表于 2022-12-21 | 分类于 HiveSQL实战积累
HiveSQL实战积累_groupby&unionall与leftjoin效率比较1.比较sql实例分别依赖流量明细、关注明细、加购明细三张源表,加工得到店铺粒度的uv、pv、关注、加购四个指标数据。使用groupby&unionall和leftjoin两种写法得到的结果数据是一样的。 1.1 groupby&unionall使用union all合并不同源表加工数据然后g ...
阅读全文 »

数据开发之离线计算_Hive小文件产生原因与治理方法

发表于 2022-12-16 | 分类于 数据开发之离线计算
数据开发之离线计算_Hive小文件产生原因与治理方法1.背景python计算任务脚本的最后两行命令都是: 12ht.exec_sql(schema_name = 'app', sql = sql) os.system("hadoop jar /software/servers/bdp_tools/mergefiles-1.7.jar -p /user/mart_sz/bi_compass/app. ...
阅读全文 »
1…789…18
zju岩手县小森

zju岩手县小森

看的远固然重要 但是走好眼前的路才是关键

176 日志
15 分类
143 标签
Instagram Bilibili
© 2025 zju岩手县小森