岩手县小森的博客

努力将眼前的每一天过得精彩


  • 首页

  • 标签

  • 分类

  • 归档

数据开发之离线计算_Hive数据倾斜解决方法

发表于 2022-12-09 | 分类于 数据开发之离线计算
数据开发之离线计算_Hive数据倾斜解决方法1.Hive数据倾斜原因hivesql采用mapreduce分布式计算引擎进行海量数据处理,hive的数据倾斜就是就是由于数据分布不均匀,导致一个或几个节点处理的数据量比其他节点大很多。 在map和reduce两个阶段都有可能发生数据倾斜。一个MR计算任务中,数据文件在进入map阶段之前都会进行split,默认按128MB大小切分为数据块,分配给不同ma ...
阅读全文 »

数据开发之离线计算_HiveSQL执行计划与JobHistory日志

发表于 2022-12-02 | 分类于 数据开发之离线计算
数据开发之离线计算_HiveSQL执行计划与JobHistory日志1.HiveSQL执行计划与Stage划分1.1 Hive划分Stage原理hive的逻辑计划生成器会将sql计算语句抽象成算子,然后物理计划生成器会将hivesql按照join、groupby、orderby等有shuffle操作的算子或者filter、where条件进行划分划分为不同的stage。 一个stage可能是一个ma ...
阅读全文 »

数据开发之离线计算_Spark运行架构

发表于 2022-11-25 | 分类于 数据开发之离线计算
数据开发之离线计算_Spark运行架构1.Spark核心组件1.1 物理节点:ClusterManager ClusterManager是指集群上用于分配资源的资源调度器,一个spark集群中只有一台ClusterManager节点。当spark引擎搭建在原生的资源管理集群standalone上时,由standalone集群的Master节点来担任;当spark引擎搭建在yarn集群上时,由yar ...
阅读全文 »

数据开发之离线计算_Hdfs&Yarn&MapReuduce架构关系与MapReduce推测任务原理

发表于 2022-11-18 | 分类于 数据开发之离线计算
数据开发之离线计算_Hdfs&Yarn&MapReuduce架构关系与MapReduce推测任务原理1.Hdfs架构&Yarn架构&MapReuduce组件之间的对应关系1.1 Hdfs架构一个hdfs集群包含一个namenode,用来管理文件系统的命名空间,以及调节客户端对文件的访问。一个hdfs集群还包括多个datanode,用来存储数据。 1.2 Yarn架构 ...
阅读全文 »

ClickHouse_ClickHouse常见系统表与磁盘自动迁移问题排查

发表于 2022-11-11 | 分类于 ClickHouse
ClickHouse_ClickHouse常见系统表与磁盘自动迁移问题排查1.常见ClickHouse系统表及其字段1.1 system.clusterssystem.clusters表中记录了配置文件中所配置好的集群和服务器相关的信息,主要字段如下: 12345678910cluster (String) — 集群名称。shard_num (UInt32) — 集群分片数,从1开始。shard_ ...
阅读全文 »

HiveSQL实战积累_窗口函数

发表于 2022-11-04 | 分类于 HiveSQL实战积累
HiveSQL实战积累_窗口函数1.窗口函数基本概念1.1 窗口函数概述窗口函数能够使用一行或多行的值来返回每一行的值,出现在select子句的表达式列表中。over是关键字,用来指定函数执行的窗口范围,over关键字中包含三个分析子句:分组(partition by)、排序(order by)和Frame窗口区间。 如上图所示,将窗口函数与group by进行比较:group by就是使用聚合 ...
阅读全文 »

HiveSQL实战积累_日期转换

发表于 2022-10-27 | 分类于 HiveSQL实战积累
HiveSQL实战积累_日期转换1.日期格式转换to_date() to_date(时间戳/日期)的作用是返回时间戳中的日期部分,该函数的入参必须是timestamp类型或者date类型,返回值类型为string。 12示例1:select to_date(cast('2010-12-08 10:03:01' as timestamp)) --timestamp时间戳作为参数结果1:2010-12 ...
阅读全文 »

Java服务_ck服务弹性接口service层和dao层设计实战2

发表于 2022-10-20 | 分类于 Java服务
Java服务_ck服务弹性接口service层和dao层设计实战21.背景在ck等olap数据服务层,为了抽象化我们创建的接口,扩展接口的可服用性,我们一般会把接口设计成弹性接口。弹性接口的意思就是,传入的维度参数列表是可选的、可变的,传出的指标数据列表也是可选的、可变的。 如下表所描述的一个接口为例来对弹性接口进行理解: serviceName getBrandIndBrandRank ...
阅读全文 »

Java服务_ck服务弹性接口service层和dao层设计实战1

发表于 2022-10-14 | 分类于 Java服务
Java服务_ck服务弹性接口service层和dao层设计实战11.背景在ck等olap数据服务层,为了抽象化我们创建的接口,扩展接口的可服用性,我们一般会把接口设计成弹性接口。弹性接口的意思就是,传入的维度参数列表是可选的、可变的,传出的指标数据列表也是可选的、可变的。 如下表所描述的一个接口为例来对弹性接口进行理解: serviceName getBrandIndBrandRank ...
阅读全文 »

京东商智_Linux命令大全

发表于 2022-10-06 | 分类于 京东商智
京东商智_Linux命令大全1.网络传输类1.1 ncnc是一个功能强大的网络工具,可以用于实现对本服务器上任意TCP/UDP端口的监听,也可以用于连接其他服务器的TCP/UDP端口,从而实现服务器节点之间的文件传输和接口连通性扫描。 参考文献1 参考文献2 参考文献3 1.2 lftpFTP服务是指在不同机器之间实现文件传输功能的服务,要实现该服务,首先需要安装vsftpd软件搭建一台ftp服务 ...
阅读全文 »
1…8910…18
zju岩手县小森

zju岩手县小森

看的远固然重要 但是走好眼前的路才是关键

176 日志
15 分类
143 标签
Instagram Bilibili
© 2025 zju岩手县小森