岩手县小森的博客

努力将眼前的每一天过得精彩


  • 首页

  • 标签

  • 分类

  • 归档

数据开发之离线计算_AB生产链路实践

发表于 2025-04-12 | 分类于 数据开发之离线计算
数据开发之离线计算_AB生产链路实践一、基础架构 1) 逻辑扩维:实验同质可比以及非实验上报的后置灵活观测场景抽象为业务事实表与实验分流维表间的逻辑扩维,避免物理层面的存算冗余和扩展性差的问题; 2) 逻辑变高:多种实验分流字段(PIN、UUID、PIN+UUID)引发的不同关联Key的场景抽象为自定义CASE WHEN关联键,基于单张多分流字段的分流维表实现维值扩充操作(具体指实验ID维度); ...
阅读全文 »

数据开发之离线计算_全链路归因数据体系

发表于 2025-03-22 | 分类于 数据开发之离线计算
数据开发之离线计算_全链路归因数据体系一、什么是全链路归因1.概述 顾名思义,【全链路归因】可以理解为针对业务定义的用户结果属性行为(如点击、加购、下单),依据用户从站外来源到站内分发的全链路行为,找出结果行为的主因是什么。从全零售业务(场主、货主、经分等)视角出发,【主因】主要被细化为一级场域来源、一级场域、二级场域来源、二级场域、素材来源、素材、商详间接分发。 若从研发视角看: 一级场域来 ...
阅读全文 »

数据开发之离线计算_自定义调度时间表达式定义与解析

发表于 2025-02-24 | 分类于 数据开发之离线计算
数据开发之离线计算_自定义调度时间表达式定义与解析一、背景常见的周期调度平台只能支持最简单的按天、按周、按月等自然时间粒度,但是每次调度要参与计算的数据的时间范围是不一定的。整天、整周、整月、周至今、月至今、近7天等都是比较常见简单的了。比如有人可能希望每次取当天的上一次每月3号到当天这个时间范围内的数据进行推数或计算。所以作为计算调度平台,为用户提供可以表达任意相对或绝对的一天的自定义计算开始& ...
阅读全文 »

Java服务_CountDownLatch的作用与实践

发表于 2025-02-23 | 分类于 Java服务
Java服务_CountDownLatch的作用与实践1.使用方法CountDownLatch 是 Java 中 java.util.concurrent 包中的一个同步辅助类,用于协调多个线程之间的执行。它允许一个或多个线程等待,直到在其他线程中执行的一组操作完成。 使用方法: 1.在创建时需要指定一个计数值,这个值代表需要等待的事件数量。 2.一个或多个线程可以调用 await() 方法进入等 ...
阅读全文 »

数据开发之离线计算_维度建模关键知识与读后感

发表于 2025-02-23 | 分类于 数据开发之离线计算
数据开发之离线计算_维度建模关键知识与读后感一、背景1.1 阅读契机有三个契机去买下《维度建模》这本书,去真正沉下心读一本实体书: 1.刚毕业入职,得知我是做后端,之前没有接触过数据仓库,推荐我去读一下Kimball的《维度建模》。 2.在工作一段时间第一次想跳槽时,投了美团的数据仓库工程师岗位,那个面试官问了很多数据仓库基础理论知识,包括项目中如何构建数据模型、构建数据模型考虑了哪些因素,我垭口 ...
阅读全文 »

京东商智_Git高效协作与开发

发表于 2025-02-18 | 分类于 京东商智
京东商智_Git高效协作与开发一、方案设计篇对于团队来说,人越多,协作就会越慢,协作的成本也会越高。团队研发本质是一个异步的、延迟协作的过程,随着产品负责度和团队复杂度的增加,协作成本快速上升。 要实现沟通成本和冲突风险最小化,要尽可能实现每个人的工作是独立的。为此,一个好的、合理的技术方案是非常重要的。 1.技术方案设计 负责人进行总体技术方案设计:基于项目目标和技术全景进行解决方案的产出;梳 ...
阅读全文 »

京东商智_基于ClickHouse预计算&智能物化预计算&日志解析&ck2hbase组件技术方案

发表于 2025-01-22 | 分类于 京东商智
京东商智_基于ClickHouse预计算&智能物化预计算&日志解析&ck2hbase组件技术方案一、背景 高QPS场景为满足查询性能需求,需要配置预计算策略,目前都是基于Hive表使用Spark引擎进行预计算,存在运算速度慢、浪费资源的问题,易导致关键看板SLA容易破线(eg:商智流量8点以后)、计算资源费用巨大(eg:商智流量3000元/天)。ClickHouse基于向量 ...
阅读全文 »

京东商智_加速策略支持查询现关联技术架构

发表于 2025-01-09 | 分类于 京东商智
京东商智_加速策略支持查询现关联技术架构一、背景当前现状从hive开始配置了扩维之后,再配置介质加速和预计算加速策略,会在生产过程中会使用生产日期维表进行关联生产,查询历史周期数据时只能得到历史快照维度数据。一些指标服务定义驱动用户从hive层开始配置扩充缓慢变化维度和加速策略,在部分业务场景下希望每次查询获取最新维度数据而不是历史快照维度数据。 业务case:商智合并业务场景中,子品牌为事实维 ...
阅读全文 »

搜索推荐_迈向大规模生成式排序

发表于 2025-01-06 | 分类于 搜索推荐
迈向大规模生成式排序_译文摘要生成式推荐最近在信息检索领域中成为一种有前景的范式。然而,生成式排序系统仍然缺乏研究,特别是在其在大规模工业环境中的有效性和可行性方面。本文研究了小红书探索页推荐系统在排序阶段的这一主题,该系统服务于数亿用户。具体来说,我们首先研究了生成式排序如何优于当前的工业推荐系统。通过理论和实证分析,我们发现有效性提升的主要来源是生成式架构,而不是训练范式。为了促进生成式排序的 ...
阅读全文 »

通用工具_数据是从业务当中生长出来的

发表于 2025-01-04 | 分类于 通用工具
通用工具_数据是从业务当中生长出来的在创新零售数据BP工作两年的时间,是作为数据工作者,在京东7年工作时间里职业幸福感、价值感最强的两年。他们来自于哪里呢?–孟诚 (一)从流水线工人到小菜鸡刚毕业加入我们部门的时候我是做商智的产品,后来做黄金眼,负责一些垂类业务线的数据看板搭建,角色更多是被动接受需求落地,业务的需求也更偏经营结果展示,是最简单的三段式报表,指标卡+趋势图+明细表格(如图1),更多 ...
阅读全文 »
12…18
zju岩手县小森

zju岩手县小森

看的远固然重要 但是走好眼前的路才是关键

176 日志
15 分类
143 标签
Instagram Bilibili
© 2025 zju岩手县小森