数据开发之离线计算_AB生产链路实践
一、基础架构
1) 逻辑扩维:实验同质可比以及非实验上报的后置灵活观测场景抽象为业务事实表与实验分流维表间的逻辑扩维,避免物理层面的存算冗余和扩展性差的问题;
2) 逻辑变高:多种实验分流字段(PIN、UUID、PIN+UUID)引发的不同关联Key的场景抽象为自定义CASE WHEN关联键,基于单张多分流字段的分流维表实现维值扩充操作(具体指实验ID维度);
3) Flow-Node编排:实验场景(样本聚合、实验聚合)对于数据不同粒度的分析观测诉求抽象为加速策略中的三种Node节点类型:裁剪明细、轻聚合、预计算;当天决策以及累计行为和进组的科学观测抽象为 指标计算中的两种时间策略:当天、累计。同时上述整个DAG也会面临到节点间的动态调整,即节点可能跳过或引入新的节点依赖,这种动态编排决定哪些节点应执行,哪些不应执行。
4) 智能退化:不同实验不同的结束时间抽象为不同加速策略下不同的过期时间,同时伴随着BDP任务的自动禁用和Hive数据的主动删除。
二、生产实例
1) 裁剪明细:本质将指标所对应的业务事实表(如订单大盘表、曝光大盘表、点击大盘表),与实验分流维表进行RIGHT JOIN关联,扩展指标所需的实验ID、实验版本等实验维度信息。
1 | SELECT |
2) 轻聚合:由于实验需要通过当日数据进行决策,通过累计数据进行监控和洞察,因此轻聚合阶段会完成样本粒度的当日、累计两种粒度的数据聚合。
1 | SELECT |
3) 预计算:除了指标具体值计算之外,预计算阶段实验粒度的聚合还集成了数科相关的统计量信息(如样本量、样本和、样本平方和以及复合指标乘积和等),这些中间态数据完整支持了指标P值、置信区间的产出。
1 | SELECT |
4) 列转行Schema:作为数据服务终端查询的固定表信息,汇总了所有实验所有指标的预计算结果数据。基于单表秒级支撑实验报告的洞察分析。