离线数据与实时数据使用
报表类型 | 时间选择 | 优缺点 |
---|---|---|
离线数据报表 | 可以选择从实验开始到昨天的历史数据情况,以天为时间粒度 | 优点是比较准确,指标全面;缺点是更新周期较长,当天更新前一天数据。一般用于实验效果的数据分析 |
实时数据报表 | 对应的趋势图为当天各小时或者分钟某指标的变化趋势,对应的表格为当天各个指标各小时或者分钟的累计数据 | 优点是更新快,分钟级更新;缺点是相对不精确,并且只支持一些核心指标的展示。一般用于实验上线初期的实验数据调试 |
实时数据报表
实时报告只包括趋势图表。在AB实验平台中,实时数据的时间粒度可以选择“分钟”和“小时”两种,小时口径为该小时下对应的各分钟数据之和。
实时数据主要用来做实验上线后的追踪,便于排查一些问题,衡量实验的效果主要依靠离线数据。
离线数据报表
离线数据报表页面包括指标选择控件、维度筛选器、时间控件、图表等,例如展示实验的样本数和日志数,如下图所示。
实验组与对照组离线数据展现
对于离线指标,不仅能够展示指标的“统计值”,还要能够展示该指标的“P-Value值”和“置信范围”,在实际应用中,实现部分核心指标支持“P-Value值”和“置信范围”,其实已经足够使用,对于有些不能用P值来衡量的指标,更不用提供“P值”和“置信区间”的展示,下图所示为实验平台带有“P-Value值”的表格页面。
实验平台中“P-Value值”的展现
“P-Value值”和“置信范围”是数据分析中经常用到的统计学概念,由于篇幅有限,这里只做简单介绍,有兴趣的读者可以查看统计学相关数据进一步了解。P-Value也就是P值,它是推断统计中的一个重要指标,在假设检验有着重要的应用,是用于判断原假设是否正确的依据。P值的计算方式为每个用户作为一个样本,实验组两两之间按天统计,所以在查看P值时,根据需要选择实验组和对照组。根据统计学原理,如果P值小于0.05,则认为两组之间存在显著性差异,实验结果可信。如果P值大于0.05,则表明当前实验结果无显著性差异,可以考虑增大实验样本量,或者更换实验方法后重开实验,以便得出更具说服力的实验结果
A/B 测试是一种对比试验,而试验就是从总体中抽取一些样本进行数据统计,进而得出对总体参数的一个评估。这里提一下统计显著性的概念,在假设检验中,如果样本数据拒绝原假设,那么我们说检验的结果是显著的;反之,则说结果不显著。
置信范围主要用来评估实验效果,用来查看采用实验组策略上线后,指标变化预计的波动范围。在查看实验的置信范围时,需要首先选定实验组和对照组。置信区间的置信水平代表了实验假设的可靠程度,在通常的实验方案中,我们使用 95% 的置信水平进行区间估计。通俗一点地讲,置信区间是一个平均区间范围,该区间有95%的概率包含真实的总体均值。通过AB测试实验,得到了如下表所示的实验数据。
产品支付流程优化实验结果数据
实验分组 | 用户总量 | 支付订单数 | 人均支付订单数 | 变化[95%置信区间] | 变化显著性 |
---|---|---|---|---|---|
对照组 | 42470 | 92990 | 2.19 | ||
实验组 | 42674 | 108468 | 2.54 | +16.09%[14.98%, 17.20%] | 显著 |
为了对比两种产品设计方案的效果,对增加了X功能的设置为实验组,而没有该功能的设置为对照组,实验经过一段时间,统计实验结果数据如表7-2所示。观察数据,可以发现:
对照组一共有42470个用户,总共支付完成92990个订单,平均每个用户贡献2.19个订单。
实验组一共有42670个用户,公共支付完成108468个订单,平均每个用户贡献2.54个订单。
相比于对照组,实验组提高了16.09%,我们有95%的概率相信,在最差的情况下实验组比对照组好14.98%,在最好的情况下实验组比对照组好17.20%,检验结果为显著,代表实验组比对照组好这个假设是成立的,因此可以上线X功能优化产品生产订单流程。
发表评论 取消回复