0

AB实验应用简书

 1 year ago
source link: https://jelly.jd.com/article/63abfa097003cc0061298274
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

JELLY | AB实验应用简书

AB实验应用简书
上传日期:2023.01.17
AB实验是我们在工作当中,尤其是互联网行业里,经常被用来验证一个功能最终是否会被上线的重要手段,下面就AB实验应用中最常见的问题进行梳理和总结。

一、AB实验原理

AB实验来源于假设检验,我们现在有两个同质的样本组,对其中一个组做出某种改动,然后来观测这种改动对于我们所关注的核心指标是否有具有显著影响,那么在这个实验中,原假设就是这项改动不会对我们所关注的核心指标有显著的影响,如果我们在做完实验后发现P值足够的小,则推翻原假设,证明这项改动会对我们所关注的核心指标产生显著影响,这就是AB实验的原理。如果用一句话来概括,AB实验其实就是同质样本组的对照实验。

二、辛普森悖论

AB 实验中一个比较常见的问题就是辛普森悖论,指的是在某种条件下我们所观测的两组数据,分别讨论的时候都会满足某种同样的性质,可是当我们把两个子数据集进行合并去观察整体时就会得出截然相反的结论。

举一个简单的例子,在对新用户首购流程的AB测试实验中:

11d36b920f7b79f2.png

辛普森悖论产生的原因就是我们把“值”与“量”两个维度的数据合并成了“值”一个维度去讨论,说的通俗一点,也就是说我们在划分子数据集的时候并没有对于流量进行合理的分割,导致所选取的实验组并不具有一定的代表性,举个例子,如果我们把辛普森悖论应用到互联网产品的实践当中,很可能就是我们用1%的流量用户去跑了一个实验,然后得出结论“新版本比老版本更加受用户欢迎”,而当新版本上线之后发现其实给用户带来的体验是下降的,那么这个就是辛普森悖论在实际运用中会给公司造成的损失。那么为了避免辛普森悖论的发生,我们应该保证对于样本量进行一个合理的分配,并且保证我们所选取的样本量具有相似的特征且他们都能代表总体特征。

三、样本量的计算

既然说到了解决辛普森悖论的一个重要方法就是取进行样本流量的合理分配,那么下一个问题就来了,就是AB实验的样本量应该如何去计算,关于样本量计算的理论公式:

11d36b920f7b79f2.png
11d36b920f7b79f2.png

了解了样本量计算的原理之后,在实际的工作应用中,我们可以使用样本量在线计算工具Evan's Awesome A/B Tools 进行快速便捷的计算,链接:https://www.evanmiller.org/ab-testing/sample-size.html;示例如下图

11d36b920f7b79f2.png

使用时需要理解在这个计算器当中所提到的关键数据的意义,应该怎么去设计。

  • 第一个需要我们去确定的就是baseline rate,是指我们在开始实验之前,对照组本身的表现情况,如我们在这个实验当中想要去观测的是一个按钮的点击率的变化,那么baseline rate就是原来的点击率是多少,这个点击率通常会参考历史数据。
  • 第二个需要设定的值是Minimum Detectable Effect ,顾名思义,这个参数代表了我们对于判断精度的最低要求,这个参数越小,说明我们对于判断精度的要求越高,相应的我们所需的样本量也就会增加。
  • 除了这两个参数外,还要求第一类错误的概率,对应的参数是Significance level,也就是我们所说的显著性水平,一般来说不超过5%,同时还要求,第二类错误的概率不超过20%,对应的参数Statistical power。

四、AB实验的开设流程

  1. 与PM沟通确认验证点:一般在开始AB实验之前,我们所需要做的第一步是和相关的pm进行沟通,确定这个实验所要验证的功能改动点在哪里;
  2. 分析师确认观测指标:在确认改动的功能点后,会由分析师去确认在这个实验当中所需要观测的核心指标;
  3. 确定实验流量:下一步就是对于样本流量的确认,根据样本量绝对值,对应到我们所需观测的用户群体去确认流量比例是多少;
  4. 发邮件确认实验配置:发邮件和相关的PM以及开发同学确认可以开启实验;
  5. 小流量开启灰度实验:在发版正式实验之前,一般会通过小流量去看一段时间的灰度实验,目的就是为了验证该新的功能不会造成特别极端的影响;
  6. 整理实验数据,产出实验报告:一般AB实验观测时间在7天左右,实验结束后对实验展开分析,通过实验分析的数据整合成一篇实验报告,结果反馈至PM及开发侧,如果实验结果显著,就会上线新功能。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK