5

机器学习中的样本量问题

 2 years ago
source link: https://jasonyanglu.github.io/posts/2019/07/blog-post-3/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

机器学习中的样本量问题

1 minute read

Published: July 01, 2019

在机器学习业务中经常需要评估模型的效果。例如在流量划分实验A/B Test中,我们需要确定需要多少流量可以得出统计结论是模型A好还是模型B好。一个显而易见的结论是流量越多越好,但是流量切分试验做得越久,也就意味着更多损失。所以我们需要确定样本量来对流量实验进行统计检验。

另一个相似的问题是,我们需要多少样本量才可以使样本均值足够逼近总体均值(也就是期望),例如我们通过100次用户行为(点击或曝光)来计算得出的ctr与当天的整体ctr会有多少偏差?根据大数定律,样本均值随着样本量增大逼近分布期望,那么我们需要多少样本才能使样本均值够足够逼近期望呢?

这两个问题的区别是:

  • 统计检验样本量是通过样本来计算两个总体的差异是否有显著性。
  • 采样所需样本量是计算样本和总体的偏差。

统计检验样本量预估

问题描述:

假设有两个总体均值μ0和μ1,已知总体标准差σ,在给定显著水平α和统计功效1−β 时,每个实验组至少需要多少样本量n,才能够比较两个总体均值?

  • α:Type I Error的概率,即当零假设成立时拒绝零假设的概率。
  • β:Type II Error的概率,即当零假设不成立时不拒绝零假设的概率。
  • 1−β:当零假设不成立时拒绝零假设的概率。

该问题的零假设与备择假设为:

H0:μ0−μ1=0H1:μ0−μ1=δ

通过计算可得,零假设H0的临界值为

z1−α/2σ√2/n

其中σ√2/n是均值的标准差,通过两个总体的方差相加和中心极限定理计算得出。备择假设H1的临界值为

δ−z1−βσ√2/n

临界值在0与β之间,代表在给定标准差时的不确定性。令两个临界值相等可得:

n=2(z1−α/2+z1−β)2σ2(μ0−μ1)2

即当n满足该式时,我们则可以在给定显著水平α和统计功效1−β比较两个总体均值。通常当α=0.05和1−β=0.8时,可以用近似值快速计算n:

n=16σ2δ2

在实际计算中,我们需要预估备择假设中两个总体的均值差异δ。

  1. 如果该问题是单样本问题,则将计算n的公式里的分子中的2去掉。
  2. 如果该问题是单侧检验问题,则使用z1−α来替代z1−α/2。
  3. 如果两个样本的方差不同,则将(4)分子中的σ2替换成σ20+σ21。
  1. 通过给定显著水平α和统计功效1−β,查表得出相应的z值z1−α/2和z1−β。
  2. 预估总体均值差异δ和方差σ2,如果无法预估,可以通过一小段时间的快速实验的样本均值差异ˉδ和样本方差ˉσ2来取值。
  3. 通过公式(4)计算得出n。
  4. 进行流量实验,对每个实验组取n个样本,并进行统计检验。

现一推荐系统随机推荐ctr为0.5,准备上线模型推荐,预期ctr提升0.01。因为ctr服从伯努利分布,其方差为σ=p(1−p)。当α=0.05和1−β=0.8时,根据方差不同版本的(4)计算可得:

n=16×(0.5×0.5+0.51×0.49)0.012≈79983

通过流量实验对随机组和模型组分别取79983个样本,并使用双比例z检验计算z值和p值。

CASE 1 (显著结论):随机ctr为0.498,模型ctr为0.504,计算得出z1−α/2=2.39。通过查表得出p值为0.0168。则结论为模型推荐比随机推荐有显著差异,并且两种推荐方式无差异时得出该结论的概率小于0.0168。

CASE 2(不显著结论):随机ctr为0.498,模型ctr为0.501,计算得出z1−α/2=1.19。通过查表得出p值为0.234。则结论为模型推荐比随机推荐无显著差异,并且两种推荐方式差异为0.01的情况下得出该结论的概率小于0.0516(通过将n,z1−α/2代回(1)中计算得出z1−β)。

  1. Van Belle, Gerald. Statistical rules of thumb. Vol. 699. John Wiley & Sons, 2011.

采样所需样本量预估

问题描述:

假设总体均值为μ,需要在该总体中采样多少样本n,才能使样本均值ˉx与μ的差异大于ϵ的概率小于δ?

该问题可以采用Hoeffding不等式:

P(|ˉx|−μ|≥ϵ)≤2exp(−2nϵ2)

该不等式说明了样本均值ˉx与总体均值μ的差异大于ϵ的概率的上界是2exp(−2nϵ2)。令P(|ˉx−μ|≥ϵ)=δ,得出:

n=−log(δ/2)2ϵ2

从该式可以看出,样本量跟概率δ和差异ϵ成反比,即要求ϵ更小或概率δ更小,则需要更大的样本量n。

同理,也可以固定n和δ计算ϵ:

ϵ=√−log(δ/2)2n

公式(7)默认样本的取值范围为[0,1],例如比率。如果样本取值范围不是0~1,则使用:

n=−log(δ/2)(b−a)22ϵ2

其中a和b是样本取值的上下界。

  1. 如果只需要计算ˉx−μ>ϵ或者ˉx−μ<ϵ的概率,则(7)的右侧变为exp(−2nϵ2)。
  1. 给定目标差异ϵ和概率δ。
  2. 根据样本取值范围通过等式(8)或(10)计算所需样本量n。

1. 画像性别特征

已知一组画像数据中总体性别特征存在少许错误,则至少需要多少样本量n,才能够使样本性别准确率与总体性别准确率差异不超过0.01的概率不超过5%?

通过等式(8)计算可得:

n=−log(5%/2)2×0.012≈18444

所以当样本量大于18444时,样本性别准确率与总体性别准确率差异不超过1%的概率不超过0.05。也就是说,采样18444个样本重复100次,样本均值和总体均值差异超过1%不会超过5次。

2. 新闻推荐CTR

在新闻推荐业务中,观测数据发现凌晨1点到2点的CTR高于全天CTR,想要分析产生该现象的原因是由于凌晨用户点击推荐新闻意愿更高,还是由于凌晨数据量少产生的采样偏差。1点到2点的曝光PV为3070,CTR为1.66%,全天曝光PV为954605,CTR为0.9%。由于全天曝光PV较大,可以将其CTR当做总体CTR,则我们需要计算CTR差值超过1.66%-0.9%=0.76%的概率最高是多少。由于我们只需要计算大于差值的概率,所以将等式(7)改为:

P(CTR−¯CTR≥ϵ)≤exp(−2nϵ2)

计算可得:

P(CTR−¯CTR≥0.0076)≤70.14%

可得出结论1点到2点的CTR比全天CTR高0.76%以上的概率上界为0.7014,说明有很大几率是由于样本量不足导致的偏差。

列代表差异ϵ,行代表概率δ。

ϵ=0.0001ϵ=0.001ϵ=0.01ϵ=0.05ϵ=0.1ϵ=0.2
δ=0.001%610,303,6326,103,03661,0302,441610153
δ=0.01%495,174,3784,951,74449,5171,981495124
δ=0.1%380,045,1233,800,45138,0051,52038095
δ=0.5%299,573,2272,995,73229,9571,19830075
δ=1.0%264,915,8682,649,15926,4921,06026566
δ=5.0%184,443,9731,844,44018,44473818446
δ=10.0%149,786,6141,497,86614,97959915037
δ=20.0%115,129,2551,151,29311,51346111529
δ=30.0%94,855,999948,5609,4863799524
δ=40.0%80,471,896804,7198,0473228020
δ=50.0%69,314,718693,1476,9312776917
ϵ=0.0001ϵ=0.001ϵ=0.01ϵ=0.05ϵ=0.1ϵ=0.2
δ=0.001%575,646,2735,756,46357,5652,303576144
δ=0.01%460,517,0194,605,17046,0521,842461115
δ=0.1%345,387,7643,453,87834,5391,38234586
δ=0.5%264,915,8682,649,15926,4921,06026566
δ=1.0%230,258,5092,302,58523,02692123058
δ=5.0%149,786,6141,497,86614,97959915037
δ=10.0%115,129,2551,151,29311,51346111529
δ=20.0%80,471,896804,7198,0473228020
δ=30.0%60,198,640601,9866,0202416015
δ=40.0%45,814,537458,1454,5811834611
δ=50.0%34,657,359346,5743,466139359
  1. https://en.wikipedia.org/wiki/Hoeffding%27s_inequality

感谢腾讯高级研究员陈亮对本文的指点与修改。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK