5

闲扯 “自由度”

 3 years ago
source link: https://cosx.org/2008/12/degrees-of-freedom/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

闲扯 “自由度”

关键词:参数估计; 自由度

“闲扯” 是一个四川方言词汇,指的就是大家在没事的时候坐下来吹吹牛,聊聊天。现在正是夜深人静的时候,找人聊聊天是不合适的,就由我一个人来自言自语下什么是自由度。

我们进行统计分析,就像一个摄影师在拿着镜头在记录世界。但这个摄影师如果用的是广角镜头,那么他将面临一个问题:几何失真。特别是拍近景的时,拍出来的直线是弯曲的。这样就没有真失地反映客观事物的图像。所以这个时候他的反映真实客观现实的 “自由” 被限制了。虽然他的自由被限制了,但摄影师还是有办法矫正照的几何失真的:他可以尽量避免用广角镜头拍近景;他可以将照片交给专业的图像处理软件修复。所以,这个摄影师是有很多 “自由” 的手段来矫正照片失真的问题。这就可以当作是自由度的一个不恰当的类比。

第一次解释

很多时候,在做数据分析时,我们会和上面那个摄影师一样,遇到抽取的样本失真的问题。假设现在有一个总体{1,2,3,4,5,6,7,8,9},其均值为 5,我们从这个总体中抽取了一个样本{3,6,4,7,9}根据这个样本的均值来估计总体的均值。但样本的均值为 5.8,明显高于实际的总体的均值。要想我们抽出的样本达到理想的效果,我们应当是抽取了 9,就应当抽取 1,抽取了 2,就抽取了 8。但在我们前面抽取的样本中抽了一个 9,却没有 1,我们可以重新抽取剩下的个体,让它们中的一个个体值为 1,这样我们就有 4 次机会修正样本与总体不符的问题,这个时候,我们的自由度就是 4。

第二次解释

上面我们是从背面看到的自由度,现在我们换一个面来看自由度。还是上面的那个总体,现在我从中抽取了一个样本{x,6,4,7,9}, 我现在告诉你,抽出的样本的均值为 5.8,那么 x 的值是多少?我们很容易就得到答案:3。为什么我们能知道它是 3 呢?是因为这个 3 它不是独立的。它是与样本均值相联系的。这时,失去了一个自由度,此时自由度应当是 4。

再来看线性回归模型

Yi=a+bxi+ϵiYi=a+bxi+ϵi 的残差 ei=yi−(^a+^bxi)ei=yi−(a^+b^xi) 它受到下面两个条件限制 e1+…+en=0x1e1+…+xnen=0e1+…+en=0x1e1+…+xnen=0

所以它失去了两个自由度,误差的自由度为 n-2。

第三次解释

从它外表的两个方面看清楚什么是自由度了么?下面我们来挖地三尺,到内部去看看。

从几何上看,自由度可以看作是向量空间的维数。

假设我们有一个样本,有 n 个观测,它们来自 n 个独立的正态总体。该样本可以看作是一个 n 维随机向量: ⎛⎜ ⎜⎝x,⋮xn⎞⎟ ⎟⎠(x,⋮xn)

它来自 n 维空间,所以它的自由度为 n.

设 ¯¯¯xx¯ 为样本均值,我们可以对样本作如下分解:

⎛⎜⎝x:xn⎞⎟⎠=¯¯¯x⎛⎜ ⎜⎝1⋮1⎞⎟ ⎟⎠+⎛⎜ ⎜⎝x1−¯¯¯x⋮xn−¯¯¯x⎞⎟ ⎟⎠(x:xn)=x¯(1⋮1)+(x1−x¯⋮xn−x¯)

等式右边第一个向量空间的自由度为 1, 第二个向量受条件 ∑ni=1(xi−¯¯¯x)=0∑i=1n(xi−x¯)=0 限制,它的自由度为 n-1。

从数学上看,等式右边的第一个向量可以看作是等号左边向量在由 1‘张成的子空间上的最小二乘(或正交)投影,该子空间的维数为 1,所以它的自由度也是 1;等式右边第二个向量可以看作是等式左边向量在(n-1) 维正交补空间上的最小二乘投影,所以自由度为 n-1

统计学上的样本离差平方和可以看作是上等式右边第二个向量的模: n∑i=1(xi−x)2=∥∥ ∥ ∥∥x,−¯¯¯x⋮xn−¯¯¯x∥∥ ∥ ∥∥2∑i=1n(xi−x)2=‖x,−x¯⋮xn−x¯‖2

所以由它导出的统计量 nS2σ2nS2σ2 服从自由度为 n-1 的卡方分布。

第四次解释

该你来做了噻。

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。

统计之都微信二维码

← 不得不提的 P 值 决策与风险 →

发表 / 查看评论


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK