1

【概率论】随机变量的收敛模式

 1 year ago
source link: https://zhuanlan.zhihu.com/p/391331203
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

【概率论】随机变量的收敛模式

数学话题下的优秀答主

最近整天在摸鱼,不如把之前整理过的东西发上来。之所以整理这些内容,是因为自己所见到的书都写得不够清晰,不如自己整理一边。原本是在 TEX 上排版的,为了保证效果,打算手动排版一遍。

以下设 {Ω,F,P} 为概率空间,并且默认读者已经了解公理化概率论。也即, P 实质上是可测空间 {Ω,F} 上的测度, {Ω,F,P} 实质上是测度空间,并且随机变量指的是上述测度空间上的实值可测函数。

在上面的基础上,我们可以类比实分析中的方法,研究随机变量列 {Xn} 的收敛,并设这个随机变量序列以 X 为极限。最简单的收敛模式是逐点收敛与一致收敛,这个和分析中的定义是一样的,在这里就不再提及。但是,逐点收敛和一致收敛对 {Xn} 的要求太强了,如果 {Xn} 只是在某些点不收敛到 X ,并且这些点微不足道,或趋于微不足道,那么我们对 {Xn} 的要求便放宽了许多。这也更有利于我们研究实际的问题。

另外,研究随机变量的收敛,是后面的大数定律、中心极限定理的基础,从而随机变量的收敛模型,对于概率论与数理统计而言非常重要。

  • 几乎必然收敛
  • 几乎一致收敛
  • 依概率收敛
  • 依分布收敛

一、几乎必然收敛

首先是上面所提的“微不足道”。

定义1 设 \{X_n,n=1,2,\cdots\} 和 X 是概率空间 \{\Omega,{\mathscr{F}},{\mathbb{P}}\} 上的随机变量。若

{\mathbb{P}}\left\{\lim_{n\to+\infty}X_n\ne X\right\}=0,\quad\text{或}\quad{\mathbb{P}}\left\{\lim_{n\to+\infty}X_n=X\right\}=1,

则称 \{X_n\} 几乎必然以 X 为极限,记为 X_n\xrightarrow{{\rm{a.s.}}}X ;若 X {\rm{a.s.}} 有限且 X_n\xrightarrow{{\rm{a.s.}}}X ,则称 \{X_n\} 几乎必然收敛于 X 。

仔细品味上面的定义,所谓 {\mathbb{P}}\left\{\lim_{n\to+\infty}X_n=X\right\}=1 的含义是:事件 \lim_{n\to+\infty}X_n=X 发生的概率是 1 ,从而这是一个必然事件。虽然概率为 1 的事件也可能不发生,但是在某种意义上,我们认为事件 \lim_{n\to+\infty}X_n=X 几乎是处处成立的。

以下是几乎必然收敛的一个等价命题,证明留作练习。

命题1(等价命题) X_n\xrightarrow{{\rm{a.s.}}}X 当且仅当对任意的 \varepsilon>0 ,有
\begin{aligned} &{\mathbb{P}}\left\{\bigcap_{m=1}^{+\infty}\bigcup_{n=m}^{+\infty}\{|X_n-X|\geq\varepsilon\}\right\}=0, \\ &\text{或}\quad{\mathbb{P}}\left\{\bigcup_{m=1}^{+\infty}\bigcap_{n=m}^{+\infty}\{|X_n-X|<\varepsilon\}\right\}=1. \end{aligned}

二、几乎一致收敛

类比分析中的一致收敛,我们可以定义“几乎一致收敛”。这要求随机变量的收敛在整个区域内的步调是一致的,不会出现收敛极慢的点。我们的定义如下。

定义2 设 \{X_n,n=1,2,\cdots\} 和 X 是概率空间 \{\Omega,{\mathscr{F}},{\mathbb{P}}\} 上的随机变量。若对任意的 \varepsilon>0 ,存在 A\in{\mathscr{F}} ,使得 {\mathbb{P}}\{A\}<\varepsilon ,且

\lim_{n\to+\infty}\sup_{\omega\notin A}|X_n(\omega)-X(\omega)|=0,

则称 \{X_n\} 几乎一致收敛于 X ,记为 X_n\xrightarrow{{\rm{a.u.}}}X 。

需要注意,我们这时候并不是要求 \limsup_{n\to+\infty}|X_n-X|=0 几乎处处成立,而是让它在去掉一个测度小于 \varepsilon 的集合 A 后成立。给定一个 \varepsilon>0 ,我们都可以找到一个集合 A ,使得上式成立,但是我们并不能找到一个零测集 E ,使得上式成立。

同样地,几乎必然收敛也有等价的命题,证明在此省略。

命题2(等价命题) X_n\xrightarrow{{\rm{a.u.}}}X 当且仅当对任意的 \varepsilon>0 ,有
\lim_{m\to+\infty}{\mathbb{P}}\left\{\bigcup_{n=m}^{+\infty}\{|X_n-X|\geq\varepsilon\}\right\}=0.

根据 {\mathbb{P}}\{\Omega\}=1 ,结合命题1命题2,我们可以证明,几乎必然收敛和几乎一致收敛在概率空间上是等价的。从而,我们在研究随机变量的收敛模型时,只需要考虑几乎必然收敛,而不再特别提到几乎一致收敛。命题3的证明很简单,相信读者可以自行完成。

命题3(蕴含关系) X_n\xrightarrow{{\rm{a.u.}}}X 当且仅当 X_n\xrightarrow{{\rm{a.s.}}}X 。

三、平均收敛

再进一步,我们假设随机变量是可积的,这样我们就可以计算随机变量的期望和矩。需要注意,在积分的过程中,零测集是完全可以忽略掉的。

定义3 设 \{X_n,n=1,2,\cdots\} 和 X 是概率空间 \{\Omega,{\mathscr{F}},{\mathbb{P}}\} 上的随机变量。且 X_n,X\in L_r,n=1,2,\cdots ,其中 r>0 ,若

\lim_{n\to+\infty}{\mathbb{E}}|X_n-X|^r=0,

则称 \{X_n\} r 阶平均收敛于 X ,记为 X_n\xrightarrow{L_r}X 。

四、依概率收敛

接下来的收敛,和以前的收敛模式不太一样。

过去谈论的是不收敛的点“微不足道”的情况,现在我们尝试放宽一点,只要让不收敛的点“趋于微不足道”就可以了。

定义4 设 \{X_n,n=1,2,\cdots\} 和 X 是概率空间 \{\Omega,{\mathscr{F}},{\mathbb{P}}\} 上的随机变量。若对任意的 \varepsilon>0 ,都有

\lim_{n\to+\infty}{\mathbb{P}}\{|X_n-X|\geq\varepsilon\}=0,

则称 \{X_n\} 依概率收敛于 X ,记为 X_n\xrightarrow{p}X 。

上面的定义中,收敛是依赖于测度 \mathbb{P} 的,其对应着实分析里的依测度收敛。

当然,依概率收敛也有等价的命题。

命题4(等价命题) X_n\xrightarrow{p}X 当且仅当对 \{X_n\} 的任一子列,存在该子列的子列 \{X_{n'}\} ,使 X_{n'}\xrightarrow{{\rm{a.u.}}} X 。

在有了上面的多种收敛模式之后,我们可以简单的研究一下它们蕴含关系。

命题5(蕴含关系)若 X_n\xrightarrow{{\rm{a.u.}}}X 或 X_n\xrightarrow{{\rm{a.s.}}}X ,则 X_n\xrightarrow{p}X 。

命题6(蕴含关系)若 X_n\xrightarrow{L_r}X ,则 X_n\xrightarrow{p}X 。

当然,几乎必然收敛和 r 阶平均收敛是互不蕴含的,读者可以尝试举出反例。

五、特征函数

在引入最后的一个收敛模式之前,我们先提一个非常重要的函数,叫作特征函数。特征函数本质上是对随机变量的Fourier-Stieltjes变换,可以通过计算一个积分得到。特征函数在此并不是重点,因此它的性质在这里直接列举。

定义5 设 X 是概率空间 \{\Omega,{\mathscr{F}},{\mathbb{P}}\} 上的随机变量,则 f(t)={\mathbb{E}}{\rm{e}}^{itX} 称为 X 的特征函数

首先是特征函数的基本性质,也是Fourier-Stieltjes变换的基本性质。

命题7(特征函数的性质)设 f(t) 是随机变量 X 的特征函数。

  • f(0)=1 ;
  • f|(t)|\le 1 , \forall t\in{\mathbb{R}} ;
  • f(t) 在 {\mathbb{R}} 上一致连续。

其次,设 X 可积,则可以对 f(t) 进行展开,其中每一项的系数都和矩有关。

命题8(Taylor展开式)设 f(t) 是随机变量 X 的特征函数, X\in L_n ,则

f(t)=1+\sum_{k=1}^{n}\dfrac{(it)^k}{k!}{\mathbb{E}} X^k+o(t^n),\quad t\to 0.

最后,根据Fourier-Stieltjes变换的反演公式可以得到如下的工时。

命题9(反演公式)设 f(t) 是分布函数 F 的特征函数,则

\bar{F}(b)-\bar{F}(a)=\dfrac{1}{2\pi}\lim_{T\to+\infty}\int_{-T}^{T}\dfrac{{\rm{e}}^{-itb}-{\rm{e}}^{-ita}}{-it}f(t){\rm{d}} t,

其中 \bar{F}(x)=\dfrac{F(x)+F(x-0)}{2} 。

值得一提的是,命题9说明了特征函数和分布函数是一一对应的。同时,设 X 是连续型随机变量,密度函数为 p(x) ,特征函数为 f(t) ,则

p(x)=\dfrac{1}{2\pi}\int_{-\infty}^{+\infty}{\rm{e}}^{-itx}f(t){\rm{d}} t.

六、依分布收敛

最后这个收敛是最弱的收敛,甚至也被称为“弱收敛”。

定义6 设 \{X_n,n=1,2,\cdots\} 和 X 是概率空间 \{\Omega,{\mathscr{F}},{\mathbb{P}}\} 上的随机变量,对应的分布函数分别为 \{F_n,n=1,2,\cdots\} 和 F 。若

F_n(x)\to F(x),\quad\text{对任意的$F(x)$的连续点$x$,}

则称 \{F_n\} 弱收敛到 F , 记为 F_n\xrightarrow{w}F ;称 \{X_n\} 依分布收敛于 X ,记为 X_n\xrightarrow{d}X 。

在这里指出依分布收敛与特征函数的关系,其实也是依分布收敛的等价命题。利用该命题,容易判断某个随机变量序列是否是依分布收敛的。同时,该命题也是后面的中心极限定理的基础。

命题10(连续性定理)设 \{X_n,n=1,2,\cdots\} 和 X 对应的特征函数分别为 \{f_n(t),n=1,2,\cdots\} 和f(t) ,则 X_n\xrightarrow{d}X 当且仅当

\lim_{n\to+\infty}f_n(t)=f(t),\quad\forall t\in{\mathbb{R}}.

接下来,我们对依分布收敛和之前的收敛模式之间的关系非常感兴趣。在这里指出,依分布收敛比上面的“趋于微不足道”的依测度收敛更弱一些。

命题11(蕴含关系)若 X_n\xrightarrow{p}X ,则 X_n\xrightarrow{d}X 。

但是,如果 X 退化到一个常数的话,上面的两种收敛是等价的。因此,如果我们要证明某个随机变量序列依概率收敛到某个常数,我们也可以证明它依分布收敛到一个常数,从而考虑这个随机变量序列的特征函数。

命题12(蕴含关系) X_n\xrightarrow{p}c 当且仅当 X_n\xrightarrow{d}c 。

最后,用一个漂亮且非常有用的引理来结束这篇文章。

命题13(Slutsky引理)若 X_n\xrightarrow{d}X , Y_n\xrightarrow{p}0 , W_n\xrightarrow{p}1 则

W_nX_n+Y_n\xrightarrow{p}X.

需要注意,Slutsky引理对于 \{X_n\} , \{Y_n\} 和 \{Z_n\} 之间的独立性是没有要求的,因此可以被广泛的应用。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK