2

概率论学习笔记(六)

 1 year ago
source link: https://zhuanlan.zhihu.com/p/45954178
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

概率论学习笔记(六)

数学话题下的优秀答主

作为概率论笔记的收尾,我准备在最后介绍一些概率论偏向于实际的应用。具体地来说,先对需要用到的概率论知识进行些许补充,然后介绍一些风险管理的基础知识。

若之后仍有空余时间,我将补充一篇额外的笔记包含一些经典习题以及其解题思路给读者作为参考。

我们先来介绍一些补充知识。这其中有些是后文将会用到的,另一些则是对概率论相关内容的扩展。

一、分位数,众数,矩母函数,数学期望的其它性质

关于数据特征,我们此处额外介绍一下分位数、众数。

X 为随机变量。

定义:

0<p<1, 若存在 c 使得 P(X\leq c)\geq p,P(X\geq c)\geq 1-p ,则称 c 为 X 的 p- 分位数。

若 X 在点 c 处取值的概率最大,称 c 为 X 的众数。

特别地, 0.5- 分位数就是中位数。

对于众数 c 而言,若 X 为离散型随机变量, P(X=c) 应该是概率分布列中的最大值。而若 X 为连续型随机变量,容易知道在 c 处密度 f(x) 取最大值。

需要注意的是:分位数与众数并不是唯一的。下举一例说明。

P(X=1)=P(X=2)=\frac{1}{2} 。

考虑中位数,我们发现按照如上定义,任何 [1,2] 中实数均为中位数。而 1 与 2 均为众数。

接下来,我们介绍与特征函数具有相似定义与性质的矩母函数。

定义: M_X(t)=Ee^{tX} 称为随机变量 X 的矩母函数。

关于其性质,我们简单地介绍两条。(事实上,所有性质都可由特征函数推广而来)

1、 M_X(0)=1,M_X^{(n)}(0)=EX^n

2、 X_1,...,X_n 为相互独立的随机变量, X_i 矩母函数为 M_i(t) ,则对于 Y=\sum_{i=1}^nX_i ,其有矩母函数 M_Y(t)=\prod_{i=1}^nM_i(t) 。

容易看到矩母函数同样很适合处理独立的随机变量之和的分布的问题。

与特征函数类似地,矩母函数也与概率分布相互唯一决定。且矩母函数在 0 处的 n 阶导数值即为 X 的 n 阶原点矩,这就是“矩母函数”这个名称的由来。为理解这些性质,在此举一例进行说明。

例:已知矩母函数 M_X(t)=e^{2e^t-2} ,求 EX,VarX,P(X=2)

EX=M_X^{'}(t)|_{t=0}=2

EX^2=M_X^{''}(t)|_{t=0}=6

故 VarX=EX^2-E^2X=2

此处要如何求得概率分布呢?

注意到 M_X(t)=Ee^{tX} ,要是我们能将矩母函数写成 P(X=0)e^{t0}+P(X=1)e^{t}+P(X=2)e^{2t}+... 的形式,问题就迎刃而解了。

仔细观察矩母函数的形式,我们发现进行Taylor展开可以将指数上的指数函数拿下来,编变为上述形式。

故我们在 0 处进行Taylor展开。

得到 M_X(t)=e^{-2}e^{2e^t}=e^{-2}(1+2e^t+\frac{(2e^t)^2}{2!}+...)

则易知 P(X=2)=\frac{2}{e^2} 。

接着,我们再介绍一下数学期望的其他性质。

我们知道在定义数学期望时,我们将离散型随机变量和连续型随机变量进行了分开定义,而且我们还遗漏了对于混合型随机变量的数学期望定义。(是我故意的233)那么,是否存在一种统一定义对于这三种随机变量具有相同的形式呢?我们给出数学期望的另一种定义。

性质:(数学期望等价定义)

假设 X\in [a,\infty)\ a.s. , F 为分布函数,那么 EX=a+\int _a^\infty(1-F(x))dx 。

我们在此仅对于连续型随机变量进行证明,离散型与混合型的证明由读者完成。

a+\int _a^\infty(1-F(x))dx=a+\int_a^\infty P(X>x)dx=a+\int_a^\infty dx\int_x^\infty f(t)dt

由Fubini定理,可以进行二重积分变序,得到 =a+\int_a^\infty f(t)dt\int_a^tdx

=a+\int_a^\infty t f(t)dt-a\int_a^\infty f(t)dt=\int_a^\infty tf(t)dt=EX

值得一提的是,这个形式可以进行推广。当 X\in[a,b]\ a.s. 时, EX=a+\int_a^b(1-F(x))dx 。证明由读者自行完成。

这个等价定义利用了分布函数,好处是对离散型、连续型、混合型随机变量的数学期望求解具有统一的定义形式。

对于,数学期望的性质,我们再补充一下Jensen不等式的数学期望形式。这在证明一些与期望相关的关系式时往往很有用。

定理(Jensen不等式的数学期望形式)

h 为实函数,二阶可导。则若 \frac{d^2}{dx^2}h(x)\geq 0 对任意 X 的取值概率/密度非零点成立,则 Eh(X)\geq h(EX) 。反之,若 \frac{d^2}{dx^2}h(x)\leq 0 对任意 X 的取值概率/密度非零点成立,则 Eh(X)\leq h(EX)。

略去此定理的证明。

我们知道在分析学课程中我们接触到的Jensen不等式比较的是 f(\frac{x_1+...+x_n}{n}) 与 \frac{f(x_1)+...+f(x_n)}{n} 的大小关系。这其实仅仅是上述定理的特殊情况。(取概率分布为 P(X=x_i)=\frac{1}{n}(i=1,2,...,n) 即可)

事实上,期望本身也带有加权平均的意义,因此Jensen不等式在期望意义下也可以进行推广。

我们如果取 h(x)=x^2 ,则可以得到 EX^2\geq E^2X ,事实上,这与方差 VarX=EX^2-E^2X\geq 0 是统一的。

取 h(x)=\sqrt{x} ,则对于非负随机变量 X ,得到 E\sqrt{X}<\sqrt{EX} 。(此处二阶导数不为 0 ,为严格上凸函数,可以改为严格不等号),这也是一个很有用的关系式。

二、次序统计量,混合分布

次序统计量这个概念的产生源于人们想求得若干个独立的随机变量在排序之后所具有的概率分布。

定义:

X_1,...,X_n 为随机变量,对 \omega\in\Omega ,将 X_1(\omega),...,X_n(\omega) 从小到大进行排序,得到的 X_{(1)}(\omega),...,X_{(n)}(\omega) 称为原随机变量的次序统计量。

特别地,在实际应用中我们最常碰到的情况是连续型的独立同分布随机变量的次序统计量。

为了简化,我们仅仅研究当 X_1,...,X_n 为独立同分布的连续型随机变量时的情况。

以下假设出现的随机变量都是独立同分布的连续型随机变量,所有 X_i 有公共的密度 f(x) 与分布 F(x) 。

我们容易证明: (X_{(1)},...,X_{(n)}) 在这样的条件下为连续型随机向量。(读者自证)其联合分布假设为 F_n(x_1,...,x_n) ,则联合分布函数连续。

我们现在想要求得每一个次序统计量所具有的分布,不妨从联合密度入手。先求出联合密度,再求边缘密度。我们下面开始推导其联合密度。

由于(X_{(1)},...,X_{(n)}) 为连续型随机向量,可得 P(X_{(1)}<X_{(2)}<...<X_{(n)})=1 。

对于区域 D=\left \{(x_1,...,x_n)|a_i<x_i\leq b_i,i=1,2,...,n \right \}

考虑概率 P((X_{(1)},...,X_{(n)})\in D)=P((X_{(1)},...,X_{(n)})\in D,X_{(1)}<X_{(2)}<...<X_{(n)})

假设 i_1,i_2,...,i_n 为 1,2,...,n 的一个全排列,则

原式 =\sum_{i_1,...,i_n} P((X_{i_1},...,X_{i_n})\in D,X_{i_1}<X_{i_2}<...<X_{i_n})

=n!P((X_{1},...,X_{n})\in D,X_{1}<X_{2}<...<X_{n})

=\int...\int_Dn!f(x_1)f(x_2)...f(x_n)I[x_1<x_2<...<x_n]dx_1...dx_n

由联合密度的定义,我们得到了一个重要的结果:

随机向量 (X_{(1)},...,X_{(n)}) 具有联合密度 f_n(x_1,...,x_n)=\begin{cases} n!f(x_1)...f(x_n)\ \ \ \ x_1<x_2<...<x_n\\ 0\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ else \end{cases}

那么对于我们所关注的 X_{(k)} 的概率分布,我们只需要求边缘密度即可。设其密度为 f_k(x_k) 。

那么 f_k(x_k)=n!f(x_k)\int...\int_{-\infty<x_1<...<x_k}f(x_1)...f(x_{k-1})dx_1...dx_{k-1} \times \int...\int_{x_k<x_{k+1}<...<x_n<+\infty}f(x_{k+1})...f(x_n)dx_{k+1}...dx_n

那么问题转化为了如何求这个积分。

在此我们给出如下引理:

对于 -\infty\leq a<x_1<x_2<...<x_k<b\leq +\infty , F为分布, f为密度,则 \int...\int_{a<x_1<...<x_k<b}f(x_1)...f(x_k)dx_1...dx_k=\frac{(F(b)-F(a))^k}{k!}。

这个引理交给读者利用数学归纳法与Fubini定理完成证明。

利用这个引理,我们便可以求出上述积分,得到X_{(k)} 的密度

f(x_k)=n!f(x_k)\frac{F^{k-1}(x_k)}{(k-1)!}\frac{[1-F(x_k)]^{n-k}}{(n-k)!}

至此,我们已经求出了每一个次序统计量的概率分布

我们举例来进一步说明。

例:X_1,...,X_4\sim\varepsilon(\lambda) ,独立同分布,求 min(X_1,...,X_4) 与 max(X_1,...,X_4) 的密度。

X_{(1)}=min(X_1,...,X_4) , X_{(4)}=max(X_1,...,X_4)

利用我们上面得到的关于次序统计量的密度的结论。

其中 f(x)=\lambda e^{-\lambda x},F(x)=1-e^{-\lambda x}

得到 f_1(x)=4\lambda e^{-4\lambda x} 为 X_{(1)} 的密度。

f_4(x)=4\lambda e^{-\lambda x}(1-e^{-\lambda x})^3 为 X_{(4)} 的密度。

我们发现: min(X_1,...,X_4)\sim\varepsilon(4\lambda) 。这告诉我们:若干个独立同分布的指数分布随机变量,其最小值仍服从指数分布。

这里值得一提的一点是:应用得最多的往往是 X_{(1)},X_{(n)} (最大值与最小值)这两个次序统计量的分布。然而,这两者的分布却有着更加容易求出的方法:分布函数法

此处利用分布函数法重新计算上例中 X_{(1)} 的密度作为示范:

假设其分布函数为 F_1 ,密度为 f_1

F_1(x)=P(min(X_1,...,X_4)\leq x)=1-P(min(X_1,...,X_4)>x)

=1-P(X_1>x)...P(X_4>x)=1-P^4(X_1>x)

=1-(e^{-\lambda x})^4

所以 f_1=F_1^{'}=4\lambda e^{-4\lambda x} 。

这样的方法是更加简便容易计算的。X_{(4)} 的密度的计算作为练习留给读者。

接下来,我们再来介绍一下混合分布的概念。

混合分布是一个很有趣的概念。它被定义的出发点是为了解决这样一个问题:已知 X_1,X_2 这两个随机变量的概率分布,现在有随机变量 Y , Y 有概率 p 具有和 X_1 同样的分布,有概率 1-p 具有和 X_2 同样的分布,那么 Y 的分布如何求出?

在接下来的讨论中,我们假设 X_1,X_2 均为连续型随机变量,密度为 f_1,f_2 ,Y 有概率 p 具有和 X_1 同样的分布,有概率 1-p 具有和 X_2 同样的分布。

读者容易证明 Y 必定为连续型随机变量,设其密度为 f

我们现在来求出密度 f 。

由密度的定义,我们考虑对于区间 (a,b] ,

考虑概率 P(Y\in(a,b]) ,利用全概公式,得到其 =pP(X_1\in(a,b])+(1-p)P(X_2\in(a,b])

=p\int_a^bf_1(x)dx+(1-p)\int_a^bf_2(x)dx=\int_a^b[pf_1(x)+(1-p)f_2(x)]dx

由密度定义,密度 f(y)=pf_1(y)+(1-p)f_2(y)

我们发现对于这样的随机变量,其密度为 X_1,X_2 的密度的加权平均,权重为 p,1-p 。

我们称这样的随机变量 Y 为 X_1,X_2 以权重 p,1-p 生成的混合分布随机变量。

需要注意的是:同样含有“混合”二字,具有混合分布的随机变量与混合型随机变量的含义截然不同。(不清楚的读者请翻阅前几篇笔记)

对于混合分布随机变量,有很多有趣而常用的性质:

1、 EY^k=pEX_1^k+(1-p)EX_2^k

EY^k=\int_{-\infty}^{+\infty} y^kf(y)dy=p\int_{-\infty}^{+\infty}y^kf_1(y)dy+(1-p)\int_{-\infty}^{+\infty}y^kf_2(y)dy

=pEX_1^k+(1-p)EX_2^k

2、 P(Y\leq y)=pP(X_1\leq y)+(1-p)P(X_2\leq y)

F(y)=\int_{-\infty}^yf(t)dt=p\int_{-\infty}^yf_1(t)dt+(1-p)\int_{-\infty}^yf_2(t)dt

=pF_1(y)+(1-p)F_2(y)

3、 M_Y(t)=pM_1(t)+(1-p)M_2(t) ,其中 M_i(t) 为 X_i 的矩母函数。

(矩母函数本质也是数学期望,同理得证)

我们看到:混合分布随机变量关于两个生成的随机变量在概率、分布函数、任意阶原点矩上均为线性组合,这为计算提供了很大的便利。这些性质产生的本质原因就是因为其密度是线性组合。

需要注意的是:这并不意味着 Y=pX_1+(1-p)X_2 。牢记混合分部随机变量指的是密度的线性组合,而非随机变量的线性组合。

这也不意味着混合分布随机变量的方差是生成随机变量方差的线性组合。(回忆方差为二阶中心矩,读者很容易找到反例)

一种常常应用的特殊情形是 X_1 恒为 0 的情况。

此时 Y 有概率 p 为 0 ,有概率 1-p 与 X_2 同分布。

特别地,这种情形下我们有 EY^k=(1-p)EX_2^k 等性质,此处不再赘述。

三、风险管理

在这一章中,我们介绍一些风险管理中的基本概念与知识,作为概率论在实际生活中的应用。(虽然实际的模型会远比这些复杂)

我们向大家介绍一些简单的保险模型

我们都知道保险的工作机制是:购买保险的人需事先交保费。若损失发生,则保险将会进行赔付。

接下来,我们总是用 X 作为表示损失数额的随机变量,用 Y 作为表示赔付数额的随机变量,总是假设 X,Y 均为连续型随机变量, X 的密度为 f(x) 。若无特别说明,我们总是假设保险会赔付全部损失额 X ,那么容易知道纯保费(保险费中用于支付保险赔偿金的部分)与期望的赔付都应该为 EX 。

我们接下来主要想研究的则是部分保险(赔付损失额不完全等于损失额 X 的保险)

1、免赔额保险(deductible insurance)

免赔额保险均设有一个免赔额 d 。当损失发生时,如果损失低于免赔额,不进行赔付;如果损失高于免赔额,赔付 X-d 。

即 Y=\begin{cases} 0\ \ \ \ \ \ \ \ \ \ \ X\leq d\\ X-d\ \ \ X>d \end{cases} =max(X-d,0)

我们关心的是:期望赔付额 EY 将会是多少。

首先,容易发现 Y 是我们前面讲到过的混合分布随机变量

其有 P(X\leq d) 的概率为 0 ,有 P(X>d) 的概率与 X-d 同分布。

由混合分布随机变量对于期望线性可拆分的性质,(也可以利用全期望公式)

我们有 EY=P(X>d)E(X-d|X>d)

回忆我们在条件数学期望中介绍的定理:

A为事件,P(A)>0,E(X|A)存在,则E(X|A)=\frac{E(XI[A])}{P(A)}。

我们得到 E(X-d|X>d)=\frac{E((X-d)I[X>d])}{P(X>d)}

故 EY=E((X-d)I[X>d])=\int_d^{+\infty}(x-d)f(x)dx 。

利用期望的等价定义(分布函数),我们也可以证明 EY=\int_d^{+\infty}[1-F_X(x)]dx 。

在此处,我们再补充几种其它的免赔额类型的保险,但是不作详细展开,读者可以自行验证其期望赔付额作为练习。

(1):起赔式免赔额保险(Franchise deductible)

免赔额为 d 。当损失额小于免赔额,不赔付。当损失额超过免赔额,赔付全部损失。

即 Y=\begin{cases} 0\ \ \ \ X\leq d\\ X\ \ \ X>d \end{cases} , EY=\int_d^{+\infty}xf(x)dx 。

(2):隐藏式免赔额保险(Disappearing deductible)

设有免赔额下限 d ,免赔额上限 d' ( d<d' )。若损失额小于免赔额下限,不赔付。若损失额大于免赔额上限,赔付全部损失。若损失额处于二者之间,赔付 d'\frac{X-d}{d'-d} (线性调整)。

即 Y=\begin{cases} 0\ \ \ \ \ \ \ \ \ \ \ X\leq d\\ d'\frac{X-d}{d'-d}\ \ \ d<X\leq d'\\ X\ \ \ \ \ \ \ \ \ \ X>d' \end{cases} , EY=\int_d^{d'}d'\frac{x-d}{d'-d}f(x)dx+\int_{d'}^{+\infty}xf(x)dx 。

我们不难发现:一般的免赔额保险与隐藏式免赔额保险的赔付额随机变量 Y 为关于损失额 X 的连续函数。

我们试举一例帮助读者理解。

损失额随机变量 X 服从指数分布,且其数学期望为 1000 ,保险免赔额为 200 ,求损失发生时的期望赔付额。

由于指数分布 \varepsilon(\lambda) 的数学期望为 \frac{1}{\lambda} ,故 X\sim \varepsilon(\frac{1}{1000}) 。

则 EY=\int_{200}^{+\infty}(x-200)\frac{e^{-\frac{x}{1000}}}{1000}dx

=-xe^{-\frac{x}{1000}}-1000e^{-\frac{x}{1000}}+200e^{-\frac{x}{1000}}|_{x=200}^\infty=1000e^{-\frac{1}{5}}

2、带有保险限额的保险(Policy limit)

此类保险设有保险限额 u 。若损失额小于保险限额,赔付所有损失。若损失额大于保险限额,赔付额等于保险限额。

即 Y=\begin{cases} X\ \ \ \ X\leq u\\ u\ \ \ \ \ X>u \end{cases} 。

同样地,利用混合分布随机变量的性质以及条件数学期望的性质,容易算出 EY=\int_0^uxf(x)dx+u\int_u^{+\infty}f(x)dx

利用数学期望的分布函数等价定义来表示,得到 EY=\int_0^u[1-F_X(x)]dx

计算和证明都交给读者自己完成。

更复杂一些地,我们可以将免赔额与保险限额相结合起来。

3、同时带有免赔额和保险限额的保险

设有免赔额 d ,保险限额 u ,那么赔付额 Y=\begin{cases} 0\ \ \ \ \ \ \ \ \ \ \ X\leq d\\ X-d \ \ \ d<X\leq u\\ u-d \ \ \ \ X>u \end{cases} 。

这里注意需要先考虑保险限额的限制,再加上免赔额的限制。

容易得到赔付额的期望 EY=\int_d^u(x-d)f(x)dx+(u-d)\int_u^{+\infty}f(x)dx

利用等价定义,可以得到 EY=\int_d^u[1-F_X(x)]dx 。

以上便就是几种简单的保险模型。

最后,我们介绍一下保险政策的总理赔额模型。

我们先引入个人风险模型

我们假设共有 n 个人购买了保险,其赔付额分别为 P_1,P_2,...,P_n 。以下总是假定每个人的赔付额相互独立。

我们用 S 来表示保险公司总的赔付额,则 S=\sum_{i=1}^nP_i 。

由于相互独立性,我们同时有 ES=\sum_{i=1}^nEP_i,VarS=\sum_{i=1}^nVarP_i 。

当购买保险的人数足够多时 (n\rightarrow\infty) ,我们就可以利用Linderberg-Levy中心极限定理对于 S 的分布进行正态近似(实际应用数量大于 30 即可)。(回忆:当中心极限定理适用条件成立时,我们只需要知道 ES 与 VarS 便可以确定 S 的概率分布)

通常,我们这里取 S 的 0.95- 分位数 Q 。(意味着 Q 有 0.95 的概率比 S 更大)

如果保险公式收集到的保费不少于 Q ,那么保险公司就有 0.95 的概率会盈利。

实际中的情况是:P_i 往往不是同分布的。(保险公司在投保人投保之前往往会对其风险进行评估,让不同风险等级的人购买不同的保险)但是,处理方法是类似的,我们仍然可以利用Linderberg-Feller中心极限定理。我们用例子来说明这样的处理方法。

例:

保险公司有三种独立的保险政策(每个人仅能同时投保其中一种)。以下是这些政策与顾客的投保情况:

政策1: 500 人投保,每个个体发生损失的概率为 0.05 ,若个体的损失发生,则赔付额的期望为 5 ,方差为 5 。

政策2: 1000 人投保,每个个体发生损失的概率为 0.1 ,若个体的损失发生,则赔付额的期望为 10 ,方差为 10 。

政策3: 500 人投保,每个个体发生损失的概率为 0.15 ,若个体的损失发生,则赔付额的期望为 5 ,方差为 5 。

现在已知收取的总保费与总理赔额的期望成正比例,比例系数为 \theta 。求 \theta 最小为多少时可以保证保险公司亏本的概率不高于 0.05 。

共有 2000 人投保,设投保政策1的人的每个人的赔付额分别为 P_1,...,P_{500} ,政策2为 P_{501},...,P_{1500} ,政策3为 P_{1501},...,P_{2000} 。

设总保费为 Q ,则 Q=\theta S 。

现在要保证 P(Q\geq S)=0.95 。

我们要求出 S 的概率分布,自然要利用中心极限定理。这意味着,我们只需要求出 ES,VarS 即可确定其分布。

ES=500EP_1+1000EP_{1500}+500EP_{2000}

VarS=500VarP_1+1000VarP_{1500}+500VarP_{2000}

但是, P_i 本质上是一个混合分布的随机变量。

P_1 有 0.95 的概率为 0 ,有 0.05 的概率与 B_1 同分布。而我们知道的是: EB_1=5,VarB_1=5 。

回忆混合分布随机变量的期望的线性可分性。

我们得到: EP_1=0.05EB_1,EP_1^2=0.05EB_1^2 (计算二阶原点矩是为了计算方差,注意到方差并不具有线性可分性)

而 EB_1^2=VarB_1+E^2B_1=30

故我们求得 EP_1=0.25,EP_1^2=1.5

故 VarP_1=EP_1^2-E^2P_1=1.4375

对于 P_{1500},P_{2000} ,我们进行同样的操作。可以算出 EP_{1500}=1,VarP_{1500}=10 , EP_{2000}=0.75,VarP_{2000}=3.9375 。

所以我们得到 ES=1500,VarS=12687.5 。

这告诉我们: S\overset{d}{\rightarrow}N(1500,12687.5)

回忆利用正态分布求概率的技巧(化为标准正态分布求解)

我们得到: \Phi(\frac{Q-1500}{\sqrt{12687.5}})=0.95

解得 Q=1685.29

故 \theta=1.1235 为其最小值。

概率论笔记到此就全部结束了,限于篇幅,有更多有趣的内容无法全部写出。限于个人所学,若文中有错误或者不清晰之处烦请各位点出。

再次感谢各位的阅读!


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK