3

线性代数(三)——向量的范数

 2 years ago
source link: http://antkillerfarm.github.io/math/2022/01/09/linear_algebra_3.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

特征值和奇异值

矩阵的奇异值(续)

其中,旋转和缩放不改变向量的维数。矩阵特征值运算,实际上就是将向量V旋转缩放到一个正交基W上。因为V和W等维,所以要求矩阵必须是方阵。

正交化过程,代表旋转变换,又被称为等距同构。(旋转变换,可以理解为向量的正向旋转,也可以理解为坐标轴的反向旋转,这里理解为后者,会容易一些。)特征值代表缩放变换的缩放因子。

而对于一般矩阵而言,我们还需要进行投影变换,将n维向量V映射为m维向量W。那么投影变换选择什么矩阵呢?

我们知道,对于复数z,可写成:

z=(z∣z∣)∣z∣=(z∣z∣)z―z

其中z―是z的共轭复数。也就是说,一个复数可以表示为一个单位向量乘以一个模。

类似的,我们定义共轭矩阵Mij∗=Mji―,这实际上就是矩阵M转置之后,再将每个元素值设为它的共轭复数。因此:

M∗=(M―)T=MT―

仿照着复数的写法,矩阵M可以表示为:M=SM∗M

这里的S表示等距同构。(单位向量相当于给模一个旋转变换,也就是等距同构。)由于M∗M是正定对称方阵,因此它实际上也是能够被正交化的。所以对于一般矩阵来说,我们总能够找到两个正交基,并在这两个基之间进行投影变换。

注意:我们刚才是用与复数类比的方式,得到投影变换矩阵M∗M。但是类比不能代替严格的数学证明。幸运的是,上述结论已经被严格证明了。

我们将矩阵M∗M的特征值,称作奇异值(Singular value)。可以看出,如果M是对称方阵的话,则M的奇异值等于M的特征值的绝对值。

https://www.zhihu.com/answer/53804902

奇异值的物理意义是什么?

http://www.ams.org/samplings/feature-column/fcarc-svd

We Recommend a Singular Value Decomposition

奇异值分解

奇异值分解(Singular value decomposition,SVD)定理:

设M∈Rm×n,则必存在正交矩阵U=[u1,…,um]∈Rm×m和V=[v1,…,vn]∈Rn×n使得:

UTMV=[Σr000]

其中,Σr=diag(σ1,…,σr),σ1≥⋯≥σr>0。

当M为复矩阵时,将U、V改为酉矩阵(unitary matrix)即可。(吐槽一下,酉矩阵这个翻译真的好烂,和天干地支半毛钱关系都没有。)

奇异值分解也可写为另一种形式:

M=UΣV∗

其几何意义如下图所示:

虽然,我们可以通过计算矩阵M∗M的特征值的方法,计算奇异值,然而这个方法的计算量十分巨大。1965年,Gene Howard Golub和William Morton Kahan发明了目前较为通用的算法。但该方法比较复杂,这里不作介绍。

Gene Howard Golub,1932~2007,美国数学家,斯坦福大学教授。

William Morton Kahan,1933年生,加拿大数学家,多伦多大学博士,UCB教授。图灵奖获得者(1989)。IEEE-754标准(即浮点数标准)的主要制订者,被称为“浮点数之父”。ACM院士。

http://www.doc88.com/p-089411326888.html

SVD(奇异值分解)算法及其评估

https://mp.weixin.qq.com/s/46oOYoL486WZ4oPwgLrrrQ

奇异值分解SVD原理与应用详解

https://mp.weixin.qq.com/s/1pg8jY1R-8kJKu1L_RPLkg

奇异值分解(SVD)原理

https://mp.weixin.qq.com/s/tZqkbJ18ANCcA7ndWmJEGw

奇异值分解简介:从原理到基础机器学习应用

https://mp.weixin.qq.com/s/Z0ZkQlZDKUSJEWVq7Vi6Cg

奇异值分解(SVD)原理与在降维中的应用

https://mp.weixin.qq.com/s/bYTS9UXH7ecwrq6_WIangw

如何让奇异值分解(SVD)变得不“奇异”?

https://mp.weixin.qq.com/s/54_qLczv8ooqoQQioIeUww

通俗易懂的讲解奇异值分解(SVD)和主成分分析(PCA)

https://mp.weixin.qq.com/s/R54brOW-TBD3UGJUwE2QOg

SVD加速:rSVD

一个矩阵A的列(行)秩是A的线性独立的列(行)的极大数。

下面不加证明的给出矩阵的秩的性质:

1.矩阵的行秩等于列秩,因此可统称为矩阵的秩。

2.秩是n的m×n矩阵为列满秩阵;秩是n的n×p矩阵为行满秩阵。

3.设A∈Mm×n(F),若A是行满秩阵,则m≤n;若A是列满秩阵 ,则n≤m。

4.设A为m×n列满秩阵,则n元齐次线性方程组AX=0只有零解。

5.线性方程组AX=B对任一m维列向量B都有解⇔系数矩阵A为行满秩阵。

http://wenku.baidu.com/view/9ce143eb81c758f5f61f6730.html

行(列)满秩阵的几点性质

https://mp.weixin.qq.com/s/N16K511-crzj6h-R1L10rQ

如何通过心形线快速认识秩的几何意义?

对应的行列式等于0的方阵,被称为奇异矩阵(singular matrix)。

奇异矩阵和线性相关、秩等概念密切相关。

下面不加证明的给出奇异矩阵的性质:

1.如果A为非奇异矩阵⇔A满秩。

2.如果A为奇异矩阵,则AX=0有无穷解,AX=b有无穷解或者无解。如果A为非奇异矩阵,则AX=0有且只有唯一零解,AX=b有唯一解。

对于A不是方阵的情况,一般使用ATA来评估矩阵是否是奇异矩阵。

positive definite matrix的定义:

一个n阶的实对称矩阵M是正定的的条件是当且仅当对于所有的非零实系数向量z,都有zTMz>0。

正定矩阵A的性质:

1.正定矩阵的任一主子矩阵也是正定矩阵。

2.A的特征值和各阶顺序主子式全为正。

3.若A为n阶正定矩阵,则A为n阶可逆矩阵。

类似的还可以定义负定矩阵、半正定矩阵(非负定矩阵)。

https://zhuanlan.zhihu.com/p/44860862

浅谈“正定矩阵”和“半正定矩阵”

向量的范数

范数(norm,也叫模)的定义比较抽象,这里我们使用闵可夫斯基距离,进行一个示意性的介绍。

Minkowski distance的定义:

d(x,y)=∑i=1n∣xi−yi∣λλ

Hermann Minkowski(1864-1909),德国数学家,哥廷根大学数学教授,爱因斯坦的老师。

这里的λ就是范数。

范数可用符号‖x‖λ表示。常用的有:

‖x‖1=∣x1∣+⋯+∣xn∣‖x‖2=x12+⋯+xn2‖x‖∞=max(∣x1∣,…,∣xn∣)

显然,当λ=2时,该距离为Euclid Distance。

当λ=1时,也被称为CityBlock Distance或Manhattan Distance(曼哈顿距离,以纽约曼哈顿地区的街道形状得名)。

当λ=∞时,叫做Chebyshev distance。

Pafnuty Lvovich Chebyshev,1821~1894,俄罗斯数学家,莫斯科大学博士,圣彼得堡大学教授。俄罗斯数学的奠基人,他创建的圣彼得堡学派,是20世纪俄罗斯最主要的数学流派。

这里不做解释的给出如下示意图:

其中,L0范数表示向量中非0元素的个数。上图中的图形被称为lp ball。表征在同一范数条件下,具有相同距离的点的集合。

范数满足如下不等式:

三角不等式‖A+B‖≤‖A‖+‖B‖(三角不等式)

向量范数推广可得到矩阵范数。某些矩阵范数满足如下公式:

‖A⋅B‖≤‖A‖⋅‖B‖

这种范数被称为相容范数。

注:矩阵范数要比向量范数复杂的多,还包含一些不可以由向量范数来诱导的范数,如Frobenius范数。而且只有极少数矩阵范数,可由简单表达式来表达。这里篇幅有限,不再赘述。

Ferdinand Georg Frobenius,1849~1917,德国数学家,哥廷根大学博士(1870),University of Berlin和ETH Zurich教授。他在椭圆函数、微分方程、数论和群论等领域有杰出贡献。矩阵的秩就是他提出来的。

现在有线性系统Ax=b:

[400−201−800401][x1x2]=[200−200]

很容易得到解为:x1=−100,x2=−200。如果在样本采集时存在一个微小的误差,比如,将 A矩阵的系数400改变成401:

[401−201−800401][x1x2]=[200−200]

则得到一个截然不同的解:x1=40000,x2=79800。

当解集x对A和b的系数高度敏感,那么这样的方程组就是病态的 (ill-conditioned/ill-posed)。

从上例的情况来看,矩阵的行向量[400−201]和[−800401]实际上是过于线性相关了,从而导致矩阵已经接近奇异矩阵(near singular matrix)。

病态矩阵实际上就是奇异矩阵和近奇异矩阵的另一个说法。

http://www.cnblogs.com/daniel-D/p/3219802.html

病态矩阵与条件数

矩阵的条件数

我们首先假设向量b受到扰动,导致解集x产生偏差,即:

A(x+Δx)=b+ΔbAΔx=Δb

因此,由矩阵相容性可得:

‖Δx‖≤‖A−1‖⋅‖Δb‖

同时,由于:

‖A‖⋅‖x‖≥‖b‖‖Δx‖‖A‖⋅‖x‖≤‖A−1‖⋅‖Δb‖‖b‖‖Δx‖‖x‖≤‖A‖⋅‖A−1‖⋅‖Δb‖‖b‖

我们定义矩阵的条件数K(A)=‖A‖⋅‖A−1‖,则上式可写为:

‖Δx‖‖x‖≤K(A)‖Δb‖‖b‖

同样的,我们针对A的扰动,所导致的x的偏差,也可得到类似的结论:

‖Δx‖‖x+Δx‖≤K(A)‖ΔA‖‖A‖

可见,矩阵的条件数是描述输入扰动对输出结果影响的量度。显然,条件数越大,矩阵越病态。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK