分析与拓展：多分类模型的输出为什么使用softmax？

多分类模型的输出为什么使用softmax？最近在知乎上看到类似的回答，我觉得都没有说到本质上去，都是在回答why之后的side effect。这里给出我认为满意的解释。

数学的语言是最清晰的，这里解释多分类模型的输出为什么使用softmax直接使用数学推导，不做过多的文字表述。

神经网络要做的事情就是根据输入样本x，拟合输出y，

y=f(x)

计算softmax的输入x称为logits，假设其取值x=[x1,x2,…,xn]。

max(x1,x2,…,xn)的光滑近似为，

max(x1,x2,…,xn)=1αlog(n∑i=1eαxi)

通常取α=1，该函数由一个形如其名的称呼logsumexp，

logsumexp(x1,x2,…,xn)=log(n∑i=1exi)

对于类别编码Ck,k=0,1,…,n−1，其对应的概率分布可以用catagorical distribution表示，

f(x|p)=n∏i=0p[x=i]i

对其使用极大似然估计，能够导出其Loss是交叉熵形式，也就是说catagorical distribution对应优化上的Loss是交叉熵损失，这里不展开讨论。写直白点如下，

f(x)=p[x=0]1⋯p[x=n−1]k

类别编码的one-hot形式是离散取值的向量化，

one-hot(Ck)=[0,…,1,…,0]

该向量第k个元素取值为1，其他为0。

label smooth给其他类别添加噪声，

ϵK−1

其中ϵ∈[0,12)是一个较小的数，因此有one-hot的label smooth版本，

one-hots(Ck)=[ϵK−1,…,1−ϵ,…,ϵK−1]

相当于给one-hot添加一个随机噪声向量，

ϵ=[ϵK−1,…,−ϵ,…,ϵK−1]

这种操作改变不了one-hot的本质，

one-hot(Ck)=[0,…,1,…,0]≈[ϵK−1,…,1−ϵ,…,ϵK−1]=one-hots(Ck)

one-hot作为标签相当便捷，从概率分布的角度看就是标签分布服从伯努利分布或多维伯努利分布（分类分布），但是如果让模型也输出one-hot，即one-hot(argmax(x))，这个形式并不可导，不便模型训练，需要其光滑版本，

one-hot(Ck)=[0,…,1,…,0]=one-hot(argmaxi=1,⋯,nxi)=one-hot(argmaxi=1,⋯,n[xi−max(x)])=one-hot(argmaxi=1,⋯,nexp[xi−max(x)])≈one-hot(argmaxi=1,⋯,nexp[xi−log(n∑i=1exi)])=one-hot(argmaxi=1,⋯,nexin∑i=1exi)≈[ex1n∑i=1exi,…,exnn∑i=1exi]=softmax(x)=one-hots(Ck)

需要说明几点：

引入[xi−max(x)]使得最大值为0，使得e0=1，对应one-hot中的1
引入ex是考虑到e0=1,0<ex|x<0<1，并拉大[x1,x2,…,xn]间的距离，更好适配one-hot特点
max不具有光滑性，被替换为其光滑近似logsumexp，可以看logsumexp函数分析

理解好这三点就明白上述推导过程。说白了就是，对于分类问题来说，标签分布服从伯努利分布或多维伯努利分布（分类分布），为模型优化需要寻找光滑的分布去逼近它。

这样引入softmax(x)后会带来一些好的side effect：

softmax(x)是光滑的，具有良好的梯度特性，便于模型训练
加性不变性，softmax(x)=softmax(x+c)，于是对上游添加bias不会影响输出

softmax(x)本身的梯度相当优雅，可以使用克罗内克δ函数表示。令，

aj=exjn∑i=1exi ∂aj∂xi=aj(δij−ai) δij={1(i=j)0(i≠j)

使用softmax(x)作为输出，交叉熵为，

−n∑i=1one-hot(Cj)[i]×log(softmax(x)[i])=log(n∑i=1exi)−xj

其中涉及函数Logsumexp，对其求梯度又重新回到softmax形式上。以上的推导说明，softmax输出配合交叉熵损失带来梯度计算的优良性。

softmax的问题

假设softmax前的网络层的输出logit为x=[x1,x2,…,xn]，一般的操作是计算softmax(x)获得归一化向量，会后完成n多分类问题。这个操作很常规，是分类问题必备的，但等等，我们再深入分析这一个过程。

假设有一样本，标签为one-hot(Cj)=[0,…,1,…,0]，类别Cj的onehot形式，向量的第j个位置取值为1，其他为0。对于模型来说，样本的logit为x=[x1,…,xj,…,xn]，这里有xmax=xj=maxix，同时令xmin=minix。

那么有交叉熵及其不等式推导，

l=−n∑i=1one-hot(Cj)[i]×log(softmax(x)[i])=log(n∑i=1exi)−xj=log(1+∑i≠jexi−xj)≥log(1+(n−1)exmin−xmax)

把xmax−xmin解出来有，

xmax−xmin≥log(n−1)−log(el−1)

这个公式说明，为让交叉熵损失下降到l，需要logit输出x=[x1,x2,…,xn]中xmax−xmin距离拉大到大于log(n−1)−log(el−1)。比如取l=ln2,n=100，那么xmax−xmin≥4.61。想一想参数初始化时，随机变量也是极小概率出现如此大的差距，对于模型来说容易造成过拟合。

为完成n多分类问题，其实logit间没有必要拉开如此大的间隔，理想情况下只需要xmax比其他xi大一点即可。解决方案就是在

log(n∑i=1exi)

计算上。取x=[x1,x2,…,xn]中的topk来计算上式，假设为Ω=x′1,…,x′k，有

log(n∑i=1exi)≈log(∑xi∈Ωkexi)

这里k作为超参数存在。

融入先验信息

通过在输出logit为x=[x1,x2,…,xn]上叠加一个向量可以让softmax融入先验信息，假设这个向量为（称为先验信息）

p=[p1,p2,…,pn]

那么获得的softmax值为，

softmax(x+p)[i]=exi+pi2n∑j=1exj+pj2

在先验信息p的作用下，能够让模型更加关注logit中某些xi。类似地，可以按照一定的比例缩放，

softmax(x⊙p)[i]=epixin∑j=1epjxj

还有就是计算完softmax后再叠加先验信息，

xp=softmax(x)+p

这种方法在Attention矩阵中引入先验信息有应用。

以上通过简单的基础信息，通过清晰的数学推导，解释了为什么多分类模型的输出使用softmax。并分析softmax优缺点，提供一种解决方案。最后介绍softmax上融入先验信息的技巧。

转载请包括本文地址：https://allenwind.github.io/blog/15110
更多文章请参考：https://allenwind.github.io/blog/archives/

分析与拓展：多分类模型的输出为什么使用softmax？

分析与拓展：多分类模型的输出为什么使用softmax？

softmax的问题

融入先验信息

Recommend

集成回归的有效性证明（更新）

Pytorch DDP使用方法以及注意点

ACID和BASE对比

Python数据处理技巧

解决Linux下git无法显示中文的问题

斐波那契数列的多种实现方法（算法9）

天马行空：设计自己的激活函数

Python描述符原理

漫谈注意力机制（一）：人类的注意力和注意力机制基础

Embedding之字词混合的两种对齐方案

About Joyk