1

损失函数:模型学习的指挥棒

 1 year ago
source link: https://zhuanlan.zhihu.com/p/618604847
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

损失函数:模型学习的指挥棒

神经网络基础系列

为了更好地理解损失函数,先分享机器学习的一些基本概念,在这些概念的框架下再理解损失函数,则可以更清晰地了解损失函数的意义。

1 基本概念

机器学习[1]是一种人工智能领域的技术,它通过使用算法和统计模型,使计算机系统从数据中自动学习和改进。

1.1 机器学习分类

机器学习可以分为几类:监督学习、无监督学习、半监督学习和强化学习。

  • 监督学习

监督学习使用有标记的数据进行训练,学习输入到输出的映射,对新数据可以根据该映射预测结果。常见的监督学习算法包括决策树、逻辑回归、线性回归等。根据输入和输出的不同类型,监督学习可分为分类、回归和标注这几种不同的任务,输出是有限个离散变量的任务为分类任务,输入和输出均为连续变量的任务为回归任务,输入和输出均为变量序列的任务为标注任务。

  • 无监督学习

无监督学习使用无标记的数据进行训练,用于挖掘数据中的模式和关系。常见的无监督学习算法包括聚类算法、主成分分析等。

  • 半监督学习

半监督学习结合了监督学习和无监督学习,使用有标记和无标记的数据进行训练。

  • 强化学习

强化学习使计算机系统在和环境互动的过程中学习,计算机系统根据环境的变化调整其行为,从而使每个行为之后的回馈最大化。

1.2 监督学习

监督学习的目的是学习一个输入到输出的映射,使其对于给定的输入,可以进行相应的预测。

1.2.1 输入空间和输出空间

监督学习中,输入所有可能取值的集合称为输入空间,输出所有可能取值的集合称为输出空间。输入和输出空间可以是整个欧式空间,也可以是欧式空间的子空间,通常输出空间远小于输入空间。

输入空间用 \mathcal{X} 表示,输出空间用 \mathcal{Y} 表示,输入变量用 X 表示,输出变量用 Y 表示,输入变量的取值用 x 表示,输出变量的取值用 y 表示,训练数据可以表示为式子(1)。 T = \{(x_1, y_1), (x_2, y_2),...,(x_N, y_N) \} \tag{1}数据中每个具体实例通常用特征向量表示,即式子(1)中的 x 为向量,特征向量所在的空间称为特征空间,当特征空间是从输入空间映射后得到时,输入空间和特征空间不一致,而无需无映射时,特征空间和输入空间一致。模型是基于特征空间进行定义,为了方便,后续将输入空间和特征空间默认是同一个空间。

1.2.2 联合概率分布

监督学习中的一个重要的基本假设是,输入变量X和输出变量 Y 遵循联合概率分布 P(X, Y) ,P(X, Y) 表示分布函数或概率密度函数。只有当输入输出遵循联合概率分布,训练和测试时数据分布的一致性才能得到保证,从而保证了在训练集上训练出的模型在测试集上的有效性。

1.2.3 假设空间

监督学习是学习输入到输出的真实映射函数 Y=f(X) 或真实条件概率分布 P(Y|X) ,该映射或条件概率分布用模型表示,所有可能的模型的集合,形成了假设空间。

\mathcal{F} = \{f|Y=f_{\theta}(X), \theta \in \mathbb{R^{n}}\} \tag{2}\mathcal{F} = \{P|P_{\theta}(Y|X), \theta \in \mathbb{R^{n}}\} \tag{3}当模型表示映射函数f时,假设空间定义为函数的集合,如式子(2)所示,当模型表示条件概率分布时,假设空间定义为条件概率分布的集合,如式子(3)所示。 \mathcal{F} 是由参数向量决定的函数族或条件概率分布族,参数向量 \theta 的取值是基于n维欧式空间 \mathbb{R}^n ,该空间被称为参数空间。假设空间的大小由模型参数决定。

1.2.4 学习策略

理想的模型是和真实映射函数相同,即对所有的输入,模型预测的输出和真实输出相同。实际上,对于给定的输入,模型预测值和真实值可能相同也可能不同,因此,需要一个准则来量化模型预测值和真实值之间的差异,损失函数充当了这样的角色,表示为 L(y, f(x, \theta)) ,损失函数的取值为非负值。

当预测值和真实值越接近,损失函数的值越小,反之,值越大。对不同类型的任务,需根据该任务的特点选择损失函数,从而对模型预测样本的准确性进行合理地评估。

损失函数作用于单个样本,衡量模型一次预测的好坏,而对模型优劣的衡量是在一整个数据集上进行,因此需针对数据集引入衡量准则,这个准则被称为风险,包括期望风险、经验风险和结构风险。

1.2.4.1 期望风险

期望风险是模型损失函数的期望,也被称为期望损失。模型的输入和输出变量遵循联合概率分布 P(X, Y) ,单次预测损失为L(y, f(x, \theta)),因此期望风险可表示为式子(4)。

R_{exp}(\theta) = E_{P}[L(y, f(x, \theta))] = \int_{(X,Y)}L(y, f(x, \theta))P(x, y)dxdy \tag{4}期望风险最小的模型是最优的模型。实际中的监督学习任务,联合概率分布 P(X, Y) 通常是未知的,已知的是训练数据中的样本分布,因此,期望风险无法计算。在这种情况下,联合概率分布采用训练集上的经验分布来近似,期望风险则转变为经验风险。

1.2.4.2 经验风险

经验风险是模型在训练集上的期望损失。由于联合概率分布不可知,因此采用训练集上的经验分布 \hat {P} (X, Y) 来替代,当每个样本等概率时,即 \hat {P} (X, Y) = \frac{1}{N} ,经验风险可表示为式子(5)。根据概率论中的大数定律,当样本量N趋近于无穷大时,经验风险趋近于期望风险。

R_{emp}(\theta) = \frac{1}{N} \sum_{n=1}^{N}{L(y, f(x, \theta)} \tag{5}当使用经验风险作为模型衡量准则时,模型的优化目标是找到一组参数 \theta^* ,使得经验损失最小,监督学习问题转化为对经验风险求解最优问题。

1.2.4.3 结构风险

采用经验风险作为优化准则时,面临模型在训练集上表现优异而在测试集上效果变差的问题,这种现象被称为过拟合现象,这是由训练数据集的有限性造成的。训练数据是真实数据的采样,也包括一些噪音,无法完全等价于真实分布,经验风险最小化只保证模型在训练集上的损失最小,而无法保证在其它数据集上也有同样优秀的表现。

为了缓解过拟合现象,使模型能力能很好地泛化到其它数据集上,结构风险被提出。结构风险在经验风险的基础上,引入模型参数的正则化项,对模型能力进行一定的限制,如式子(6)所示,其中 J(\theta) 表示模型的复杂度,常用的有L1范数和L2范数, \lambda 为超参,用于调节经验风险和模型复杂度的重要度。关于正则化,详细介绍可戳《如何防止过拟合(1)-正则化

R_{srm}(\theta) = R_{emp} + \lambda J(\theta) = \frac{1}{N} \sum_{n=1}^{N}{L(y, f(x, \theta)} + \lambda J(\theta) \tag{6}

2 损失函数

不管是用经验风险还是结构风险作为模型的优化准则,损失函数的选择都至关重要,它通过对预估不准确的惩罚,表征了模型被期望学成的状态。面对监督学习的实际任务时,需根据希望模型具备的能力,选择损失函数,一些情况还需要根据数据的情况,对损失函数进行改进,使模型学得更好。

常用的损失函数包括0-1损失函数,绝对值损失函数,平方损失函数、Hinge损失函数,对数损失函数。对损失的改进包括weighted log loss[1]、focal loss[2]、triplet loss[3]等。

下一篇损失函数将分享常用的损失函数,重点分享对数损失函数。

推荐相关的内容更新在【播播笔记】公众号,欢迎关注

播播笔记

生活的思考和记录更新在【吾之】公众号,欢迎关注

吾之

推荐系列文章:

reference

[1] Mitchell T M. Machine learning[M]. New York: McGraw-hill, 2007.

[2] Deep Neural Networks for YouTube Recommendations.https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/45530.pdf

[3] Focal Loss for Dense Object Detection. https://openaccess.thecvf.com/content_ICCV_2017/papers/Lin_Focal_Loss_for_ICCV_2017_paper.pdf

[4] In Defense of the Triplet Loss for Person Re-Identification. https://arxiv.org/pdf/1703.07737.pdf


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK