机器学习笔记(九)——手撕支持向量机之间隔、对偶、KKT条件详细推导

↑ 点击上方蓝字" 奶糖猫 ",加个关注如何

SVM概述

支持向量机(SVM)是一种有监督的分类算法，并且它绝大部分处理的也是二分类问题，先通过一系列图片了解几个关于SVM的概念。

6reuQ3n.png!web

上图中有橙色点和蓝色点分别代表两类标签，如果想要将其分类，需要怎么做呢？可能有的伙伴会想到上一篇文章讲到的逻辑回归拟合决策边界，这肯定是一种不错的方法，本文所讲的SVM也是可以解决这种分类问题的；既然都是分类算法，所以通过一个例子可以比对出二者的相同点和不同点。

超平面

Nnmi63f.png!web

可以看到，这里给出了两种划分方式，就图中实线而言，在逻辑回归中可以称作决策边界，而在SVM中它被称为超平面( hyperplane )。

上面例子中数据点都分布在二维平面上，所以此时超平面就为一条直线。如果给出的数据集是三、四、... 、N维呢？此时超平面对应的维度就是二、三、...、N-1维的，下图展示了数据集多维时的超平面。

aINnauM.png!web

最大间隔

对于这个例子，可以将其准确分类的超平面可能有多个，其中具有最大间隔(两条虚线之间的距离)的超平面就是SVM要找的最优解，这个最优解对应两侧虚线所穿过的样本点，就是“支持向量( support vector )”,支持向量到超平面的距离被称为间隔( margin )，如下图绘制标识。

nuIviyy.png!web

公式推导

超平面方程

我们利用SVM算法建模最后想要从众多超平面中求解具有最大间隔的超平面，所以这也是一个最优化问题。

这里需要了解一下最优化问题的两个基本因素：

目标函数：你希望什么东西的什么指标达到最好。
优化对象：你希望改变哪些因素使目标函数达到最优。在线性SVM算法中，目标函数就是“间隔”，优化对象则是“超平面”。

所以首先需要推导“超平面”的方程，二维空间内“超平面”的公式也就是直线方程，如下：

Yjqa22J.png!web

这里将x变成x1，y变成x2的操作是为了将其向量化：

3yaqaa7.png!web

最后将其整理成：

bayuUfi.png!web

一般的向量为列向量，所以这里对进行了转置，并且向量与我们所设直线是相互垂直的，只需要假定直线斜率a为一个常数，绘图即可证明，其中控制着直线的方向，b则控制着直线的位置，所以直线方程中需要改变和b使目标函数达到最优。

间隔公式

“间隔”就是图中点到“超平面”的距离，公式如下：

RZBjq22.png!web

其中d代表间隔，代表的是的二范数(模)，即对所有元素的平方和开平方：

F7fq6jN.png!web

建模的目标就是为了找到最大间隔，其中最大间隔W=2d，只要W越大，则代表该模型分类的效果越好，最后也就变成了求解d最大化的问题。

约束条件

针对上述我们所建分类器，当我们输入数据给分类器时，它会返回一个类别标签，这里先规定蓝色为负样本(-1)、红色为正样本(+1)，我们可以得到一组公式，如果超平面能够准确对图中样本点分类，则可得到以下公式：

EFvYvmV.png!web

上述公式可归化成：

yY7JziJ.png!web

s.t.表示"subject to"即服从某种条件

这里再回顾一下上面的最大间隔方程，求最大间隔的思想可以概括为求 最小的 点到超平面的几何距离的 最大化 。最小是为了分类时不同类别都能够得到准确分类，距离最大化则是为了获取”最大间隔“，以达到对分类器调优，公式如下：

yQ32maJ.png!web

如果我们希望最优的超平面的间隔的几何距离为,即所有样本点到超平面的几何距离至少为，所以下面公式一定成立。

JFfa6f3.png!web

这里将其设定为1。可以这么想，不论我们设定的是几，将等式两边同时除以，和b的系数缩小了倍，但超平面是不动的，系数是可以同比例缩放的，可以类比直线方程。固定之后，可以得到以下公式：

B7ru6z3.png!web

这里对做了一定处理，最大化和最小化是等价的，这样做是为了在进行最优化时对目标函数求导方便，对最优解没有影响。

7zimamY.png!web

其中第一个公式为我们的目标函数，第二公式也就是这个最优化问题中的约束条件，由于是一个凸函数，所以这个问题是凸优化问题。

求解最优化问题

最优化问题分类

最优化问题一般可分为两大类：无约束优化问题和约束优化问题，而约束优化问题又可分为含等式约束优化问题和含不等式约束优化问题。

对于无约束优化问题，可以对函数求导，然后令其为零，从候选值中选取最优值，并加以验证；若函数为凸函数，则可以保证是最优解。随机梯度下降和批量梯度下降就是无约束优化方法。
对于含等式约束优化问题，常用的方法是利用拉格朗日乘子法将其转化为无约束优化问题求解。具体为将约束条件和函数写成一个函数，称为拉格朗日函数，系数为拉格朗日乘子；通过拉格朗日函数对各个变量求导，令其为零，从候选值中选取最优值，并加以验证。
对于含不等式约束优化问题，主要通过KKT条件将其转化成无约束优化问题求解。具体为通过构建拉格朗日函数，在一些条件下求出最优值的必要条件，这个条件就是KKT条件。

A的必要条件就是A可以推出的结论

对于我们所构造出的最优化问题明显是属于含不等式约束优化问题，关于拉格朗日函数的概念不过多介绍，下面介绍拉格朗日乘子法，并通过拉格朗日乘子法引出对偶问题和KKT条件。