斯坦福《机器学习》Lesson7感想———1、最优间隔分类器，《机器学习》lesson7

文章由LinuxBoy分享于2019-03-27 10:03:04热评（299）

斯坦福《机器学习》Lesson7感想———1、最优间隔分类器，《机器学习》lesson7

从上一课可知，对于给定的线性可分的数据集，离分隔超平面最近的点是支持向量。而支持向量与分隔超平面间的距离越远，则说明最后算法的预测结果越可信。这课的核心就在于如何确定最佳的分隔超平面，即最优间隔分类器。

首先我们要介绍其中的数学推理，然后介绍最优间隔分类器。

1、凸优化问题

选取一个函数里的两个点，连接两个点成一条直线，两点间的函数点都在这条直线下即为凸函数，凸函数的例子有指数函数。当一个问题被转化为凸优化问题，说明这个问题可以很好被解决。对于凸优化问题来说，局部最优解就是全局最优解。

给定一个线性可分的数据集，我们将最优化间隔问题表示为：

||w||=1代表几何间隔等于函数间隔。这也意味着几何间隔的不小于。然后解决此问题，即可得到最优间隔。但是这是个非凸优化问题，没法用标准的优化软件来解决。

根据几何间隔和函数间隔的关系可以将问题优化表达为：

然后添加一个w和b的缩放条件。所以最大化就相当于最小化。所以问题最终可以优化表达为凸优化问题。

解决这个问题即可得到最优间隔分类器。

2、拉格朗日对偶性

2.1拉格朗日算子

解决条件限制的优化问题可以用拉格朗日对偶性。假设一个问题如下表示：

所以其拉格朗日算子表示为：

分别求导归零可得：

由此即可求解出和。

此外我们还可以添加不等式限制条件，这种最优化问题的求解可如下。原问题可表达为：

则它的拉格朗日算子为

假设,代表原问题，已知。

如果不满足条件即（或者），则可以推出

如果满足条件，则。

所以归纳可得：

所以最小化原问题就是在最小化。因此可以得到原问题的解。

2.2对偶性和KKT条件

对偶问题的定义可以如下解释。假设原问题的对偶问题为

对偶优化问题表示为：

这就是和我们的原问题类似的只是max和min对调了。我们定义对偶优化问题的解为。

因为max min总是不大于min max，所以当min max = max min时，即可知道min max得到了最优解。而什么时候可以让原问题（min max）的解和其对偶问题（max min）的解相等呢？

只需要满足KKT条件就可以了。

假定f和所有的g、h都是仿射函数，并且存在一些使得，则KKT(Karush-Kuhn-Tucker)条件可按如下表示：

其中是原问题的参数解，是对偶问题的参数解。从（5）式中可以看出如果不等于0，则等于0。

3、最优间隔分类器

最优间隔分类器可定义为

因此设置其限制条件为

因此其拉格朗日算子为

对其因子求导得到：

求得

对其因子b求导可得：

将（9）式代入（8）式可得

再经由（10）式代入得

所以对偶优化问题可以表示为：

由对偶优化问题可以求出，从而可以通过（9）求出，b的解为

对于一个新的数据点x，可以通过如下进行预测

这样就实现了最优间隔分类器。

版权声明：本文为博主原创文章，未经博主允许不得转载。

推荐文章：

评论暂时关闭

最新云计算教程

Linux头条