斯坦福《机器学习》Lesson7感想———1、最优间隔分类器,《机器学习》lesson7


    从上一课可知,对于给定的线性可分的数据集,离分隔超平面最近的点是支持向量。而支持向量与分隔超平面间的距离越远,则说明最后算法的预测结果越可信。这课的核心就在于如何确定最佳的分隔超平面,即最优间隔分类器。

首先我们要介绍其中的数学推理,然后介绍最优间隔分类器。

1、凸优化问题

    选取一个函数里的两个点,连接两个点成一条直线,两点间的函数点都在这条直线下即为凸函数,凸函数的例子有指数函数。当一个问题被转化为凸优化问题,说明这个问题可以很好被解决。对于凸优化问题来说,局部最优解就是全局最优解。

给定一个线性可分的数据集,我们将最优化间隔问题表示为:


||w||=1代表几何间隔等于函数间隔。这也意味着几何间隔的不小于。然后解决此问题,即可得到最优间隔。但是这是个非凸优化问题,没法用标准的优化软件来解决。

    根据几何间隔和函数间隔的关系可以将问题优化表达为:


然后添加一个w和b的缩放条件。所以最大化就相当于最小化。所以问题最终可以优化表达为凸优化问题。


解决这个问题即可得到最优间隔分类器。

 

2、拉格朗日对偶性

2.1拉格朗日算子

解决条件限制的优化问题可以用拉格朗日对偶性。假设一个问题如下表示:


所以其拉格朗日算子表示为:


分别求导归零可得:


由此即可求解出

此外我们还可以添加不等式限制条件,这种最优化问题的求解可如下。原问题可表达为:


则它的拉格朗日算子为

 

   假设,代表原问题,已知。

如果不满足条件即(或者),则可以推出


如果满足条件,则

   所以归纳可得:


所以最小化原问题就是在最小化。因此可以得到原问题的解

2.2对偶性和KKT条件

对偶问题的定义可以如下解释。假设原问题的对偶问题为


对偶优化问题表示为:


这就是和我们的原问题类似的只是max和min对调了。我们定义对偶优化问题的解为

因为max min总是不大于min max,所以当min max = max min时,即可知道min max得到了最优解。而什么时候可以让原问题(min max)的解和其对偶问题(max min)的解相等呢?


只需要满足KKT条件就可以了。

   假定f和所有的g、h都是仿射函数,并且存在一些使得,则KKT(Karush-Kuhn-Tucker)条件可按如下表示:

  

其中是原问题的参数解,是对偶问题的参数解。从(5)式中可以看出如果不等于0,则等于0。


3、最优间隔分类器

最优间隔分类器可定义为


因此设置其限制条件为


因此其拉格朗日算子为


对其因子求导得到:


求得


对其因子b求导可得:

 

将(9)式代入(8)式可得


再经由(10)式代入得


所以对偶优化问题可以表示为:

 

由对偶优化问题可以求出,从而可以通过(9)求出,b的解为

 

   对于一个新的数据点x,可以通过如下进行预测


这样就实现了最优间隔分类器。

 

 

 

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关内容