Stanford机器学习[第二课]-监督学习应用和梯度下降,stanford梯度


说明:以下图片均来自课件PPT或学者笔记。

简介:本课内容有自主推导、线性回归、梯度下降、组梯度下降、随机梯度下降、标准方程推导。

本课内容讲起来不多,但是使用数学公式来推导的话有点让人难以理解,尤其是梯度下降那块。

1.监督学习

还是第一课的数据,住房面积和售价

这里写图片描述

通过数据可以得到这样一幅图
这里写图片描述

下面通过数学的方式描述这个问题。
x(i)表示输入变量,或者说是输入特征(feature)
y(i)表示输出或者是目标变量
x(i),y(i)表示训练样本,即用来训练的数据集
(x(i),y(i));i=1,...,m称之为训练集
在这个例子中,X,YR的。
下图是回归分类的简单图示。
这里写图片描述
图一

这里写图片描述
图二

定义一个功能函数,h(x):x>y来很好的预测输入x时的输出y。这个过程如下图所示:
这里写图片描述

当我们试着预测的目标函数是连续的,如之前的房租价格预测例子,我们称这种问题为回归问题(regression problem),当y只是一个很小的特定范围取值,如预测一个住宅是居民房还是公寓房,我们称这中为一个分类问题。

这里写图片描述

下面介绍单变量的线性回归问题。

2.单参数线性回归-代价函数

还是原来的房屋价格预测数据

这里写图片描述

在这里加了一个特征房屋的卧室数量数。
x(1)=size,x(2)=bedrooms
得出这样一个假设:给出一个房屋大小和卧室数量,再加上一个常量值,可以预测出房屋价格。即这样一个预测公式:
这里写图片描述

简单变化下
这里写图片描述

其中n表示特征个数。
相应的,我们定义代价函数为:

这里写图片描述

下面讨论只有一个特征的线性回归问题,代价函数。

单变量线性回归——代价函数(Cost Function)

线性回归是给出一系列点假设拟合直线为h(x)=θ0+θ1x, 记Cost Function为J(θ0,θ1)
之所以说单参数是因为只有一个变量x,即影响回归参数θ1,θ0的是一维变量,或者说输入变量只有一维属性。如下图:

这里写图片描述

我们的目标是最小化代价函数,整个数值如下:

这里写图片描述

θ1为零时且只有一个特征的代价函数图如下

这里写图片描述

θ1不为零时

这里写图片描述

当有两个特征是,cost function是一个三维函数,绘图如下:

这里写图片描述

我们的目标主要是找到代价函数的最小值点,找到代价函数最小的算法有:
1.搜索算法
2.梯度下降算法

下面介绍梯度下降方法

3.梯度下降

梯度下降函数J(θ0,θ1),要得到这个函数的最小值,方法是让参数沿着梯度下降的方向走,并迭代地不断减小J(θ0,θ1),即稳态。

这里写图片描述

每次沿着梯度下降的方向,有不同的走法,如下:

这里写图片描述
梯度下降走向1


这里写图片描述
梯度下降走向2

参数的变换公式:其中标出了梯度(框框内)和学习率(α):
这里写图片描述

gradient即J在该点的切线斜率slope,tanβ。下图所示分别为slope(gradient)为正和负的情况:

这里写图片描述

同时更新theta0和theta1,左边为正解:

这里写图片描述

对于不同的学习率α,梯度会有不同的效果,如下:

这里写图片描述

下图表示:无需逐渐减小α,就可以使下降幅度逐渐减小

这里写图片描述

对于梯度下降算法和线性回归模型,如下图解

这里写图片描述

代价函数通过对θj求偏导数,过程如下

这里写图片描述

得到最后的梯度下降算法推导公式:

这里写图片描述

其中x(i)表示输入数据x中的第i组数据。

对于组梯度下降是这样描述的。

这里写图片描述

References

相关博客:Rachel_Zhang Stanford机器学习—第一讲. Linear Regression with one variable

视频链接:http://open.163.com/movie/2008/1/B/O/M6SGF6VB4_M6SGHJ9BO.html?username=liudiwei99

相关内容