Chinese, Computer Science, Technology

Machine Learning Chinese NLP :::: Advanced Optimization

February 5, 2019 | by chad.salinas@gmail.com | 0 Comments |

0 Likes

Advanced Optimization for Cost Function with Logistic Regression

在上节课的视频中

用梯度下降的方法最小化

逻辑回归中代价函数 J(θ)

在这段视频中

教你们一些

高级优化算法和一些

高级的优化概念

利用这些方法我们就能够

使通过梯度下降

进行逻辑回归的速度

大大提高

而这也将使

算法更加适合解决

大型的机器学习问题

比如我们有数目庞大的特征量

现在我们换个角度

来看什么是梯度下降

我们有个代价函数 J 而我们想要使其最小化

那么我们需要做的是

我们需要

编写代码

当输入参数 θ 时

它们会计算出两样东西

J(θ) 以及

J等于 0 1直到 n 时的

偏导数项

假设我们已经完成了

可以实现这两件事的代码

那么梯度下降所做的就是

反复执行这些更新

生成了这个叫做 data 的对象是吧？

所以给出我们

用于计算这些的偏导数的代码

梯度下降法就把它插入

到这里从而来更新参数 θ

因此另一种考虑

梯度下降的思路是

我们需要写出代码

来计算 J(θ)

这些偏导数然后

把这些插入到梯度下降中

然后它就可以为我们最小化这个函数

对于梯度下降来说我认为

从技术上讲你实际并不需要编写代码

来计算代价函数 J(θ)

你只需要编写代码来计算导数项

但是如果你希望

代码还要能够监控

这些 J(θ) 的收敛性

那么我们就

需要自己编写代码

来计算

代价函数和偏导数项

所以在写完能够

计算这两者的代码之后

我们就可以使用梯度下降

但梯度下降并不是我们可以使用的唯一算法

还有其他一些算法

更高级更复杂

如果我们能用

这些方法来计算

这两个项的话那么这些算法

就是为我们优化

代价函数的不同方法

共轭梯度法 BFGS (变尺度法) 和

L-BFGS (限制变尺度法) 就是其中

一些更高级的优化算法

它们需要有一种方法来计算 J(θ)

以及需要一种方法

计算导数项

然后使用比梯度下降更复杂

的算法来最小化代价函数

这三种算法的具体细节

超出了本门课程的范畴

实际上你最后通常会

花费很多天

或几周时间研究这些算法

你可以专门学一门课来提高数值计算能力

不过让我来告诉你他们的一些特性

这三种算法有许多优点

一个是

使用这其中任何一个算法你通常

不需要手动选择学习率 α

所以对于

这些算法的一种思路是给出

计算导数项和代价函数的方法

你可以认为算法有一个智能的内部循环

而且事实上他们确实有一个智能的

内部循环

称为线性搜索(line search)算法它可以自动

尝试不同的

学习速率 α 并自动

选择一个好的学习速率 α

因此它甚至可以

为每次迭代选择不同的学习速率

那么你就不需要自己选择

这些算法实际上在做

更复杂的事情而不仅仅是

选择一个好的学习速率

所以它们往往最终

收敛得远远快于梯度下降

这些算法实际上在做

更复杂的事情不仅仅是

选择一个好的学习速率

所以它们往往最终

比梯度下降收敛得快多了不过

关于它们到底做什么的详细讨论

已经超过了本门课程的范围

实际上我过去

使用这些算法

已经很长一段时间了也许超过

十年了使用得相当频繁

而直到几年前

我才真正

搞清楚

共轭梯度法 BFGS 和 L-BFGS的细节

因此实际上完全有可能

成功使用这些算法

并应用于许多不同的学习

问题而不需要真正理解

这些算法的内环间在做什么

如果说这些算法有缺点的话

那么我想说主要

缺点是它们比

梯度下降法复杂多了

特别是你最好

不要使用 L-BGFS BFGS这些算法

共轭梯度 L-BGFS BFGS

除非你是数值计算方面的专家

实际上

我不会建议你们编写

自己的代码来计算

数据的平方根或者

计算逆矩阵

因为对于这些算法我

还是会建议你直接使用一个软件库

所以要求一个平方根

我们所能做的

就是调用一些

别人已经

写好用来计算数字平方根的函数

幸运的是有 Octave 和

与它密切相关的 MATLAB 语言

我们将会用到它们

Octave 有一个非常

理想的库用于实现这些先进的优化算法

所以如果你直接调用

它自带的库你就能得到不错的结果

我必须指出

这些算法

实现得好或不好是有区别的

因此如果你正在你的

机器学习程序中使用一种不同的语言

比如如果你正在使用

C C + + Java

等等你

可能会想尝试一些

不同的库以确保你找到一个

能很好实现这些算法的库

因为

在 L-BFGS 或者等高线梯度的

实现上

表现得好与不太好

是有差别的

因此现在让我们来说明

如何使用这些算法我打算举一个例子

比方说你有一个

含两个参数的问题

这两个参数是 θ0 和 θ1

那么你的成本函数

J(θ)等于 θ1

减去5的平方再加上 θ2 减5的平方

因此通过这个代价函数

你可以得到 θ1 和 θ2 的值

如果你将 J(θ) 最小化的话

那么它的最小值

将是 θ1

等于5 θ2 等于5

我知道你们当中

有些人比别人微积分更好

但是你应该知道代价函数 J 的导数

推出来就是这两个表达式

我已经写在这儿了

那么你就可以应用

高级优化算法里的一个

来最小化代价函数 J

所以如果我们

不知道最小值

是5 5 但你想要

代价函数找到这个最小值

是用比如

梯度下降这些算法但最好是用

比它更高级的算法

你要做的就是运行一个

像这样的 Octave 函数那么我们

运行一个函数

比如 costFunction

这个函数的作用就是

它会返回两个值

第一个是 jVal 它是

我们计算的代价函数 J

所以说 jVal

等于 theta(1)

减5的平方加

theta(2) 减5的平方

这样就计算出这个代价函数

函数返回的第二个值是

梯度值

梯度值应该是

一个2×1的向量

梯度向量的两个元素

对应

这里的两个偏导数项

运行这个 costFunction 函数后

你就可以

调用高级的优化函数

这个函数叫 fminunc

它表示

Octave 里无约束最小化函数

调用它的方式如下

你要设置几个 options

这个 options 变量

作为一个数据结构可以存储你想要的 options

所以 GradObj 和 On

这里设置梯度目标参数为打开(on)

这意味着你现在确实要给这个算法提供一个梯度

然后设置最大

迭代次数比方说 100

我们给出一个 θ 的猜测初始值

它是一个2×1的向量

那么这个命令就调用 fminunc

这个@符号表示

指向我们刚刚定义的

Chad Salinas working on analytics project.

costFunction 函数的指针

如果你调用它

它就会

使用众多高级优化算法中的一个

当然你也可以把它当成梯度下降

只不过它能自动选择

学习速率α 你不需要自己来做

然后它会尝试

使用这些高级的优化算法

就像加强版的梯度下降法

为你找到最佳的 θ 值

让我告诉你它在 Octave 里什么样

所以我写了这个关于theta的

的 costFunction 函数跟前面幻灯片中一样

它计算出代价函数 jval

以及梯度 gradient

gradient 有两个元素

是代价函数对于

theta(1) 和 theta(2) 这两个参数的

偏导数

现在让我们切换到Octave窗口

我把刚刚的命令敲进去

options = optimset 这是

在我的优化算法的 options上

设置参数

的记号

这样就是100

次迭代

我现在要给我的算法提供梯度值

设置 theta 的初始值是一个2×1的零向量

这是我猜测的 theta 初始值

现在我就可以

写出三个返回值

[optTheta, functionVal, exitFlag] 等于

指向代价函数的指针 @costFunction

我猜测的初始值 initialTheta

还有options

如果我敲回车这个就会运行优化算法

它很快返回值

这个格式很有意思

因为我的代码

是被缠住了

所以这个有点意思

完全是因为我的命令行被绕住了

不过这里只是

数字上的一些问题

把它看成是加强版梯度下降

它们找到 theta 的最优值

是 theta(1) 为5 theta(2) 也为5

这正是我们希望的

functionVal 的值

实际上是10的-30次幂

所以这基本上就是0

这也是我们所希望的

exitFlag为1

这说明它的状态

是已经收敛了的

你也可以运行

help fminunc 命令

去查阅相关资料

以理解 exitFlag 的作用

exitFlag可以让你确定该算法是否已经收敛

这就是在 Octave 里运行这些算法的过程

哦对了这里我得指出

用 Octave 运行的时候

向量θ的值 θ的参数向量

必须是 d 维的

d 大于等于2

所以 θ 仅仅是一个实数

因此如果它不是

一个至少二维的向量

或高于二维的向量

fminunc 就可能无法运算

因此如果你有一个

一维的函数需要优化

你可以查找 Octave 里 fminuc 函数的资料

来得到更多的细节

这就是我们如何优化

一个例子的过程这是一个

简单的二次代价函数

我们如果把它应用到逻辑回归中呢

在逻辑回归中我们有

一个参数向量 theta

我要混合使用

Octave 记号和数学符号

我希望这个写法很明确

我们的参数 theta

由 θ0 到 θn 组成

因为在 Octave 的标号中

向量的标号是从1开始的

在 Octave 里 θ0实际上

写成 theta(1)

因此用 theta(1) 表示第一个参数 θ0

然后有 theta(2)

接下来写到

theta(n+1) 对吧

这是因为 Octave 的记号

是向量从1开始的

而不是从0开始

因此我们需要

做的是写一个

costFunction 函数它为

逻辑回归求得代价函数

具体点说 costFunction 函数

需要返回 jVal 值

因此需要一些代码

来计算 J(θ)

我们也需要给出梯度值 gradient

那么 gradient(1)

对应用来计算代价函数

关于 θ0 的偏导数

接下去关于 θ1 的偏导数

依此类推

再次强调这是 gradient(1)

gradient(2) 等等

而不是gradient(0) gradient(1)

因为 Octave 的标号

是从1开始而不是从0开始的

我希望你们从这个幻灯片中

学到的主要内容是

你所要做的是

写一个函数它能返回

代价函数值以及梯度值

因此要把这个

应用到逻辑回归

或者甚至线性回归中

你也可以把这些优化算法用于线性回归

你需要做的就是输入

合适的代码来计算

这里的这些东西

现在你已经知道如何使用这些高级的优化算法

有了这些算法

你就可以使用一个

复杂的优化库

它让算法使用起来更模糊一点

more opaque and so

因此也许稍微有点难调试

不过由于这些算法的运行速度

通常远远超过梯度下降

因此当我有一个很大的

机器学习问题时

我会选择这些高级算法

而不是梯度下降

有了这些概念

你就应该能将逻辑回归

和线性回归应用于

更大的问题中

这就是高级优化的概念

在下一个视频

也就是逻辑回归这一部分的最后一个视频中

我想要告诉你如何

修改你已经知道的逻辑回归算法

然后使它在多类别分类问题中

也能正常运行

Let the dataset change your mindset

– Hans Rosling

technology

Share on:

Machine Learning Chinese NLP :::: Advanced Optimization

Advanced Optimization for Cost Function with Logistic Regression

Let the dataset change your mindset

– Hans Rosling

No Comments