机械进修/梯度下降算法-AI第二课

当在实际生活中的碰到问题时，我们老是进展找到最佳的解决方案。制造软件产物也是一般的事理，最优化的法式才是最幻想的产物。

最优化意味着获得最佳输出。它既是一个数学的主要分支，也在实际生活中有着主要的感化。现代的较量机科学和人工智能科学把最优化作为一个主要的范畴来研究。我们也认为人工智能的一些算法，就是模拟了人类追求实际问题最优解的过程。例如，行使人工智能算法设计软件，合营外部的电子设备例如摄像头识别人脸；行使数据挖掘和神经收集算法来寻找投资的最佳时机等等，都是行使了最优化的道理。

机械进修中的最优化和其他学科的应用比起来有稍微的差别。一样来说，在优化的同时，我们切实地知道数据的外观以及我们想要改善的处所。然则在机械进修中，我们不知道“新数据”是怎么样的，更别提对其进行优化了。为认识决这个问题，在机械进修中，我们对练习数据（training data）执行优化，并搜检由此新缔造出的验证数据（validation data）。

最优化的普遍应用

机械学：设计航空航天产物的外观；

经济学：成本最小化；

物理学：量子较量中的优化时间；

决意最佳运输路线，货架空间优化等等。

很多风行的机械算法都依靠于线性回来，k比来邻，神经收集等手艺。优化的应用是无限的，是以它成为了学术界和工业界普遍研究的课题。在本文中，我们将介绍一种称为梯度下降（Gradient Descent）的优化手艺。这是机械进修时最常用的优化手艺。

1.什么是梯度下降？

我们来看一下经典的爬山示例：假设你在山顶，你必需达到山谷最低点的一个湖。然则你被蒙住眼睛，看不到你的方针。那么，你会接纳什么方式达到湖边？

最简洁的方式是搜检你四周的地面，找到地盘向下倾斜的偏向。这是你该迈出第一步的偏向。沿着下坡路线一向走，很有或者你会达到湖泊。下图透露你走过的路：

如今我们来用数学术语来描述一下这个场景。

假设我们想要找出进修算法的最佳参数（θ0）和（θ1）。与上面的爬山示例雷同，当我们绘制成本空间J（θ）函数的3D图像时发现了雷同的山脉和山谷。当z轴代表成本J（θ），x轴和z轴离别对应参数θ0和θ1时，丘陵由红..域代表成本高，而山谷以蓝..域代表成本低。成本空间不外是算法在某个参数选择特定值时的示意。

如今首要有两种类型的梯度下降算法：

1.1 数据摄入基准法

全批梯度下降算法（Full Batch）

随机梯度下降算法（Stochastic）

全批梯度下降算法一次使用所稀有据来较量梯度，而随机梯度下降算法能够在较量梯度时进行采样。

1.2 分化技能基准法

一阶微分

二阶微分

梯度下降需要经由成本函数J（θ）的微分方程来较量梯度。我们能够使用一阶微分或二阶微分。

2.执行梯度下降法所面临的挑战

梯度下降是一种适用于大多数情形的手艺。但也有时候梯度下降也不克正常工作，或完全不克工作。发生这种情形时有三个首要原因：

2.1 来自数据的挑战

若是数据的分列体式会造成非凸优化问题（non-convex optimization problem），使用梯度下降来执行优化会非常难题。

即使在优化凸优化问题时，也或者存在很多最小值。最低点称为全局最小值（Global Minima），其余点称为局部最小值（Local Minima）。我们的方针是在避免局部最小值的同时达到全局最小值。

还有鞍点（Saddle Point）问题。这是数据中梯度为零但不是最长处的点。今朝并没有具体的方式来避免这一点，这仍然是一个非常活跃的研究范畴。

2.2 来自梯度的挑战若是梯度下降执行的不准确，则或者导致像梯度消散（vanishing gradient）或梯度爆炸（exploding gradient）之类的问题。这些问题会在梯渡过小或过大时发生，导致算法不会收敛（Converge）。

2.3 来自实际应用难度的挑战

大多数神经收集从业人员不大存眷实际应用。然则收集的资源行使率之类的事情也是非常主要的。在实施梯度下降时，具体需要几多资源是非常主要的。若是内存对于应用法式来说太小就必然会失败。

此外，梯度下降算法对于浮点和硬件/软件的要求也很高。

3.梯度下降算法的变体

最常用的梯度下降算法及其实施。

3.1 Vanilla（香草）梯度下降法

这是梯度下降手艺的最简洁形式。香草意味着纯粹/没有任何掺假。其首要特点是经由采用成本函数的梯度向最小值偏向络续迈出小步。它的伪代码如下：update = learning_rate * gradient_of_parameters

parameters = parameters - update

我们经由获取旧参数的梯度来络续更新参数。把它乘以一个进修速度（learning_rate，一个常数），表明我们想要达到最低点的速度。进修速度是一个超参数（hyper-parameter），在选择它的巨细时应该十分小心郑重。

3.2动量梯度下降（Gradient Descent with Momentum）

经由调整Vanilla算法，能够在每次进行下一步之前注重前一步伐。update = learning_rate * gradient

velocity = previous_update * momentum

parameter = parameter + velocity – update

在这里，update与香草梯度下降法沟通。然则引入了一个名为velocity的新术语，它考虑了之前的update和一个称为momentum的常量。

3.3 Adagrad

Adagrad使用自适应手艺进行进修速度的更新。这个算法凭据以前所有迭代的梯度转变情形来改变进修速度。伪代码如下：grad_component = previous_grad_component + (gradient * gradient)

rate_change = square_root(grad_component)+epsilon

adapted_learning_rate = learning_rate * rate_change

update = adapted_learning_rate * gradient

parameter = parameter – update

个中，epsilon是一个常量，用于连结进修速度的转变率。

3.4 Adam

Adam是一种基于Adagrad的自适应手艺，进一步缓解了它的不足。换句话说，它就是 Momentum + Adagrad。伪代码如下：adapted_gradient = previous_gradient +

((gradient – previous_gradient) * (1 – beta1))

gradient_component = (gradient_change – previous_learning_rate)

adapted_learning_rate = previous_learning_rate +

(gradient_component * (1 – beta2))

update = adapted_learning_rate * adapted_gradient

parameter = parameter – update

个中，beta1和beta2是常量，用于搜检梯度和进修速度的转变。

4.梯度下降算法的实际应用

使用python进行梯度下降的根基应用。

接下来我们使用梯度下降优化来找到深度进修模型的最佳参数，并将其用于图像识别问题。我们的问题是：识别来自给定的28×28图像里的数字。预备的图片中，有一部门图像用于练习，其余部门用于测试模型。

如下是界说Vanilla梯度下降的首要代码：params = [weights_hidden, weights_output, bias_hidden, bias_output]

def sgd(cost, params, lr=0.05):

grads = T.grad(cost=cost, wrt=params)

updates = []

for p, g in zip(params, grads):

updates.append([p, p - g * lr])

return updates

updates = sgd(cost, params)

我们来拆分懂得一下这段代码。界说函数sgd作为cost，params和lr的因变量，它和如前所述的J（θ）同出一辙；而之前的θ0，θ1在这里是深度进修算法的参数和进修速度。我们将默认进修速度设置为0.05，但该值可随时被更改。def sgd(cost, params, lr=0.05):

然后我们界说了关于成本函数J（θ）的参数的梯度。在这里，我们使用theano库来找到响应梯度，而且我们将theano作为T导入grads = T.grad(cost=cost, wrt=params)

最后把所有或者的参数更新，这里应使用Vanilla梯度下降。for p, g in zip(params, grads):

updates.append([p, p - g * lr]

我们能够使用这个函数来为神经收集找到最佳参数。在使用这个函数时，该神经收集超卓地完成了义务，如下所示：Prediction is: 8

在这个应用中，梯度下降法为深度进修算法找到了最优参数。

5.应用梯度下降的实用技能

上面提到的每个梯度下降算法都有其长处和瑕玷。下面的一些小提醒或者会匡助您选择准确的算法。

为了快速竖立原型，请使用Adam / Adagrad等自适应手艺。他们很短时高效，而且不需要太多的超参数调整。

要获得最佳结果，您应该使用Vanilla梯度下降法或Momentum。固然较量速度超等慢，然则这些究竟大多比自适应手艺得来的究竟更正确。

若是数据很小而且适合一次迭代，则能够使用二阶手艺，如l-BFGS。因为二阶手艺对于充沛小的数据的处理非常快速和正确。

神经收集无法成功进修的原因有好多。然则若是能够找到算法失足的处所，对将来的工作照样非常有匡助的。

在应用梯度下降法时，有以下几点常见注重事项：

错误率 - 应该在特定迭代后搜检练习错误率、测试错误率，并确保它们都成减小趋势。若是错误率并未减小，算法很有或者出了问题。

隐藏层中的梯度流 - 搜检是否有梯度消散或梯度爆炸的问题。

进修速度 - 使用自适应手艺时应该搜检。

进展您阅读本文后，将熟练把握有关梯度下降及其变体的根蒂常识。进展你感觉我对这些算法的实际应用的解读也有所匡助！

机械进修/梯度下降算法-AI第二课

相关文章

热点文章

推荐文章