到目前为止我读过的许多论文都提到了"预训练网络可以提高反向传播错误的计算效率",并且可以使用RBM或自动编码器来实现.
如果我已经正确理解,AutoEncoders通过学习身份函数来工作,如果它的隐藏单位小于输入数据的大小,那么它也会进行压缩,但这与提高传播错误的计算效率有什么关系呢?向后发出信号?是因为预训练的隐藏单位的权重与其初始值没有太大差异吗?
假设正在阅读本文的数据科学家已经知道自己已经知道AutoEncoders将输入作为目标值,因为它们是学习身份函数,这被认为是无监督学习,但是这种方法可以应用于卷积神经网络,其中第一个隐藏层是功能图?通过将学习的内核与图像中的感知字段进行卷积来创建每个特征映射.这个学习的内核,如何通过预训练(无监督的方式)获得?
Amir.. 11
需要注意的一点是,自动编码器试图学习非平凡的识别功能,而不是识别功能本身.否则他们就没有用了.那么预训练有助于将权重向量移向错误表面上的良好起点.然后使用基本上进行梯度下降的反向传播算法来改进那些权重.请注意,梯度下降卡在关闭的局部最小值中.
[忽略发布图像中的全局最小值一词,并将其视为另一个更好的本地最小值]
直观地说,假设您正在寻找从原点A到目的地B的最佳路径.有一个没有显示路线的地图(你在神经网络模型的最后一层获得的错误)有点告诉你要去哪里.但是你可能会把自己置于一条有很多障碍的路上,上山和下山.然后假设有人告诉你一条路线,他之前经历过的路线(预训练)并递给你一张新地图(pre =训练阶段的起点).
这可能是一个直观的原因,为什么从随机权重开始并立即开始使用反向传播优化模型可能不一定帮助您获得使用预训练模型获得的性能.但是,请注意,许多获得最新结果的模型不一定使用预训练,他们可能会将反向传播与其他优化方法结合使用(例如adagrad,RMSProp,Momentum和......),以避免获得卡在一个糟糕的局部极小.
这是第二张图片的来源.
需要注意的一点是,自动编码器试图学习非平凡的识别功能,而不是识别功能本身.否则他们就没有用了.那么预训练有助于将权重向量移向错误表面上的良好起点.然后使用基本上进行梯度下降的反向传播算法来改进那些权重.请注意,梯度下降卡在关闭的局部最小值中.
[忽略发布图像中的全局最小值一词,并将其视为另一个更好的本地最小值]
直观地说,假设您正在寻找从原点A到目的地B的最佳路径.有一个没有显示路线的地图(你在神经网络模型的最后一层获得的错误)有点告诉你要去哪里.但是你可能会把自己置于一条有很多障碍的路上,上山和下山.然后假设有人告诉你一条路线,他之前经历过的路线(预训练)并递给你一张新地图(pre =训练阶段的起点).
这可能是一个直观的原因,为什么从随机权重开始并立即开始使用反向传播优化模型可能不一定帮助您获得使用预训练模型获得的性能.但是,请注意,许多获得最新结果的模型不一定使用预训练,他们可能会将反向传播与其他优化方法结合使用(例如adagrad,RMSProp,Momentum和......),以避免获得卡在一个糟糕的局部极小.
这是第二张图片的来源.