使用贝叶斯优化的深度学习结构的超参数优化

作者：贾志军 | 2023-09-06 14:24

如何解决《使用贝叶斯优化的深度学习结构的超参数优化》经验，为你挑选了1个好方法。

我已经为原始信号分类任务构建了CLDNN(卷积,LSTM,深度神经网络)结构.

每个训练时期运行大约90秒,超参数似乎很难优化.

我一直在研究各种方法来优化超参数(例如随机或网格搜索),并发现贝叶斯优化.

虽然我还没有完全理解优化算法,但我喜欢它会对我有很大帮助.

我想问几个关于优化任务的问题.

如何针对深层网络设置贝叶斯优化？(我们尝试优化的成本函数是多少？)

我想要优化的功能是什么？它是N个时代之后验证集的成本吗？

留兰香是这项任务的良好起点吗？有关此任务的任何其他建议吗？

我非常感谢对此问题的任何见解.

1> Maxim..：

虽然我还没有完全理解优化算法,但我喜欢它会对我有很大帮助.

首先,让我简要解释一下这一部分.贝叶斯优化方法旨在处理多臂强盗问题中的勘探开发权衡问题.在这个问题中,有一个未知函数,我们可以在任何点评估,但每个评估成本(直接罚款或机会成本),目标是尽可能少地使用试验来找到它的最大值.基本上,权衡是这样的:你知道函数在一组有限的点(其中一些是好的,一些是坏的),所以你可以尝试围绕当前局部最大值的区域,希望改进它(利用),或者你可以尝试一个全新的空间区域,这可能会更好或更糟(探索),或介于两者之间.

贝叶斯优化方法(例如PI,EI,UCB),使用高斯过程(GP)建立目标函数模型,并在每个步骤中根据其GP模型选择最"有希望"的点(注意"有希望"可以是由不同的特定方法定义不同).

这是一个例子:

的sin(x)*X

间隔的真实功能是f(x) = x * sin(x)(黑色曲线)[-10, 10].红点表示每次试验,红色曲线表示GP 均值,蓝色曲线表示平均值加上或减去一个标准差.正如您所看到的,GP模型在任何地方都与真实函数不匹配,但优化器很快就识别出了"热"区域-8并开始利用它.

如何针对深层网络设置贝叶斯优化？

在这种情况下,空间由(可能已转换的)超参数定义,通常是多维单位超立方体.

例如,假设您有三个超参数:学习率? in [0.001, 0.01],正则化器? in [0.1, 1](均为连续)和隐藏层大小N in [50..100](整数).优化空间是一个三维立方体[0, 1]*[0, 1]*[0, 1].通过以下转换(p0, p1, p2),此立方体中的每个点对应于三位一体(?, ?, N):

p0 -> ? = 10**(p0-3)
p1 -> ? = 10**(p1-1)
p2 -> N = int(p2*50 + 50)

我想要优化的功能是什么？它是N个时代之后验证集的成本吗？

正确的,目标函数是神经网络验证的准确性.显然,每项评估都很昂贵,因为它至少需要几个时间进行培训.

还要注意目标函数是随机的,即同一点上的两个评估可能略有不同,但它不是贝叶斯优化的阻塞,尽管它显然增加了不确定性.

留兰香是这项任务的良好起点吗？有关此任务的任何其他建议吗？

spearmint是一个很好的图书馆,你绝对可以使用它.我还可以推荐hyperopt.

在我自己的研究中,我最终编写了自己的小型库,基本上有两个原因:我想编写精确的贝叶斯方法(特别是,我发现UCB和PI 的投资组合策略比其他任何方式融合得更快,在我的情况下); 另外还有一种技术可以节省高达50%的训练时间,称为学习曲线预测(当优化器确信模型没有像其他领域那样快速学习时,这个想法是跳过完整的学习周期).我不知道有任何实现这个的库,所以我自己编写了代码,最后它得到了回报.如果你有兴趣,代码在GitHub上.

推荐阅读

程序员
获取.net 4中的连接字符串

如何解决《获取.net4中的连接字符串》经验，为你挑选了3个好方法。 ... [详细]
程序员
Visual C++/CLI(CLR)空指针

如何解决《VisualC++/CLI(CLR)空指针》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Javascript变量设置Cookie域

如何解决《使用Javascript变量设置Cookie域》经验，为你挑选了1个好方法。 ... [详细]
程序员
用" "替换空白区域使用Jquery

如何解决《用" "替换空白区域使用Jquery》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以从Firebug的Net面板中复制网页发出的HTTP请求列表吗？

如何解决《我可以从Firebug的Net面板中复制网页发出的HTTP请求列表吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Oracle"(+)"运算符

如何解决《Oracle"(+)"运算符》经验，为你挑选了4个好方法。 ... [详细]
程序员
如何在groovy中进行方法别名？

如何解决《如何在groovy中进行方法别名？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++初始化匿名结构

如何解决《C++初始化匿名结构》经验，为你挑选了1个好方法。 ... [详细]
程序员
正则表达式:^和\ A之间的差异

如何解决《正则表达式:^和\A之间的差异》经验，为你挑选了1个好方法。 ... [详细]
程序员
查找对象数组中属性的最大值

如何解决《查找对象数组中属性的最大值》经验，为你挑选了9个好方法。 ... [详细]
程序员
mysql二进制比较不使用索引

如何解决《mysql二进制比较不使用索引》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何开始使用Visual Basic for Applications？

如何解决《如何开始使用VisualBasicforApplications？》经验，为你挑选了4个好方法。 ... [详细]
程序员
汇编语言中的选择排序

如何解决《汇编语言中的选择排序》经验，为你挑选了1个好方法。 ... [详细]
程序员
取消UIView动画

如何解决《取消UIView动画》经验，为你挑选了1个好方法。 ... [详细]
程序员
android禁用音频控制器的搜索栏

如何解决《android禁用音频控制器的搜索栏》经验，为你挑选了1个好方法。 ... [详细]
程序员
PHP:我可以在array_map函数中获取索引吗？

如何解决《PHP:我可以在array_map函数中获取索引吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
linux的sort命令的不寻常行为

如何解决《linux的sort命令的不寻常行为》经验，为你挑选了1个好方法。 ... [详细]
程序员
android无法通过通知播放声音

如何解决《android无法通过通知播放声音》经验，为你挑选了1个好方法。 ... [详细]
程序员
将正则表达式语法扩展为"不包含文本XYZ"

如何解决《将正则表达式语法扩展为"不包含文本XYZ"》经验，为你挑选了2个好方法。 ... [详细]
程序员
Sharepoint客户端API无效的DateTime字段

如何解决《Sharepoint客户端API无效的DateTime字段》经验，为你挑选了1个好方法。 ... [详细]

贾志军

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章