10赞

神经网络产生的输出平均值不正确

作者：跟我搞对象吧 | 2023-09-07 20:04

如何解决《神经网络产生的输出平均值不正确》经验，为你挑选了1个好方法。

我正在研究神经网络系统来执行SED拟合,作为西澳大利亚大学学生项目的一部分.

我通过称为MAGPHYS的SED拟合程序创建了大约20,000次运行.每次运行都有42个输入值和32个我们感兴趣的输出值(系统有更多输出,但我们不需要它们)

我一直在尝试使用Keras神经网络包来创建一个网络来学习这个功能.

我目前的网络设计使用4个隐藏层,完全互连,每层之间有30个连接.每一层都使用TanH激活功能.我还有一个42维输入层和32维输出层,两者都使用TanH激活,总共6层.

model = Sequential()
loss = 'mse'
optimiser = SGD(lr=0.01, momentum=0.0, decay=0, nesterov=True)

model.add(Dense(output_dim=30, input_dim=42, init='glorot_uniform', activation='tanh'))

for i in range(0, 4):
    model.add(Dense(output_dim=30, input_dim=30, init='glorot_uniform', activation='tanh'))

model.add(Dense(output_dim=32, input_dim=30, init='glorot_uniform', activation='tanh'))
model.compile(loss=loss, optimizer=optimiser)

我一直在使用输入和输出数据的最小/最大标准化来压缩0和1之间的所有值.我正在使用随机梯度下降优化器并且我已经尝试了各种损失函数,例如均方误差,均值绝对误差,平均绝对误差等

主要问题是,无论我如何构建我的网络,它只是生成大约所有训练输出值的平均值的输出值.它并不表现为通过网络实际上已经正确学习了函数,它只是生成平均值附近的值.更糟糕的是,我尝试过的一些网络设计,特别是那些使用线性激活功能的网络设计,只会生成输出值的平均值,而且根本不会发生变化.

示例(对于32个输出之一):

Output   Correct
9.42609868658  =   9.647
9.26345946681  =   9.487
9.43403506231  =   9.522
9.35685760748  =   9.792
9.20564885211  =   9.287
9.39240577382  =   8.002

注意所有输出都在9.2 - 9.4值附近,即使这些值非常不正确.

考虑到所有这一切,是什么导致像我这样的网络产生这些类似的平均输出？

我可以尝试采取哪些措施来解决这个问题并创建某种网络来实际生成正确的输出？

1> Lucas Ramada..：

除了CAFEBABE的评论之外,我只是想对这个具体问题提出一些看法:

42个输入功能不是很多功能.不是你必须修复的东西,但它意味着你想拥有更宽的隐藏层(即更多的节点),以帮助分类/标签的可分离性.此外,20K观测并不是一个大型数据集.如果你能获得更多数据,你应该.这几乎总是如此.

如果你有最小/最大标准化的具体原因,那么忽略这一点,但你可以考虑BatchNormalizing你的输入,这往往有助于网络准确预测的能力.这基本上允许激活使输入更接近函数的中间而不是结束.

您应该尝试更多优化.例如:

你参加培训的时间有多少？一次通过数据是不够的.

尝试不同的优化器,如rmsprop或adam,或学习率.

您也可以使用学习率调度程序,例如此处,您可以降低您在历元记录中的学习率,这样您就不会超过损失函数的最小值.

尝试一些不同的激活功能.最近的研究包括:ReLU,ELU,PReLU,SReLU.所有可用的keras.

还尝试包括一些正则化,以避免过度拟合.查看Dropout,或L2/L1

虽然拥有更深层次的模型(即更多层)通常会有所帮助,但将数据维度从42个特征减少到30个,可能会损害您分离数据的能力.尝试更大的东西,比如100,或500或1000.

您可以尝试的示例模型如下:

# imports 
from sklearn.cross_validation import train_test_split
from keras.models import Sequential
from keras.layers.core import Dense, Activation, Dropout
from keras.layers.normalization import BatchNormalization
from keras.layers.advanced_activations import ELU     

# data shapes
n_obs, n_feat = 20000, 42
n_hidden = 500 # play with this, bigger tends to give better separability
n_class = 32

# instantiate model
model = Sequential()

# first layer --- input
model.add(Dense(input_dim = n_feat, output_dim = n_hidden))
model.add(BatchNormalization())
model.add(ELU())
model.add(Dropout(p=0.2)) # means that 20% of the nodes are turned off, randomly

# second layer --- hidden
model.add(Dense(input_dim = n_hidden, output_dim = n_hidden))
model.add(BatchNormalization())
model.add(ELU())
model.add(Dropout(p=0.2))

# third layer --- output
model.add(Dense(input_dim = n_hidden, output_dim = n_class))
model.add(BatchNormalization())
model.add(Activation('softmax'))

# configure optimization
model.compile(optimizer = 'rmsprop', loss = 'categorical_crossentropy', metrics = ['accuracy'])

# split your data, so you test it on validation data
X_train, X_test, Y_train, Y_test = train_test_split(data, targets)

# train your model
model.fit(X_train, Y_train, validation_data = (X_test, Y_test))

祝你好运!

推荐阅读

程序员
启动未使用Xcode 7显示的图像

如何解决《启动未使用Xcode7显示的图像》经验，为你挑选了1个好方法。 ... [详细]
程序员
app:stackFromEnd for RecyclerView无法在xml中运行？

如何解决《app:stackFromEndforRecyclerView无法在xml中运行？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Kibana中配置索引模式

如何解决《如何在Kibana中配置索引模式》经验，为你挑选了1个好方法。 ... [详细]
程序员
名称中的React native Image变量不起作用

如何解决《名称中的ReactnativeImage变量不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么使用dotenv库而不是解析ini文件？

如何解决《为什么使用dotenv库而不是解析ini文件？》经验，为你挑选了0个好方法。 ... [详细]
程序员
打印免费monad

如何解决《打印免费monad》经验，为你挑选了1个好方法。 ... [详细]
程序员
提取/读取React propTypes

如何解决《提取/读取ReactpropTypes》经验，为你挑选了1个好方法。 ... [详细]
程序员
SBT - 如何禁用特定任务的插件(例如"包")

如何解决《SBT-如何禁用特定任务的插件(例如"包")》经验，为你挑选了0个好方法。 ... [详细]
程序员
一个小游戏/测验:你看到我的价值观了吗？(解释十六进制值)

如何解决《一个小游戏/测验:你看到我的价值观了吗？(解释十六进制值)》经验，为你挑选了0个好方法。 ... [详细]
程序员
"粘性"选择Angular应用程序

如何解决《"粘性"选择Angular应用程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
Symfony2从事件中更改Form data_class

如何解决《Symfony2从事件中更改Formdata_class》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何将"dd/MM/yyyy"字符串转换为DateTime

如何解决《如何将"dd/MM/yyyy"字符串转换为DateTime》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android中的@UiThread和@MainThread注释有什么区别？

如何解决《Android中的@UiThread和@MainThread注释有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
DataTables:无法读取未定义的属性"长度"

如何解决《DataTables:无法读取未定义的属性"长度"》经验，为你挑选了4个好方法。 ... [详细]
程序员
滚动条到达面板底部时的触发事件

如何解决《滚动条到达面板底部时的触发事件》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在使用PHP上传图像之前检查/修复图像旋转

如何解决《如何在使用PHP上传图像之前检查/修复图像旋转》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ansible在角色之间共享文件

如何解决《Ansible在角色之间共享文件》经验，为你挑选了2个好方法。 ... [详细]
程序员
仅在填写所有详细信息后才能显示按钮

如何解决《仅在填写所有详细信息后才能显示按钮》经验，为你挑选了1个好方法。 ... [详细]
程序员
Grunt,Gulp.js和Bower有什么区别？为什么以及何时使用它们？

如何解决《Grunt,Gulp.js和Bower有什么区别？为什么以及何时使用它们？》经验，为你挑选了4个好方法。 ... [详细]
程序员
调试Visual Studio本机测试项目

如何解决《调试VisualStudio本机测试项目》经验，为你挑选了0个好方法。 ... [详细]

跟我搞对象吧

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章