16赞

局部极小的三层神经网络陷入困境

作者：手机用户2402851155 | 2023-09-08 15:48

如何解决《局部极小的三层神经网络陷入困境》经验，为你挑选了1个好方法。

我已经在Python中编写了一个3层神经网络,基于本教程,用Rock,Paper,Scissors 编写样本数据,使用-1表示摇滚,0表示纸张,1表示剪刀,以及类似的数组.在教程中.我的功能似乎在每次运行时陷入相对最小值,我正在寻找一种方法来解决这个问题.该计划如下.

#math module
import numpy as np

#sigmoid function converts numbers to percentages(between 0 and 1)
def nonlin(x, deriv = False):
    if (deriv == True): #sigmoid derivative is just
        return x*(1-x)#output * (output - 1)

    return 1/(1+np.exp(-x)) #print the sigmoid function

#input data: using MOCK RPS DATA, -1:ROCK, 0:PAPER, 1:SCISSORS
input_data = np.array([[1, 1, 1],
                    [0, 0, 0],
                    [-1, -1, -1],
                    [-1, 1, -1]])
#also for training
output_data = np.array([[1],
                    [0],
                    [-1],
                    [1]])

#random numbers to not get stuck in local minima for fitness
np.random.seed(1)

#create random weights to be trained in loop
firstLayer_weights = 2*np.random.random((3, 4)) - 1 #size of matrix
secondLayer_weights = 2*np.random.random((4, 1)) - 1

for value in xrange(60000): # loops through training

    #pass input through weights to output: three layers
    layer0 = input_data
    #layer1 takes dot product of the input and weight matrices, then maps them to sigmoid function
    layer1 = nonlin(np.dot(layer0, firstLayer_weights))
    #layer2 takes dot product of layer1 result and weight matrices, then maps the to sigmoid function
    layer2 = nonlin(np.dot(layer1, secondLayer_weights))

    #check computer predicted result against actual data
    layer2_error = output_data - layer2

    #if value is a factor of 10,000, so six times (out of 60,000),
    #print how far off the predicted value was from the data
    if value % 10000 == 0:
        print "Error:" + str(np.mean(np.abs(layer2_error))) #average error

    #find out how much to re-adjust weights based on how far off and how confident the estimate
    layer2_change = layer2_error * nonlin(layer2, deriv = True)

    #find out how layer1 led to error in layer 2, to attack root of problem
    layer1_error = layer2_change.dot(secondLayer_weights.T)
    #^^sends error on layer2 backwards across weights(dividing) to find original error: BACKPROPAGATION

    #same thing as layer2 change, change based on accuracy and confidence
    layer1_change = layer1_error * nonlin(layer1, deriv=True)

    #modify weights based on multiplication of error between two layers
    secondLayer_weights = secondLayer_weights + layer1.T.dot(layer2_change)
    firstLayer_weights = firstLayer_weights + layer0.T.dot(layer1_change)

如您所见,此部分涉及的数据如下:

input_data = np.array([[1, 1, 1],
                       [0, 0, 0],
                       [-1, -1, -1],
                       [-1, 1, -1]])
#also for training
output_data = np.array([[1],
                        [0],
                        [-1],
                        [1]])

权重在这里:

firstLayer_weights = 2*np.random.random((3, 4)) - 1 #size of matrix
secondLayer_weights = 2*np.random.random((4, 1)) - 1

似乎在第一代之后,权重在剩余的编译中以最小的效率进行校正,这让我相信它们达到了相对最小值,如下所示:

权重的相对最小点

什么是纠正这个问题的快速有效的替代方案？

1> mrry..：

您的网络的一个问题是输出(元素的值layer2)只能在0和1之间变化,因为您使用的是S形非线性.由于您的四个目标值之一为-1且最接近的可能预测为0,因此始终存在至少25%的错误.以下是一些建议:

使用一个热编码为输出:即,具有三个输出节点,一个用于每个的ROCK,PAPER和SCISSORS-和训练网络来计算在这些输出(通常使用SOFTMAX和交叉熵损失)的概率分布.

使网络的输出层成为线性层(应用权重和偏差,但不是非线性).添加另一个图层,或从当前输出图层中删除非线性.

您可以尝试的其他事项,但不太可能可靠地工作,因为您实际上处理的是分类数据而不是连续输出:

缩放数据,使训练数据中的所有输出都在0到1之间.

使用产生介于-1和1之间的值的非线性(例如tanh).

推荐阅读

程序员
如何在MVC中的JavaScript中传递url.action中的多个参数？

如何解决《如何在MVC中的JavaScript中传递url.action中的多个参数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用map和join渲染react组件

如何解决《如何使用map和join渲染react组件》经验，为你挑选了5个好方法。 ... [详细]
程序员
排序元组列表不起作用

如何解决《排序元组列表不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ng-admin:我如何制作实体的自定义模板listView？

如何解决《Ng-admin:我如何制作实体的自定义模板listView？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何让Bootstrap 3工具提示跟随鼠标？

如何解决《如何让Bootstrap3工具提示跟随鼠标？》经验，为你挑选了1个好方法。 ... [详细]
程序员
没有占位符图像的UITableViewCell中的AlamofireImage af_setImageWithURL

如何解决《没有占位符图像的UITableViewCell中的AlamofireImageaf_setImageWithURL》经验，为你挑选了1个好方法。 ... [详细]
程序员
空节点的非法自闭节点表示法 - 使用PHP DOMDocument输出XHTML

如何解决《空节点的非法自闭节点表示法-使用PHPDOMDocument输出XHTML》经验，为你挑选了0个好方法。 ... [详细]
程序员
AWS EC2:实例上可用的cpu核心数

如何解决《AWSEC2:实例上可用的cpu核心数》经验，为你挑选了1个好方法。 ... [详细]
程序员
Indexing是否会使Pandas数据帧更快？

如何解决《Indexing是否会使Pandas数据帧更快？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Swift - 'sharedApplication不可用.' 相反,使用基于视图控制器的解决方案

如何解决《Swift-'sharedApplication不可用.'相反,使用基于视图控制器的解决方案》经验，为你挑选了0个好方法。 ... [详细]
程序员
二元运算符'<'不能应用两个T操作数

如何解决《二元运算符'<'不能应用两个T操作数》经验，为你挑选了1个好方法。 ... [详细]
程序员
AppCompat工具栏未显示

如何解决《AppCompat工具栏未显示》经验，为你挑选了1个好方法。 ... [详细]
程序员
将状态栏添加到JavaFX应用程序的推荐方法是什么？

如何解决《将状态栏添加到JavaFX应用程序的推荐方法是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
git:'credential-osxkeychain'不是git命令.看'git --help'

如何解决《git:'credential-osxkeychain'不是git命令.看'git--help'》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Matplotlib中制作带有一个图例的MxN饼图和删除的y轴标题

如何解决《如何在Matplotlib中制作带有一个图例的MxN饼图和删除的y轴标题》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio Build Error"csc.exe"退出,代码为-532462766

如何解决《VisualStudioBuildError"csc.exe"退出,代码为-532462766》经验，为你挑选了1个好方法。 ... [详细]
程序员
.net表单身份验证 - 手动设置HttpContext.Current.User在自定义AuthorizeAttribute中不起作用

如何解决《.net表单身份验证-手动设置HttpContext.Current.User在自定义AuthorizeAttribute中不起作用》经验，为你挑选了0个好方法。 ... [详细]
程序员
将标题图像连接到导航栏

如何解决《将标题图像连接到导航栏》经验，为你挑选了1个好方法。 ... [详细]
程序员
画布游戏帧速率下降（30fps），也随机出现卡顿/颠簸

如何解决《画布游戏帧速率下降（30fps），也随机出现卡顿/颠簸》经验，为你挑选了1个好方法。 ... [详细]
程序员
在YARN-Cluster模式下运行时找不到Hive表

如何解决《在YARN-Cluster模式下运行时找不到Hive表》经验，为你挑选了1个好方法。 ... [详细]

手机用户2402851155

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章