9赞

记录模型训练时loss值的变化情况

作者：勤奋的瞌睡猪_715 | 2021-12-11 18:35

这篇文章主要介绍了记录模型训练时loss值的变化情况，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

记录训练过程中的每一步的loss变化

 if verbose and step % verbose == 0:
 sys.stdout.write('\r{} / {} : loss = {}'.format(
  step, total_steps, np.mean(total_loss)))
 sys.stdout.flush()
 if verbose:
 sys.stdout.write('\r') 
 sys.stdout.flush()

一般我们在训练神经网络模型的时候，都是每隔多少步，输出打印一下loss或者每一步打印一下loss，今天发现了另一种记录loss变化的方法，就是用

sys.stdout.write('\r{} / {} : loss = {}')

如图上的代码，可以记录每一个在每个epoch中记录用一行输出就可以记录每个step的loss值变化，

\r就是输出不会换行，因此如果你想同一样输出多次，在需要输出的字符串对象里面加上"\r",就可以回到行首了。

sys.stdout.flush() #一秒输出了一个数字

具体的实现就是下面的图：

这样在每个epoch中也可以观察loss变化，但是只需要打印一行，而不是每一行都输出。

补充知识：训练模型中损失（loss）异常分析

前言

训练模型过程中随时都要注意目标函数值(loss)的大小变化。一个正常的模型loss应该随训练轮数（epoch）的增加而缓慢下降，然后趋于稳定。虽然在模型训练的初始阶段，loss有可能会出现大幅度震荡变化，但是只要数据量充分，模型正确，训练的轮数足够长，模型最终会达到收敛状态，接近最优值或者找到了某个局部最优值。在模型实际训练过程中，可能会得到一些异常loss值，如loss等于nan；loss值忽大忽小，不收敛等。

下面根据自己使用Pythorh训练模型的经验，分析出一些具体原因和给出对应的解决办法。

一、输入数据

1. 数据的预处理

输入到模型的数据一般都是经过了预处理的，如用pandas先进行数据处理，尤其要注意空值，缺失值，异常值。

缺失值：数值类型（NaN），对象类型（None, NaN），时间类型（NaT）

空值：""

异常值：不再正常区间范围的值

例如对缺失值可以进行判断df.isnull()或者df.isna()；丢弃df.dropna()；填充df.fillna()等操作。

输入到模型中的数据一般而言都是数值类型的值，一定要保证不能出现NaN, numpy中的nan是一种特殊的float,该值数值运算的结果是不正常的，所以可能会导致loss值等于nan。可以用numpy.any(numpy.isnan(x))检查一下input和target。

2. 数据的读写

例如使用Pandas读取.csv类型的数据得到的DataFrame会添加默认的index,再写回到磁盘会多一列。如果用其他读取方式再读入，可能会导致数据有问题，读取到NaN。

import pandas as pd
 
Output = pd.read_csv('./data/diabetes/Output.csv')
trainOutput, testOutput = Output[:6000], Output[6000:]
trainOutput.to_csv('./data/diabetes/trainOutput.csv')
testOutput.to_csv('./data/diabetes/testOutput.csv')

3. 数据的格式

Pythorch中的 torch.utils.data.Dataset 类是一个表示数据集的抽象类。自己数据集的类应该继承自 Dataset 并且重写__len__方法和__getitem__方法:

__len__ ： len(dataset) 返回数据集的大小

__getitem__ ：用以支持索引操作， dataset[idx]能够返回第idx个样本数据

然后使用torch.utils.data.DataLoader 这个迭代器(iterator)来遍历所有的特征。具体可以参见这里

在构造自己Dataset类时，需要注意返回的数据格式和类型，一般不会出现NaN的情况但是可能会导致数据float, int, long这几种类型的不兼容，注意转换。

二、学习率

基于梯度下降的优化方法，当学习率太高时会导致loss值不收敛，太低则下降缓慢。需要对学习率等超参数进行调参如使用网格搜索，随机搜索等。

三、除零错

对于回归问题，可能出现了除0 的计算，加一个很小的余项可能可以解决。类似于计算概率时进行的平滑修正，下面的代码片段中loss使用交叉混合熵（CossEntropy），计算3分类问题的AUC值，为了避免概率计算出现ＮaN而采取了相应的平滑处理。

from sklearn.metrics import roc_auc_score
 
model_ft, y_true, losslists = test_model(model_ft, criterion, optimizer)
n_class = 3
y_one_hot = np.eye(n_class)[y_true.reshape(-1)]
# solve divide zero errot
eps = 0.0000001
y_scores = losslists / (losslists.sum(axis=1, keepdims=True)+eps)
#print(y_scores)
#print(np.isnan(y_scores))
"""
metrics.roc_auc_score(y_one_hot, y_pred)
"""
print("auc: ")
roc_auc_score(y_one_hot, y_scores)

四、loss函数

loss函数代码编写不正确或者已经编写好的loss函数API使用不清楚

五、某些易错代码

Pytorch在进行自动微分的时候，默认梯度是会累加的，所以需要在每个epoch的每个batch中对梯度清零，否则可能会导致loss值不收敛。不要忘记添加如下代码

optimizer.zero_grad()

以上这篇记录模型训练时loss值的变化情况就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

推荐阅读

程序员
RewriteRule无法在生产服务器上运行

如何解决《RewriteRule无法在生产服务器上运行》经验，为你挑选了0个好方法。 ... [详细]
程序员
在移动设备的HTML电子邮件中使用vw(视口宽度)的字体大小是否可以

如何解决《在移动设备的HTML电子邮件中使用vw(视口宽度)的字体大小是否可以》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何从Visual Studio 2015 C++项目导出Makefile

如何解决《如何从VisualStudio2015C++项目导出Makefile》经验，为你挑选了0个好方法。 ... [详细]
程序员
PHP7 Laravel Mcrypt问题

如何解决《PHP7LaravelMcrypt问题》经验，为你挑选了4个好方法。 ... [详细]
程序员
嵌套Scrollview + Recycler View

如何解决《嵌套Scrollview+RecyclerView》经验，为你挑选了0个好方法。 ... [详细]
程序员
PHP数组元素总和

如何解决《PHP数组元素总和》经验，为你挑选了1个好方法。 ... [详细]
程序员
标准库中是否定义了标准输入,输出和错误描述符常量？

如何解决《标准库中是否定义了标准输入,输出和错误描述符常量？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将单词拆分为双字节,包括重复单词？

如何解决《如何将单词拆分为双字节,包括重复单词？》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么CompletableFuture.allOf声明为CompletableFuture <Void>？

如何解决《为什么CompletableFuture.allOf声明为CompletableFuture<Void>？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在matlab中合并两个不同维度的矩阵

如何解决《如何在matlab中合并两个不同维度的矩阵》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在不破坏localStorage类型的情况下存储和获取对象？

如何解决《如何在不破坏localStorage类型的情况下存储和获取对象？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将Fody.PropertyChanged与MVVMCross一起使用是否安全？是否降低了应用程序的性能？

如何解决《将Fody.PropertyChanged与MVVMCross一起使用是否安全？是否降低了应用程序的性能？》经验，为你挑选了1个好方法。 ... [详细]
程序员
从一系列较小的实例中推断出一般的类型类实例？

如何解决《从一系列较小的实例中推断出一般的类型类实例？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将TransactionScope与实体框架6一起使用

如何解决《将TransactionScope与实体框架6一起使用》经验，为你挑选了1个好方法。 ... [详细]
程序员
Flask中的WTForms:UndefinedError:'form'未定义

如何解决《Flask中的WTForms:UndefinedError:'form'未定义》经验，为你挑选了1个好方法。 ... [详细]
程序员
Mysql查询组Concat在单个查询中限制子表的多个记录

如何解决《Mysql查询组Concat在单个查询中限制子表的多个记录》经验，为你挑选了0个好方法。 ... [详细]
程序员
xDB不存储任何交互

如何解决《xDB不存储任何交互》经验，为你挑选了1个好方法。 ... [详细]
程序员
android.animation和android.transition包之间的主要区别是什么？

如何解决《android.animation和android.transition包之间的主要区别是什么？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在perl中为两个元素使用"map()"有什么意义？

如何解决《在perl中为两个元素使用"map()"有什么意义？》经验，为你挑选了1个好方法。 ... [详细]
程序员
安装ASP.NET和Web Tools 2015后,Visual Studio 2015错误"对象引用未设置为对象实例"(RC1 Update 1)

如何解决《安装ASP.NET和WebTools2015后,VisualStudio2015错误"对象引用未设置为对象实例"(RC1Update1)》经验，为你挑选了4个好方法。 ... [详细]

勤奋的瞌睡猪_715

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章