14赞

Pytorch DataLoader 变长数据处理方式

作者：云聪京初瑞子_617 | 2022-12-26 12:46

今天小编就为大家分享一篇PytorchDataLoader变长数据处理方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

关于Pytorch中怎么自定义Dataset数据集类、怎样使用DataLoader迭代加载数据，这篇官方文档已经说得很清楚了，这里就不在赘述。

现在的问题：有的时候，特别对于NLP任务来说，输入的数据可能不是定长的，比如多个句子的长度一般不会一致，这时候使用DataLoader加载数据时，不定长的句子会被胡乱切分，这肯定是不行的。

解决方法是重写DataLoader的collate_fn，具体方法如下：

# 假如每一个样本为：
sample = {
	# 一个句子中各个词的id
	'token_list' : [5, 2, 4, 1, 9, 8],
	# 结果y
	'label' : 5,
}


# 重写collate_fn函数，其输入为一个batch的sample数据
def collate_fn(batch):
	# 因为token_list是一个变长的数据，所以需要用一个list来装这个batch的token_list
  token_lists = [item['token_list'] for item in batch]
  
  # 每个label是一个int，我们把这个batch中的label也全取出来，重新组装
  labels = [item['label'] for item in batch]
  # 把labels转换成Tensor
  labels = torch.Tensor(labels)
  return {
    'token_list': token_lists,
    'label': labels,
  }


# 在使用DataLoader加载数据时，注意collate_fn参数传入的是重写的函数
DataLoader(trainset, batch_size=4, shuffle=True, num_workers=4, collate_fn=collate_fn)

使用以上方法，可以保证DataLoader能Load出一个batch的数据，load出来的东西就是重写的collate_fn函数最后return出来的字典。

以上这篇Pytorch DataLoader 变长数据处理方式就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

推荐阅读

程序员
Maven将依赖调解策略设置为最新而不是最近

如何解决《Maven将依赖调解策略设置为最新而不是最近》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spring Redis - 从application.properties文件中读取配置

如何解决《SpringRedis-从application.properties文件中读取配置》经验，为你挑选了2个好方法。 ... [详细]
程序员
SQL将dd / mm / yy转换为yymmdd

如何解决《SQL将dd/mm/yy转换为yymmdd》经验，为你挑选了1个好方法。 ... [详细]
程序员
榆树"找不到模块"

如何解决《榆树"找不到模块"》经验，为你挑选了1个好方法。 ... [详细]
程序员
从列表中写一个没有括号的txt

如何解决《从列表中写一个没有括号的txt》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果应用程序使用Enable_Bitcode = No提交，Apple是否会拒绝该应用程序

如何解决《如果应用程序使用Enable_Bitcode=No提交，Apple是否会拒绝该应用程序》经验，为你挑选了0个好方法。 ... [详细]
程序员
试图制作一个for循环来绘制一个svg

如何解决《试图制作一个for循环来绘制一个svg》经验，为你挑选了0个好方法。 ... [详细]
程序员
在angularJS中::的意思是什么

如何解决《在angularJS中::的意思是什么》经验，为你挑选了2个好方法。 ... [详细]
程序员
将参数传递给Observable.create

如何解决《将参数传递给Observable.create》经验，为你挑选了1个好方法。 ... [详细]
程序员
功能麻烦

如何解决《功能麻烦》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何通过单击xamarin形式的按钮来打开网页

如何解决《如何通过单击xamarin形式的按钮来打开网页》经验，为你挑选了1个好方法。 ... [详细]
程序员
TypeScript中的深度克隆(保留类型)

如何解决《TypeScript中的深度克隆(保留类型)》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用jQuery从javascript对象中删除元素？

如何解决《使用jQuery从javascript对象中删除元素？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python:删除字符串开头的数字

如何解决《Python:删除字符串开头的数字》经验，为你挑选了1个好方法。 ... [详细]
程序员
QueryDSL返回最大值

如何解决《QueryDSL返回最大值》经验，为你挑选了0个好方法。 ... [详细]
程序员
在ASP.NET Web API 2中禁用*all*异常处理(为我自己腾出空间)？

如何解决《在ASP.NETWebAPI2中禁用*all*异常处理(为我自己腾出空间)？》经验，为你挑选了1个好方法。 ... [详细]
程序员
多个Laravel网站,中央代码库

如何解决《多个Laravel网站,中央代码库》经验，为你挑选了1个好方法。 ... [详细]
程序员
软件包'stringr'和'stringi'的安装具有非零退出状态

如何解决《软件包'stringr'和'stringi'的安装具有非零退出状态》经验，为你挑选了1个好方法。 ... [详细]
程序员
MySQL寻找一个不错的索引

如何解决《MySQL寻找一个不错的索引》经验，为你挑选了0个好方法。 ... [详细]
程序员
Python BigQuery allowLargeResults with pandas.io.gbq

如何解决《PythonBigQueryallowLargeResultswithpandas.io.gbq》经验，为你挑选了1个好方法。 ... [详细]

云聪京初瑞子_617

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章