16赞

Pytorch技巧:DataLoader的collate_fn参数使用详解

作者：有风吹过best | 2021-10-22 20:56

今天小编就为大家分享一篇Pytorch技巧:DataLoader的collate_fn参数使用详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

DataLoader完整的参数表如下：

class torch.utils.data.DataLoader(
 dataset,
 batch_size=1,
 shuffle=False,
 sampler=None,
 batch_sampler=None,
 num_workers=0,
 collate_fn=,
 pin_memory=False,
 drop_last=False,
 timeout=0,
 worker_init_fn=None)

DataLoader在数据集上提供单进程或多进程的迭代器

几个关键的参数意思：

- shuffle：设置为True的时候，每个世代都会打乱数据集

- collate_fn：如何取样本的，我们可以定义自己的函数来准确地实现想要的功能

- drop_last：告诉如何处理数据集长度除于batch_size余下的数据。True就抛弃，否则保留

一个测试的例子

import torch
import torch.utils.data as Data
import numpy as np

test = np.array([0,1,2,3,4,5,6,7,8,9,10,11])

inputing = torch.tensor(np.array([test[i:i + 3] for i in range(10)]))
target = torch.tensor(np.array([test[i:i + 1] for i in range(10)]))

torch_dataset = Data.TensorDataset(inputing,target)
batch = 3

loader = Data.DataLoader(
 dataset=torch_dataset,
 batch_size=batch, # 批大小
 # 若dataset中的样本数不能被batch_size整除的话，最后剩余多少就使用多少
 collate_fn=lambda x:(
  torch.cat(
   [x[i][j].unsqueeze(0) for i in range(len(x))], 0
   ).unsqueeze(0) for j in range(len(x[0]))
  )
 )

for (i,j) in loader:
 print(i)
 print(j)

输出结果：

tensor([[[ 0, 1, 2],
   [ 1, 2, 3],
   [ 2, 3, 4]]], dtype=torch.int32)
tensor([[[ 0],
   [ 1],
   [ 2]]], dtype=torch.int32)
tensor([[[ 3, 4, 5],
   [ 4, 5, 6],
   [ 5, 6, 7]]], dtype=torch.int32)
tensor([[[ 3],
   [ 4],
   [ 5]]], dtype=torch.int32)
tensor([[[ 6, 7, 8],
   [ 7, 8, 9],
   [ 8, 9, 10]]], dtype=torch.int32)
tensor([[[ 6],
   [ 7],
   [ 8]]], dtype=torch.int32)
tensor([[[ 9, 10, 11]]], dtype=torch.int32)
tensor([[[ 9]]], dtype=torch.int32)

如果不要collate_fn的值，输出变成

tensor([[ 0, 1, 2],
  [ 1, 2, 3],
  [ 2, 3, 4]], dtype=torch.int32)
tensor([[ 0],
  [ 1],
  [ 2]], dtype=torch.int32)
tensor([[ 3, 4, 5],
  [ 4, 5, 6],
  [ 5, 6, 7]], dtype=torch.int32)
tensor([[ 3],
  [ 4],
  [ 5]], dtype=torch.int32)
tensor([[ 6, 7, 8],
  [ 7, 8, 9],
  [ 8, 9, 10]], dtype=torch.int32)
tensor([[ 6],
  [ 7],
  [ 8]], dtype=torch.int32)
tensor([[ 9, 10, 11]], dtype=torch.int32)
tensor([[ 9]], dtype=torch.int32)

所以collate_fn就是使结果多一维。

看看collate_fn的值是什么意思。我们把它改为如下

collate_fn=lambda x:x

并输出

for i in loader:
 print(i)

得到结果

[(tensor([ 0, 1, 2], dtype=torch.int32), tensor([ 0], dtype=torch.int32)), (tensor([ 1, 2, 3], dtype=torch.int32), tensor([ 1], dtype=torch.int32)), (tensor([ 2, 3, 4], dtype=torch.int32), tensor([ 2], dtype=torch.int32))]
[(tensor([ 3, 4, 5], dtype=torch.int32), tensor([ 3], dtype=torch.int32)), (tensor([ 4, 5, 6], dtype=torch.int32), tensor([ 4], dtype=torch.int32)), (tensor([ 5, 6, 7], dtype=torch.int32), tensor([ 5], dtype=torch.int32))]
[(tensor([ 6, 7, 8], dtype=torch.int32), tensor([ 6], dtype=torch.int32)), (tensor([ 7, 8, 9], dtype=torch.int32), tensor([ 7], dtype=torch.int32)), (tensor([ 8, 9, 10], dtype=torch.int32), tensor([ 8], dtype=torch.int32))]
[(tensor([ 9, 10, 11], dtype=torch.int32), tensor([ 9], dtype=torch.int32))]

每个i都是一个列表，每个列表包含batch_size个元组，每个元组包含TensorDataset的单独数据。所以要将重新组合成每个batch包含1*3*3的input和1*3*1的target，就要重新解包并打包。看看我们的collate_fn：

collate_fn=lambda x:(
 torch.cat(
  [x[i][j].unsqueeze(0) for i in range(len(x))], 0
  ).unsqueeze(0) for j in range(len(x[0]))
 )

j取的是两个变量：input和target。i取的是batch_size。然后通过unsqueeze(0)方法在前面加一维。torch.cat(,0)将其打包起来。然后再通过unsqueeze(0)方法在前面加一维。完成。

以上这篇Pytorch技巧:DataLoader的collate_fn参数使用详解就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

推荐阅读

程序员
如何知道从主类调用方法的次数？

如何解决《如何知道从主类调用方法的次数？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在nodejs中创建mysql模式

如何解决《如何在nodejs中创建mysql模式》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用handlebars.js显示JSON数据

如何解决《使用handlebars.js显示JSON数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用不同的pluginClasspath在gradle中配置自定义findbugs任务

如何解决《如何使用不同的pluginClasspath在gradle中配置自定义findbugs任务》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用jQuery文件上传上传一个超过1GB到2GB的大文件 - blueimp(基于Ajax)php/yii它在Firefox浏览器中显示错误

如何解决《使用jQuery文件上传上传一个超过1GB到2GB的大文件-blueimp(基于Ajax)php/yii它在Firefox浏览器中显示错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
TFS 2015可以构建变量访问其他构建变量吗？

如何解决《TFS2015可以构建变量访问其他构建变量吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
这个例外可能是什么原因？java.lang.RuntimeException:未初始化InputChannel

如何解决《这个例外可能是什么原因？java.lang.RuntimeException:未初始化InputChannel》经验，为你挑选了1个好方法。 ... [详细]
程序员
Sitecore 8.1 - 在没有MongoDB的情况下运行

如何解决《Sitecore8.1-在没有MongoDB的情况下运行》经验，为你挑选了1个好方法。 ... [详细]
程序员
golang在多播ip上发送json

如何解决《golang在多播ip上发送json》经验，为你挑选了1个好方法。 ... [详细]
程序员
Coldfusion如何重复另一个案例的相同任务

如何解决《Coldfusion如何重复另一个案例的相同任务》经验，为你挑选了1个好方法。 ... [详细]
程序员
SSH.Net异步文件下载

如何解决《SSH.Net异步文件下载》经验，为你挑选了1个好方法。 ... [详细]
程序员
磁盘上不存在APK文件

如何解决《磁盘上不存在APK文件》经验，为你挑选了13个好方法。 ... [详细]
程序员
Webpack样式加载器vs css-loader

如何解决《Webpack样式加载器vscss-loader》经验，为你挑选了3个好方法。 ... [详细]
程序员
奇怪的意外"样式表"标记错误

如何解决《奇怪的意外"样式表"标记错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Python关闭计算机

如何解决《如何使用Python关闭计算机》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在Visual Studio中更改Build Command的默认行为

如何解决《如何在VisualStudio中更改BuildCommand的默认行为》经验，为你挑选了0个好方法。 ... [详细]
程序员
ViewPager的行为,它不会破坏旧的片段

如何解决《ViewPager的行为,它不会破坏旧的片段》经验，为你挑选了1个好方法。 ... [详细]
程序员
在C中,如何获得带有前导零的int？

如何解决《在C中,如何获得带有前导零的int？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在反应原生中停止默认导航栏弹出滑动

如何解决《如何在反应原生中停止默认导航栏弹出滑动》经验，为你挑选了1个好方法。 ... [详细]
程序员
尝试将文件从我的计算机复制到同一网络上的另一台计算机

如何解决《尝试将文件从我的计算机复制到同一网络上的另一台计算机》经验，为你挑选了1个好方法。 ... [详细]

有风吹过best

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章