15赞

pytorch 数据加载性能对比分析

作者：无名有名我无名_593 | 2022-01-26 00:23

这篇文章主要介绍了pytorch数据加载性能对比分析，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

传统方式需要10s，dat方式需要0.6s

import os
import time
import torch
import random
from common.coco_dataset import COCODataset
def gen_data(batch_size,data_path,target_path):
 os.makedirs(target_path,exist_ok=True)
 dataloader = torch.utils.data.DataLoader(COCODataset(data_path,
               (352, 352),
               is_training=False, is_scene=True),
            batch_size=batch_size,
            shuffle=False, num_workers=0, pin_memory=False,
            drop_last=True) # DataLoader
 start = time.time()
 for step, samples in enumerate(dataloader):
  images, labels, image_paths = samples["image"], samples["label"], samples["img_path"]
  print("time", images.size(0), time.time() - start)
  start = time.time()
  # torch.save(samples,target_path+ '/' + str(step) + '.dat')
  print(step)
def cat_100(target_path,batch_size=100):
 paths = os.listdir(target_path)
 li = [i for i in range(len(paths))]
 random.shuffle(li)
 images = []
 labels = []
 image_paths = []
 start = time.time()
 for i in range(len(paths)):
  samples = torch.load(target_path + str(li[i]) + ".dat")
  image, label, image_path = samples["image"], samples["label"], samples["img_path"]
  images.append(image.cuda())
  labels.append(label.cuda())
  image_paths.append(image_path)
  if i % batch_size == batch_size - 1:
   images = torch.cat((images), 0)
   print("time", images.size(0), time.time() - start)
   images = []
   labels = []
   image_paths = []
   start = time.time()
  i += 1
if __name__ == '__main__':
 os.environ["CUDA_VISIBLE_DEVICES"] = '3'
 batch_size=320
 # target_path='d:/test_1000/'
 target_path='d:\img_2/'
 data_path = r'D:\dataset\origin_all_datas\_2train'
 gen_data(batch_size,data_path,target_path)
 # get_data(target_path,batch_size)
 # cat_100(target_path,batch_size)

这个读取数据也比较快：320 batch_size 450ms

def cat_100(target_path,batch_size=100):
 paths = os.listdir(target_path)
 li = [i for i in range(len(paths))]
 random.shuffle(li)
 images = []
 labels = []
 image_paths = []
 start = time.time()
 for i in range(len(paths)):
  samples = torch.load(target_path + str(li[i]) + ".dat")
  image, label, image_path = samples["image"], samples["label"], samples["img_path"]
  images.append(image)#.cuda())
  labels.append(label)#.cuda())
  image_paths.append(image_path)
  if i % batch_size < batch_size - 1:
   i += 1
   continue
  i += 1
  images = torch.cat(([image.cuda() for image in images]), 0)
  print("time", images.size(0), time.time() - start)
  images = []
  labels = []
  image_paths = []
  start = time.time()

补充：pytorch数据加载和处理问题解决方案

最近跟着pytorch中文文档学习遇到一些小问题，已经解决，在此对这些错误进行记录：

在读取数据集时报错：

AttributeError: 'Series' object has no attribute 'as_matrix'

在显示图片是时报错：

ValueError: Masked arrays must be 1-D

显示单张图片时figure一闪而过

在显示多张散点图的时候报错：

TypeError: show_landmarks() got an unexpected keyword argument 'image'

解决方案

主要问题在这一行：最终目的是将Series转为Matrix，即调用np.mat即可完成。

修改前

landmarks =landmarks_frame.iloc[n, 1:].as_matrix()

修改后

landmarks =np.mat(landmarks_frame.iloc[n, 1:])

打散点的x和y坐标应该均为向量或列表，故将landmarks后使用tolist()方法即可

修改前

plt.scatter(landmarks[:,0],landmarks[:,1],s=10,marker='.',c='r')

修改后

plt.scatter(landmarks[:,0].tolist(),landmarks[:,1].tolist(),s=10,marker='.',c='r')

前面使用plt.ion()打开交互模式，则后面在plt.show()之前一定要加上plt.ioff()。这里直接加到函数里面，避免每次plt.show()之前都用plt.ioff()

修改前

def show_landmarks(imgs,landmarks):
 '''显示带有地标的图片'''
 plt.imshow(imgs)
 plt.scatter(landmarks[:,0].tolist(),landmarks[:,1].tolist(),s=10,marker='.',c='r')#打上红色散点
 plt.pause(1)#绘图窗口延时

修改后

def show_landmarks(imgs,landmarks):
 '''显示带有地标的图片'''
 plt.imshow(imgs)
 plt.scatter(landmarks[:,0].tolist(),landmarks[:,1].tolist(),s=10,marker='.',c='r')#打上红色散点
 plt.pause(1)#绘图窗口延时
 plt.ioff()

网上说对于字典类型的sample可通过 **sample的方式获取每个键下的值，但是会报错，于是把输入写的详细一点，就成功了。

修改前

show_landmarks(**sample)

修改后

show_landmarks(sample['image'],sample['landmarks'])

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。如有错误或未考虑完全的地方，望不吝赐教。

推荐阅读

程序员
在同一个StringBuilder实例上调用toString时输出不同

如何解决《在同一个StringBuilder实例上调用toString时输出不同》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法找出我的程序陷入无限循环的原因

如何解决《无法找出我的程序陷入无限循环的原因》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android - ScrollView和PercentRelativeLayout

如何解决《Android-ScrollView和PercentRelativeLayout》经验，为你挑选了1个好方法。 ... [详细]
程序员
在编译的哪个步骤中删除了注释？

如何解决《在编译的哪个步骤中删除了注释？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Aurelia中<compose>和<require>有什么区别？

如何解决《Aurelia中<compose>和<require>有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
RxSwift和如何使简单的TableViewController？

如何解决《RxSwift和如何使简单的TableViewController？》经验，为你挑选了1个好方法。 ... [详细]
程序员
这段代码的哪一部分导致无限循环？

如何解决《这段代码的哪一部分导致无限循环？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Golang:从文本文件中替换字符串中的换行符的问题

如何解决《Golang:从文本文件中替换字符串中的换行符的问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
C#auto-property snippet将get和set放在新行上

如何解决《C#auto-propertysnippet将get和set放在新行上》经验，为你挑选了1个好方法。 ... [详细]
程序员
图像在浮动容器内的奇怪行为

如何解决《图像在浮动容器内的奇怪行为》经验，为你挑选了0个好方法。 ... [详细]
程序员
gcc:切换后如何最好地处理关于(无法到达)功能结束的警告？

如何解决《gcc:切换后如何最好地处理关于(无法到达)功能结束的警告？》经验，为你挑选了1个好方法。 ... [详细]
程序员
启用后退按钮,不允许通过URL手动更改

如何解决《启用后退按钮,不允许通过URL手动更改》经验，为你挑选了1个好方法。 ... [详细]
程序员
Docker Hub - 自动构建标记,未触发正则表达式匹配

如何解决《DockerHub-自动构建标记,未触发正则表达式匹配》经验，为你挑选了1个好方法。 ... [详细]
程序员
IOS发布图像 - 让我发疯

如何解决《IOS发布图像-让我发疯》经验，为你挑选了5个好方法。 ... [详细]
程序员
iOS,ld:框架找不到架构arm64的GoogleMaps

如何解决《iOS,ld:框架找不到架构arm64的GoogleMaps》经验，为你挑选了0个好方法。 ... [详细]
程序员
Swift数组和字典性能,removeAll()vs新实例

如何解决《Swift数组和字典性能,removeAll()vs新实例》经验，为你挑选了1个好方法。 ... [详细]
程序员
GDB进入断点时抛出错误

如何解决《GDB进入断点时抛出错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
在模拟方法(Moq)中更改参考参数的值

如何解决《在模拟方法(Moq)中更改参考参数的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ionic:模拟器:错误:这个AVD的配置缺少一个内核文件!模拟器:错误:ANDROID_SDK_ROOT未定义

如何解决《Ionic:模拟器:错误:这个AVD的配置缺少一个内核文件!模拟器:错误:ANDROID_SDK_ROOT未定义》经验，为你挑选了1个好方法。 ... [详细]
程序员
Kotlin flatMap - 地图

如何解决《KotlinflatMap-地图》经验，为你挑选了0个好方法。 ... [详细]

无名有名我无名_593

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章