2赞

python多进程读图提取特征存npy

作者：mylvfamily | 2022-12-27 09:37

这篇文章主要为大家详细介绍了python多进程读图提取特征存npy，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

本文实例为大家分享了python多进程读图提取特征存npy的具体代码，供大家参考，具体内容如下

import multiprocessing
import os, time, random
import numpy as np
import cv2
import os
import sys
from time import ctime
import tensorflow as tf
 
image_dir = r"D:/sxl/处理图片/汉字分类/train10/"  #图像文件夹路径
data_type = 'test'
save_path = r'E:/sxl_Programs/Python/CNN/npy/'  #存储路径
data_name = 'Img10'        #npy文件名
 
char_set = np.array(os.listdir(image_dir))   #文件夹名称列表
np.save(save_path+'ImgShuZi10.npy',char_set)   #文件夹名称列表
char_set_n = len(char_set)       #文件夹列表长度
 
read_process_n = 1 #进程数
repate_n = 4   #随机移动次数
data_size = 1000000 #1个npy大小
 
shuffled = True  #是否打乱
 
#可以读取带中文路径的图
def cv_imread(file_path,type=0):
 cv_img=cv2.imdecode(np.fromfile(file_path,dtype=np.uint8),-1)
 # print(file_path)
 # print(cv_img.shape)
 # print(len(cv_img.shape))
 if(type==0):
  if(len(cv_img.shape)==3):
   cv_img = cv2.cvtColor(cv_img, cv2.COLOR_BGR2GRAY)
 return cv_img
 
#多个数组按同一规则打乱数据
def ShuffledData(features,labels):
 '''
 @description:随机打乱数据与标签，但保持数据与标签一一对应
 '''
 permutation = np.random.permutation(features.shape[0])
 shuffled_features = features[permutation,:] #多维
 shuffled_labels = labels[permutation]  #1维
 return shuffled_features,shuffled_labels
 
#函数功能：简单网格
#函数要求：1.无关图像大小；2.输入图像默认为灰度图;3.参数只有输入图像
#返回数据：1x64*64维特征
def GetFeature(image):
 
 #图像大小归一化
 image = cv2.resize(image,(64,64))
 img_h = image.shape[0]
 img_w = image.shape[1]
 
 #定义特征向量
 feature = np.zeros(img_h*img_w,dtype=np.int16)
 
 for h in range(img_h):
  for w in range(img_w):
   feature[h*img_h+w] = image[h,w]
 
 return feature
 
# 写数据进程执行的代码:
def read_image_to_queue(queue):
 print('Process to write: %s' % os.getpid())
 for j,dirname in enumerate(char_set): # dirname 是文件夹名称
  label = np.where(char_set==dirname)[0][0]  #文件夹名称对应的下标序号
  print('序号：'+str(j),'读 '+dirname+' 文件夹...时间：',ctime() )
  for parent,_,filenames in os.walk(os.path.join(image_dir,dirname)):
   for filename in filenames:
    if(filename[-4:]!='.jpg'):
     continue
    image = cv_imread(os.path.join(parent,filename),0)
 
    # cv2.imshow(dirname,image)
    # cv2.waitKey(0)
    queue.put((image,label))
 
 for i in range(read_process_n):
  queue.put((None,-1))
 
 print('读图结束!')
 return True
  
# 读数据进程执行的代码:
def extract_feature(queue,lock,count):
 '''
 @description:从队列中取出图片进行特征提取
 @queue:先进先出队列
  lock：锁，在计数时上锁，防止冲突
  count:计数
 '''
 
 print('Process %s start reading...' % os.getpid())
 
 global data_n
 features = [] #存放提取到的特征
 labels = [] #存放标签
 flag = True #标志着进程是否结束
 while flag:
  image,label = queue.get() #从队列中获取图像和标签
 
  if len(features) >= data_size or label == -1: #特征数组的长度大于指定长度，则开始存储
 
   array_features = np.array(features) #转换成数组
   array_labels = np.array(labels)
 
   array_features,array_labels = ShuffledData(array_features,array_labels) #打乱数据
   
   lock.acquire() # 锁开始
 
   # 拆分数据为训练集，测试集
   split_x = int(array_features.shape[0] * 0.8)
   train_data, test_data = np.split(array_features, [split_x], axis=0)  # 拆分特征数据集
   train_labels, test_labels = np.split(array_labels, [split_x], axis=0) # 拆分标签数据集
 
   count.value += 1 #下标计数加1
   str_features_name_train = data_name+'_features_train_'+str(count.value)+'.npy'
   str_labels_name_train = data_name+'_labels_train_'+str(count.value)+'.npy'
   str_features_name_test = data_name+'_features_test_'+str(count.value)+'.npy'
   str_labels_name_test = data_name+'_labels_test_'+str(count.value)+'.npy'
 
   lock.release() # 锁释放
 
   np.save(save_path+str_features_name_train,train_data)
   np.save(save_path+str_labels_name_train,train_labels)
   np.save(save_path+str_features_name_test,test_data)
   np.save(save_path+str_labels_name_test,test_labels)
   print(os.getpid(),'save:',str_features_name_train)
   print(os.getpid(),'save:',str_labels_name_train)
   print(os.getpid(),'save:',str_features_name_test)
   print(os.getpid(),'save:',str_labels_name_test)
   features.clear()
   labels.clear()
 
  if label == -1:
   break
 
  # 获取特征向量，传入灰度图
  feature = GetFeature(image)
  features.append(feature)
  labels.append(label)
 
  # # 随机移动4次
  # for itime in range(repate_n):
  #  rMovedImage = randomMoveImage(image)
  #  feature = SimpleGridFeature(rMovedImage) # 简单网格
  #  features.append(feature)
  #  labels.append(label)
 
 print('Process %s is done!' % os.getpid())
 
if __name__=='__main__':
 time_start = time.time() # 开始计时
 
 # 父进程创建Queue，并传给各个子进程：
 image_queue = multiprocessing.Queue(maxsize=1000) #队列
 lock = multiprocessing.Lock()      #锁
 count = multiprocessing.Value('i',0)    #计数
 
 #将图写入队列进程
 write_sub_process = multiprocessing.Process(target=read_image_to_queue, args=(image_queue,))
 
 read_sub_processes = []       #读图子线程
 for i in range(read_process_n):
  read_sub_processes.append(
   multiprocessing.Process(target=extract_feature, args=(image_queue,lock,count))
  )
 
 # 启动子进程pw，写入:
 write_sub_process.start()
 
 # 启动子进程pr，读取:
 for p in read_sub_processes:
  p.start()
 
 # 等待进程结束:
 write_sub_process.join()
 for p in read_sub_processes:
  p.join()
 
 time_end=time.time()
 time_h=(time_end-time_start)/3600
 print('用时：%.6f 小时'% time_h)
 print ("读图提取特征存npy,运行结束！")

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

推荐阅读

程序员
如何qdel范围的工作？

如何解决《如何qdel范围的工作？》经验，为你挑选了1个好方法。 ... [详细]
程序员
加载MySQLdb模块时出错并"pip install MySQLdb"

如何解决《加载MySQLdb模块时出错并"pipinstallMySQLdb"》经验，为你挑选了1个好方法。 ... [详细]
程序员
将流添加到现有项目

如何解决《将流添加到现有项目》经验，为你挑选了1个好方法。 ... [详细]
程序员
在存储中管理参数的Flux调用操作

如何解决《在存储中管理参数的Flux调用操作》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用jsPDF生成保留HTML页面样式的pdf

如何解决《使用jsPDF生成保留HTML页面样式的pdf》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio代码Chrome调试器扩展 - [webkit-debug-adapter]从目标应用程序获得响应,但未找到有效的目标页面

如何解决《VisualStudio代码Chrome调试器扩展-[webkit-debug-adapter]从目标应用程序获得响应,但未找到有效的目标页面》经验，为你挑选了1个好方法。 ... [详细]
程序员
具有max函数的std :: stack <int>？

如何解决《具有max函数的std::stack<int>？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Typescript React中遍历Component的Children？

如何解决《如何在TypescriptReact中遍历Component的Children？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何将@Configuration和@EnableScheduling与Spring Batch一起使用

如何解决《如何将@Configuration和@EnableScheduling与SpringBatch一起使用》经验，为你挑选了0个好方法。 ... [详细]
程序员
anaconda - windows中的路径环境变量

如何解决《anaconda-windows中的路径环境变量》经验，为你挑选了4个好方法。 ... [详细]
程序员
Haskell的逆向性:从Tardis到RevState

如何解决《Haskell的逆向性:从Tardis到RevState》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用GitPython检查合并是否存在冲突

如何解决《使用GitPython检查合并是否存在冲突》经验，为你挑选了1个好方法。 ... [详细]
程序员
预定的WebJob

如何解决《预定的WebJob》经验，为你挑选了2个好方法。 ... [详细]
程序员
我们怎么知道Activity共享元素转换将会运行？

如何解决《我们怎么知道Activity共享元素转换将会运行？》经验，为你挑选了0个好方法。 ... [详细]
程序员
python中的默认舍入模式,以及如何将其指定为另一个？

如何解决《python中的默认舍入模式,以及如何将其指定为另一个？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何创建一个"外部模块"打字稿定义文件以包含一个npm包？

如何解决《如何创建一个"外部模块"打字稿定义文件以包含一个npm包？》经验，为你挑选了0个好方法。 ... [详细]
程序员
鼠标悬停在轴标签d3.js javascript上的事件

如何解决《鼠标悬停在轴标签d3.jsjavascript上的事件》经验，为你挑选了1个好方法。 ... [详细]
程序员
java中的GUI问题

如何解决《java中的GUI问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
cout << std :: ios :: hex有什么作用？

如何解决《cout<<std::ios::hex有什么作用？》经验，为你挑选了3个好方法。 ... [详细]
程序员
Android Studio Start Failed:初始化'com.intellij.util.net.ssl.certificatemanager'时出现致命错误

如何解决《AndroidStudioStartFailed:初始化'com.intellij.util.net.ssl.certificatemanager'时出现致命错误》经验，为你挑选了0个好方法。 ... [详细]

mylvfamily

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章