在keras中优化大输入内存使用的任何方法？

作者：凹凸曼00威威_694 | 2023-09-06 17:22

如何解决《在keras中优化大输入内存使用的任何方法？》经验，为你挑选了1个好方法。

我正在尝试使用2D CNN对中文文章进行文本分类,并且遇到了一些问题Convolution2D.我知道Convolution2D应对图像的基本流程,但通过使用我的数据集与keras卡住了.这是我的一个问题:

数据集

9800中文文章.

负面文章和非负面文章[请注意它可能是正面的或中立的],只是一个二元分类问题.我对Convolution1DNN 进行了测试,结果并不好.

使用tokenizer和word2vec转换为形状(9800, 6810, 200).

最长的文章有6810个单词,最短文章少了50个字,需要填充所有文章到6810,200个是word2vec大小(似乎有人称之为embedding_size？).格式如:

 1     [[word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200]]
 2     [[word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200]]
 ....
 9999  [[word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200]]

这篇文章最大.字长6810太大了？我必须将9800个样本减少到6500以避免a MemoryError,因为6500已经吃掉了我所有的32GB内存.有什么方法可以优化内存使用量,除了将所有文章修剪成更短的长度？

1> nemo..：

该Keras常见问题已经部分地回答了这个问题.您可以使用以数据块的形式加载数据model.fit_generator().生成器在一个单独的线程中运行并生成您的迷你批次,可能会逐个从归档中加载它们,从而避免一次将所有内容加载到RAM中.

使用它的代码大致如下所示:

def train_generator():
    while True:
        chunk = read_next_chunk_of_data()
        x,y = extract_training_data_from_chunk(chunk)
        yield (x,y)

 model.fit_generator(generator=train_generator())

请注意,对于多输入(输出)模型,X(y)是numpy数组的列表.

推荐阅读

程序员
如何使用Python关闭计算机

如何解决《如何使用Python关闭计算机》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在Visual Studio中更改Build Command的默认行为

如何解决《如何在VisualStudio中更改BuildCommand的默认行为》经验，为你挑选了0个好方法。 ... [详细]
程序员
ViewPager的行为,它不会破坏旧的片段

如何解决《ViewPager的行为,它不会破坏旧的片段》经验，为你挑选了1个好方法。 ... [详细]
程序员
在C中,如何获得带有前导零的int？

如何解决《在C中,如何获得带有前导零的int？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在反应原生中停止默认导航栏弹出滑动

如何解决《如何在反应原生中停止默认导航栏弹出滑动》经验，为你挑选了1个好方法。 ... [详细]
程序员
尝试将文件从我的计算机复制到同一网络上的另一台计算机

如何解决《尝试将文件从我的计算机复制到同一网络上的另一台计算机》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Linux上,GCC/pthread并行代码比简单的单线程代码慢得多

如何解决《在Linux上,GCC/pthread并行代码比简单的单线程代码慢得多》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django 1.8到1.9升级:django.core.exceptions.AppRegistryNotReady:尚未加载应用程序

如何解决《Django1.8到1.9升级:django.core.exceptions.AppRegistryNotReady:尚未加载应用程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Android M中检查单个请求的多个权限？

如何解决《如何在AndroidM中检查单个请求的多个权限？》经验，为你挑选了4个好方法。 ... [详细]
程序员
为什么需要std :: minmax_element？

如何解决《为什么需要std::minmax_element？》经验，为你挑选了1个好方法。 ... [详细]
程序员
未捕获的ReferenceError:$未定义(PHP中的JavaScript/HTML)

如何解决《未捕获的ReferenceError:$未定义(PHP中的JavaScript/HTML)》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么Visual Studio用List <T> .Count替换List <T> .Length？

如何解决《为什么VisualStudio用List<T>.Count替换List<T>.Length？》经验，为你挑选了1个好方法。 ... [详细]
程序员
替换JavaScript正则表达式中包含$＆的字符串

如何解决《替换JavaScript正则表达式中包含$＆的字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
目标="_ blank"的超链接无法在新选项卡中打开

如何解决《目标="_blank"的超链接无法在新选项卡中打开》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用按位运算符的Misra违例

如何解决《使用按位运算符的Misra违例》经验，为你挑选了1个好方法。 ... [详细]
程序员
"GenerateJavaStubs"任务意外失败

如何解决《"GenerateJavaStubs"任务意外失败》经验，为你挑选了3个好方法。 ... [详细]
程序员
Magento 2没有加载CSS和JavaScript

如何解决《Magento2没有加载CSS和JavaScript》经验，为你挑选了3个好方法。 ... [详细]
程序员
在Tinkerpop 3.1中找到两个节点之间最短路径的最佳方法

如何解决《在Tinkerpop3.1中找到两个节点之间最短路径的最佳方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
有CMake' - install'开关吗？

如何解决《有CMake'-install'开关吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
向用户询问H.

如何解决《向用户询问H.》经验，为你挑选了1个好方法。 ... [详细]

凹凸曼00威威_694

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章