Clojure - 处理内存不足的大文件

作者：夏晶阳--艺术 | 2023-09-09 20:44

如何解决《Clojure-处理内存不足的大文件》经验，为你挑选了0个好方法。

我正在处理60GB或更大的文本文件.这些文件分成可变长度的标题部分和数据部分.我有三个功能:

head? 用于区分标题行和数据行的谓词

process-header 处理一个标题行字符串

process-data 处理一个数据行字符串

处理功能异步访问和修改内存数据库

我从另一个SO线程推进了文件读取方法,它应该构建一个懒惰的行序列.想法是用一个函数处理一些行,然后切换一次函数并继续处理下一个函数.

(defn lazy-file
  [file-name]
  (letfn [(helper [rdr]
            (lazy-seq
             (if-let [line (.readLine rdr)]
               (cons line (helper rdr))
               (do (.close rdr) nil))))]
    (try
      (helper (clojure.java.io/reader file-name))
      (catch Exception e
        (println "Exception while trying to open file" file-name)))))

我喜欢用它

(let [lfile (lazy-file "my-file.txt")]
  (doseq [line lfile :while head?]
    (process-header line))
  (doseq [line (drop-while head? lfile)]
    (process-data line)))

虽然这样可行,但由于以下几个原因,效率相当低:

我不得不直接调用,process-head直到我到达数据然后继续process-data,我必须过滤标题行并处理它们,然后重新解析整个文件并删除所有标题行以处理数据.这与lazy-file打算做的完全相反.

看着内存消耗告诉我,程序虽然看起来很懒,却会使用尽可能多的RAM来保存文件在内存中.

那么使用我的数据库的更有效,惯用的方法是什么？

一个想法可能是使用多方法来处理依赖于head?谓词值的标题和数据,但我认为这会产生一些严重的速度影响,特别是因为只有一个出现,其中谓词结果从始终变为真总变为假.我还没有基准测试.

用另一种方法构建line-seq并用它解析它会更好iterate吗？这仍然需要我使用:while和:drop-while,我猜.

在我的研究中,曾多次提到使用NIO文件访问,这应该可以提高内存使用率.我还没知道如何在clojure中以惯用的方式使用它.

也许我仍然很难掌握一般的想法,如何处理文件？

一如既往,非常感谢任何帮助,想法或指向tuts.

推荐阅读

程序员
自定义Google登录按钮 - iOS

如何解决《自定义Google登录按钮-iOS》经验，为你挑选了3个好方法。 ... [详细]
程序员
使用noncopyable成员聚合类的初始化

如何解决《使用noncopyable成员聚合类的初始化》经验，为你挑选了1个好方法。 ... [详细]
程序员
Eclipse Mars Java Decompiler

如何解决《EclipseMarsJavaDecompiler》经验，为你挑选了1个好方法。 ... [详细]
程序员
pandas DataFrame.replace函数在datetime中被破坏

如何解决《pandasDataFrame.replace函数在datetime中被破坏》经验，为你挑选了0个好方法。 ... [详细]
程序员
Angular 2和MySQL概念

如何解决《Angular2和MySQL概念》经验，为你挑选了1个好方法。 ... [详细]
程序员
Jsoup unescapes特殊人物

如何解决《Jsoupunescapes特殊人物》经验，为你挑选了0个好方法。 ... [详细]
程序员
Spring Boot Web应用程序中的角度路由

如何解决《SpringBootWeb应用程序中的角度路由》经验，为你挑选了1个好方法。 ... [详细]
程序员
尝试追加/替换数组元素时"对成员映射的模糊引用"

如何解决《尝试追加/替换数组元素时"对成员映射的模糊引用"》经验，为你挑选了1个好方法。 ... [详细]
程序员
Docker:已安装卷的权限

如何解决《Docker:已安装卷的权限》经验，为你挑选了1个好方法。 ... [详细]
程序员
SFINAE:std :: enable_if作为函数参数

如何解决《SFINAE:std::enable_if作为函数参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
原型与 Flyweight设计模式

如何解决《原型与Flyweight设计模式》经验，为你挑选了1个好方法。 ... [详细]
程序员
BufferedReader readLine()方法返回boolean？

如何解决《BufferedReaderreadLine()方法返回boolean？》经验，为你挑选了1个好方法。 ... [详细]
程序员
R：PLM个人和时间固定效应，但没有其他回归因子

如何解决《R：PLM个人和时间固定效应，但没有其他回归因子》经验，为你挑选了1个好方法。 ... [详细]
程序员
错误:任务执行失败:ransformException

如何解决《错误:任务执行失败:ransformException》经验，为你挑选了1个好方法。 ... [详细]
程序员
逗号之后我不想要空格宽度 - 最佳做法？

如何解决《逗号之后我不想要空格宽度-最佳做法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java:字符串模式:如何为具有特殊字符的所有字符字符指定正则表达式

如何解决《Java:字符串模式:如何为具有特殊字符的所有字符字符指定正则表达式》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在UITextField中添加图像和文本作为swift中心的占位符

如何解决《如何在UITextField中添加图像和文本作为swift中心的占位符》经验，为你挑选了0个好方法。 ... [详细]
程序员
Rspec：如何创建模拟关联

如何解决《Rspec：如何创建模拟关联》经验，为你挑选了0个好方法。 ... [详细]
程序员
未初始化的常量Sprockets :: Rails(NameError)

如何解决《未初始化的常量Sprockets::Rails(NameError)》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何通过包管理器安装Swift包？

如何解决《如何通过包管理器安装Swift包？》经验，为你挑选了2个好方法。 ... [详细]

夏晶阳--艺术

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章