我正在处理60GB或更大的文本文件.这些文件分成可变长度的标题部分和数据部分.我有三个功能:
head?
用于区分标题行和数据行的谓词
process-header
处理一个标题行字符串
process-data
处理一个数据行字符串
处理功能异步访问和修改内存数据库
我从另一个SO线程推进了文件读取方法,它应该构建一个懒惰的行序列.想法是用一个函数处理一些行,然后切换一次函数并继续处理下一个函数.
(defn lazy-file [file-name] (letfn [(helper [rdr] (lazy-seq (if-let [line (.readLine rdr)] (cons line (helper rdr)) (do (.close rdr) nil))))] (try (helper (clojure.java.io/reader file-name)) (catch Exception e (println "Exception while trying to open file" file-name)))))
我喜欢用它
(let [lfile (lazy-file "my-file.txt")] (doseq [line lfile :while head?] (process-header line)) (doseq [line (drop-while head? lfile)] (process-data line)))
虽然这样可行,但由于以下几个原因,效率相当低:
我不得不直接调用,process-head
直到我到达数据然后继续process-data
,我必须过滤标题行并处理它们,然后重新解析整个文件并删除所有标题行以处理数据.这与lazy-file
打算做的完全相反.
看着内存消耗告诉我,程序虽然看起来很懒,却会使用尽可能多的RAM来保存文件在内存中.
那么使用我的数据库的更有效,惯用的方法是什么?
一个想法可能是使用多方法来处理依赖于head?
谓词值的标题和数据,但我认为这会产生一些严重的速度影响,特别是因为只有一个出现,其中谓词结果从始终变为真总变为假.我还没有基准测试.
用另一种方法构建line-seq并用它解析它会更好iterate
吗?这仍然需要我使用:while和:drop-while,我猜.
在我的研究中,曾多次提到使用NIO文件访问,这应该可以提高内存使用率.我还没知道如何在clojure中以惯用的方式使用它.
也许我仍然很难掌握一般的想法,如何处理文件?
一如既往,非常感谢任何帮助,想法或指向tuts.