pyPdf是一个很好的库,可以拆分,合并PDF文件.我用它将pdf文档分成1页文档.pyPdf是纯python,在保存提取的页面时,在PdfFileWriter对象的_sweepIndirectReferences()方法中花费了大量的时间.我需要一些性能更好的东西.我尝试过使用多线程,但由于大部分时间花在python代码上,因为GIL没有速度增加(实际上运行速度较慢).
是否有用c编写的库提供相同的功能?或者是否有人对如何提高性能有很好的了解(除了为每个我要拆分的pdf文件生成一个新进程)
先感谢您.
跟进.链接到几个命令行解决方案,有时可以证明比pyPDF更快:
http://multivalent.sourceforge.net/Tools/pdf/Split.html
http://www.linuxsolutions.fr/how-to-extract-pages-from-a-pdf/
我修改了pyPDF PdfWriter类来跟踪_sweepIndirectReferences()方法花了多少时间.如果它太长了(现在我使用3秒的魔法值)然后我通过从python调用它来恢复使用ghostscript.
谢谢你的所有答案.(codelogic的xpdf参考是让我寻找不同方法的参考)