我正在建立一个在线门户网站,研究人员可以上传他们的研究论文.一个要求是,所有PDF都以PDF/A格式存储.由于我无法依赖用户生成符合PDF/A的文档,因此我需要一种工具来检查标准PDF并将其转换为PDF/A格式.
你知道什么是最好的工具?
价钱
质量
速度
可用的API
开源工具将是首选,但搜索没有发现.iText可以创建PDF/a,但转换并不容易,因为您必须阅读每个页面并将其复制到新文档,在此过程中丢失所有书签和注释.(至少据我所知,如果你知道一个简单的解决方案,请告诉我).
API应该可用于PHP,Java或者应该提供命令行工具.请不要列出仅限GUI或仅限在线的解决方案.
我不确定你的所有目标是否能同时得到满足.围绕PDF/A的故事要比格式转换(如tiff到png)复杂得多.
基本格式是PDF 1.4:如何处理使用更高版本功能的更高版本的文档?信息可能会丢失.
在PDF/A-1a和1b中,XMP/RDF格式的元数据是强制性的.如果原始文档没有元数据,则必须从某处获取并添加它.至少iText可以做到这一点.
从嵌入字体到确保存在空间而不是仅存在水平移动命令,有很多小细节可以解决.
总而言之:我认为你最好放弃部分或全部责任以遵守PDF的制作人.当然,这并不意味着你无法帮助他们:如果你找出大多数用来创建论文的工具,你可以指向PDF/A和特定工具的文档.(作为比特此类文件的一个极端的例子的,看看这个)
祝你好运.
我曾经在法国国家图书馆工作,建立了一个可以做这种事情的档案系统.作为世界上前十大图书馆中的大多数,我们使用JHOVE来识别文件格式.
JHOVE 可以判断文件是否为PDF/A,甚至可以验证它们.它还知道其他7种PDF,详情请见.
JHOVE是开源的,它由JSTOR和哈佛大学图书馆维护.它使用起来相当简单.