我需要从服务器上的PDF文件中提取所有图像.我不想要PDF页面,只需要原始大小和分辨率的图像.
我怎么能用Perl,PHP或任何其他基于UNIX的应用程序(我会用PHP的exec函数调用)来做到这一点?
pdfimages正是这样做的.它是poppler-utils和xpdf-utils包的一部分.
从联机帮助页:
Pdfimages将可移植文档格式(PDF)文件中的图像保存为便携式像素图(PPM),便携式位图(PBM)或JPEG文件.
Pdfimages读取PDF文件,扫描一个或多个页面,PDF文件,并为每个图像写入一个PPM,PBM或JPEG文件,image-root-nnn.xxx,其中nnn是图像编号,xxx是图像类型(.ppm,.pbm,.jpg).
注意:pdfimages从PDF文件中提取原始图像数据,而不执行任何其他转换.由PDF内容流完成的任何旋转,剪切,颜色反转等都将被忽略.
关于Perl,您检查过CPAN吗?
PDF :: GetImages - 从pdf文档中获取图像
PDF :: OCR - 从pdf文件中获取ocr和图像
PDF :: OCR2 - 从pdf中提取所有文本和所有图像ocr