我正在尝试将.doc文件读入数据库,以便我可以索引它的内容.Linux上的PHP有一种简单的方法来读取.doc文件吗?如果失败,可以将.doc文件转换为rtf,pdf或其他一些易于阅读的"开放"格式吗?
注意,我对.docx文件不感兴趣.
Conor,我建议看一下OpenOffice命令行界面/调用宏.它可以将许多文件格式转换为许多其他格式.然后你可以选择比MS doc更加解析的东西.
例如,要转换为PDF,命令行是:
/usr/lib/ooo-2.0/program/soffice.bin -norestore -nofirststart -nologo -headless -invisible "macro:///Standard.Module1.SaveAsPDF(demo.doc)"