有关使用python将.doc,.ppt和.xls转换为纯文本的方法的任何建议吗?真的任何转换方法都会有用.我已经看过使用Open Office但是,我想要一个不需要安装Open Office的解决方案.
我会去命令行解决方案(然后使用Python子进程模块从Python运行工具).
可以在这里找到msword(catdoc),excel(xls2csv)和ppt(catppt)的转换器(源代码形式):http://vitus.wagner.pp.ru/software/catdoc/.
无法真正评论catppt的有用性,但catdoc和xls2csv工作得很好!
但一定要首先搜索你的发行版存储库...例如在ubuntu上,catdoc只是一个快速的get-get away.
您可以通过Python API访问OpenOffice.
尝试使用它作为基础:http://wiki.services.openoffice.org/wiki/Odt2txt.py
将Microsoft Office文档转换为HTML或其他格式的常用工具是mswordview,后者已重命名为vwWare.
如果您正在寻找命令行工具,他们实际上建议您使用AbiWord执行转换:
AbiWord --to=txt
如果您正在寻找一个库,请从wvWare概述页面开始.他们还维护一个读取MS Office文档的库和工具列表.