为了在python中使用MS word文件,有python win32扩展,可以在windows中使用.我如何在linux中做同样的事情?有图书馆吗?
使用本机Python docx模块.以下是如何从doc中提取所有文本:
document = docx.Document(filename) docText = '\n\n'.join([ paragraph.text.encode('utf-8') for paragraph in document.paragraphs ]) print docText
请参阅Python DocX站点
还可以查看Textract,它可以拉出表格等.
使用正则表达式解析XML会调用cthulu.不要这样做!
您可以对antiword进行子进程调用.Antiword是一个linux命令行实用程序,用于从单词doc中转储文本.适用于简单文档(显然它会丢失格式).它可以通过apt,也可以作为RPM,或者你可以自己编译.
本杰明的回答非常好.我刚刚巩固了......
import zipfile, re docx = zipfile.ZipFile('/path/to/file/mydocument.docx') content = docx.read('word/document.xml').decode('utf-8') cleaned = re.sub('<(.|\n)*?>','',content) print(cleaned)
OpenOffice.org可以用Python编写脚本:请参见此处.
由于OOo可以完美地加载大多数MS Word文件,我会说这是你最好的选择.
我知道这是一个老问题,但我最近试图找到一种从MS word文件中提取文本的方法,到目前为止我发现的最佳解决方案是使用wvLib:
http://wvware.sourceforge.net/
安装库之后,在Python中使用它非常简单:
import commands exe = 'wvText ' + word_file + ' ' + output_txt_file out = commands.getoutput(exe) exe = 'cat ' + output_txt_file out = commands.getoutput(exe)
就是这样.实际上,我们正在做的是使用commands.getouput函数来运行几个shell脚本,即wvText(从Word文档中提取文本,以及cat来读取文件输出).之后,Word文档中的整个文本将出现在out变量中,随时可以使用.
希望这将有助于将来遇到类似问题的任何人.