当前位置:  开发笔记 > 编程语言 > 正文

从python中的MS word文件中提取文本

如何解决《从python中的MSword文件中提取文本》经验,为你挑选了5个好方法。

为了在python中使用MS word文件,有python win32扩展,可以在windows中使用.我如何在linux中做同样的事情?有图书馆吗?



1> mikemaccana..:

使用本机Python docx模块.以下是如何从doc中提取所有文本:

document = docx.Document(filename)
docText = '\n\n'.join([
    paragraph.text.encode('utf-8') for paragraph in document.paragraphs
])
print docText

请参阅Python DocX站点

还可以查看Textract,它可以拉出表格等.

使用正则表达式解析XML会调用cthulu.不要这样做!


这段代码导致了一个错误:paragraph.text.encode('utf-8')for document.paragraphs中的段落TypeError:序列项0:预期的str实例,找到的字节

2> John Fouhy..:

您可以对antiword进行子进程调用.Antiword是一个linux命令行实用程序,用于从单词doc中转储文本.适用于简单文档(显然它会丢失格式).它可以通过apt,也可以作为RPM,或者你可以自己编译.



3> 小智..:

本杰明的回答非常好.我刚刚巩固了......

import zipfile, re

docx = zipfile.ZipFile('/path/to/file/mydocument.docx')
content = docx.read('word/document.xml').decode('utf-8')
cleaned = re.sub('<(.|\n)*?>','',content)
print(cleaned)


删除XML实体,例如  来自'text':>>>来自xml.sax.saxutils import unescape >>> text = unescape(已清除)

4> Dan Lenski..:

OpenOffice.org可以用Python编写脚本:请参见此处.

由于OOo可以完美地加载大多数MS Word文件,我会说这是你最好的选择.


没有完美无缺.关闭,但我的经验远远没有完美(OO 2.0 - 3.0).
像MS Word N + 1一样完美打开MS Words N文件,并且比MS Word N + 1更好的方式打开MS Words N-1文件,恕我直言

5> David..:

我知道这是一个老问题,但我最近试图找到一种从MS word文件中提取文本的方法,到目前为止我发现的最佳解决方案是使用wvLib:

http://wvware.sourceforge.net/

安装库之后,在Python中使用它非常简单:

import commands

exe = 'wvText ' + word_file + ' ' + output_txt_file
out = commands.getoutput(exe)
exe = 'cat ' + output_txt_file
out = commands.getoutput(exe)

就是这样.实际上,我们正在做的是使用commands.getouput函数来运行几个shell脚本,即wvText(从Word文档中提取文本,以及cat来读取文件输出).之后,Word文档中的整个文本将出现在out变量中,随时可以使用.

希望这将有助于将来遇到类似问题的任何人.

推荐阅读
手机用户2402851335
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有