15赞

从python中的MS word文件中提取文本

作者：手机用户2402851335 | 2023-09-05 02:56

如何解决《从python中的MSword文件中提取文本》经验，为你挑选了5个好方法。

为了在python中使用MS word文件,有python win32扩展,可以在windows中使用.我如何在linux中做同样的事情？有图书馆吗？

1> mikemaccana..：

使用本机Python docx模块.以下是如何从doc中提取所有文本:

document = docx.Document(filename)
docText = '\n\n'.join([
    paragraph.text.encode('utf-8') for paragraph in document.paragraphs
])
print docText

请参阅Python DocX站点

还可以查看Textract,它可以拉出表格等.

使用正则表达式解析XML会调用cthulu.不要这样做!

这段代码导致了一个错误:paragraph.text.encode('utf-8')for document.paragraphs中的段落TypeError:序列项0:预期的str实例,找到的字节

2> John Fouhy..：

您可以对antiword进行子进程调用.Antiword是一个linux命令行实用程序,用于从单词doc中转储文本.适用于简单文档(显然它会丢失格式).它可以通过apt,也可以作为RPM,或者你可以自己编译.

3> 小智..：

本杰明的回答非常好.我刚刚巩固了......

import zipfile, re

docx = zipfile.ZipFile('/path/to/file/mydocument.docx')
content = docx.read('word/document.xml').decode('utf-8')
cleaned = re.sub('<(.|\n)*?>','',content)
print(cleaned)

删除XML实体,例如来自'text':>>>来自xml.sax.saxutils import unescape >>> text = unescape(已清除)

4> Dan Lenski..：

OpenOffice.org可以用Python编写脚本:请参见此处.

由于OOo可以完美地加载大多数MS Word文件,我会说这是你最好的选择.

没有完美无缺.关闭,但我的经验远远没有完美(OO 2.0 - 3.0).

像MS Word N + 1一样完美打开MS Words N文件,并且比MS Word N + 1更好的方式打开MS Words N-1文件,恕我直言

5> David..：

我知道这是一个老问题,但我最近试图找到一种从MS word文件中提取文本的方法,到目前为止我发现的最佳解决方案是使用wvLib:

http://wvware.sourceforge.net/

安装库之后,在Python中使用它非常简单:

import commands

exe = 'wvText ' + word_file + ' ' + output_txt_file
out = commands.getoutput(exe)
exe = 'cat ' + output_txt_file
out = commands.getoutput(exe)

就是这样.实际上,我们正在做的是使用commands.getouput函数来运行几个shell脚本,即wvText(从Word文档中提取文本,以及cat来读取文件输出).之后,Word文档中的整个文本将出现在out变量中,随时可以使用.

希望这将有助于将来遇到类似问题的任何人.

推荐阅读

程序员
使用sbt编译spark项目时未解决的依赖问题

如何解决《使用sbt编译spark项目时未解决的依赖问题》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用Powershell在远程数据库上运行Entity Framework 7迁移？

如何解决《如何使用Powershell在远程数据库上运行EntityFramework7迁移？》经验，为你挑选了1个好方法。 ... [详细]
程序员
金属中的大块渲染

如何解决《金属中的大块渲染》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从visual studio 2013的输出窗口中显示"排除未选择构建此解决方案配置的项目"消息

如何解决《如何从visualstudio2013的输出窗口中显示"排除未选择构建此解决方案配置的项目"消息》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在不使用边框的情况下更改a-tag的下划线厚度？

如何解决《如何在不使用边框的情况下更改a-tag的下划线厚度？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python群集的“纯度”指标

如何解决《Python群集的“纯度”指标》经验，为你挑选了1个好方法。 ... [详细]
程序员
Apache Flink中的并行度

如何解决《ApacheFlink中的并行度》经验，为你挑选了1个好方法。 ... [详细]
程序员
删除R中数据框中所有列名的前两个字符

如何解决《删除R中数据框中所有列名的前两个字符》经验，为你挑选了1个好方法。 ... [详细]
程序员
XPathEvalError:lxml中matches()的未注册函数

如何解决《XPathEvalError:lxml中matches()的未注册函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
参数化类型的方法在制作通用接口工厂时不得使用本地符号错误

如何解决《参数化类型的方法在制作通用接口工厂时不得使用本地符号错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何通过.ajax以base64编码发布图像？

如何解决《如何通过.ajax以base64编码发布图像？》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否可以为Safari View Controller提供自定义标头

如何解决《是否可以为SafariViewController提供自定义标头》经验，为你挑选了0个好方法。 ... [详细]
程序员
std ::为2D点设置自定义比较器

如何解决《std::为2D点设置自定义比较器》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用pandas创建虚拟变量时,Jupyter笔记本内核会死掉

如何解决《使用pandas创建虚拟变量时,Jupyter笔记本内核会死掉》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将.each()中的值推送到jQuery中的一个数组？

如何解决《如何将.each()中的值推送到jQuery中的一个数组？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Imageview上有selectableItemBackground？

如何解决《如何在Imageview上有selectableItemBackground？》经验，为你挑选了1个好方法。 ... [详细]
程序员
scipy.ndimage.interpolation.zoom使用类似最近邻居的算法进行缩减

如何解决《scipy.ndimage.interpolation.zoom使用类似最近邻居的算法进行缩减》经验，为你挑选了0个好方法。 ... [详细]
程序员
Swift2 UI测试 - 等待元素出现

如何解决《Swift2UI测试-等待元素出现》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在FIX日志的UNIX命令中获取FIX标记之间的管道(|)分隔符？

如何解决《如何在FIX日志的UNIX命令中获取FIX标记之间的管道(|)分隔符？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用JSON.Net对具有混合类型的数组进行序列化/反序列化

如何解决《使用JSON.Net对具有混合类型的数组进行序列化/反序列化》经验，为你挑选了1个好方法。 ... [详细]

手机用户2402851335

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章