不使用COM /自动化从Word文档中提取文本的最佳方法？

作者：oDavid_仔o_880 | 2023-09-05 20:09

如何解决《不使用COM/自动化从Word文档中提取文本的最佳方法？》经验，为你挑选了2个好方法。

有没有合理的方法从不依赖于COM自动化的Word文件中提取纯文本？(这是部署在非Windows平台上的Web应用程序的一项功能 - 在这种情况下是不可协商的.)

Antiword似乎可能是一个合理的选择,但似乎它可能会被抛弃.

Python解决方案是理想的,但似乎不可用.

1> mikemaccana..：

(与从python中的MS word文件中提取文本的答案相同)

使用我本周制作的原生Python docx模块.以下是如何从doc中提取所有文本:

document = opendocx('Hello world.docx')

# This location is where most document content lives 
docbody = document.xpath('/w:document/w:body', namespaces=wordnamespaces)[0]

# Extract all text
print getdocumenttext(document)

请参阅Python DocX站点

100%Python,没有COM,没有.net,没有Java,没有使用正则表达式解析序列化的XML,没有废话.

如果只有一种方法可以在StackOverflow上提问.

2> codeape..：

我使用catdoc或antiword,无论给出最容易解析的结果.我已经在python函数中嵌入了它,所以它很容易从解析系统(用python编写)中使用.

import os

def doc_to_text_catdoc(filename):
    (fi, fo, fe) = os.popen3('catdoc -w "%s"' % filename)
    fi.close()
    retval = fo.read()
    erroroutput = fe.read()
    fo.close()
    fe.close()
    if not erroroutput:
        return retval
    else:
        raise OSError("Executing the command caused an error: %s" % erroroutput)

# similar doc_to_text_antiword()

-w切换到catdoc会关闭换行,BTW.

请注意，Python 3删除了popen3，请参阅https://docs.python.org/3/library/subprocess.html#replacing-os-popen-os-popen2-os-popen3

推荐阅读

程序员
我们可以减少从ArrayList准备Java HashSet的时间复杂度O(n)吗？

如何解决《我们可以减少从ArrayList准备JavaHashSet的时间复杂度O(n)吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果关系上没有索引,SQL查询是否有效？

如何解决《如果关系上没有索引,SQL查询是否有效？》经验，为你挑选了1个好方法。 ... [详细]
程序员
JFrame被处理了吗？

如何解决《JFrame被处理了吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
os.system中的变量

如何解决《os.system中的变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android领域错误的线程

如何解决《Android领域错误的线程》经验，为你挑选了1个好方法。 ... [详细]
程序员
preg_match_all会导致孩子死亡

如何解决《preg_match_all会导致孩子死亡》经验，为你挑选了0个好方法。 ... [详细]
程序员
当使用自定义会话处理程序并建立了第二个postgres连接时,PHP7会破坏我的会话

如何解决《当使用自定义会话处理程序并建立了第二个postgres连接时,PHP7会破坏我的会话》经验，为你挑选了0个好方法。 ... [详细]
程序员
一行中设置了两个<p>标记？

如何解决《一行中设置了两个<p>标记？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在dotnet core/corefx中是否有与HtmlTextWriter等效的类？

如何解决《在dotnetcore/corefx中是否有与HtmlTextWriter等效的类？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在HTML中的for循环中使用文档

如何解决《如何在HTML中的for循环中使用文档》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在iOS8设备上运行测试时禁用UITesting？

如何解决《如何在iOS8设备上运行测试时禁用UITesting？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何将webpack源映射制作为原始文件

如何解决《如何将webpack源映射制作为原始文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
Swift NSDate扩展错误:Mutating对类或类绑定协议中的方法无效

如何解决《SwiftNSDate扩展错误:Mutating对类或类绑定协议中的方法无效》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android折叠工具栏:如何调整文本大小,使其显示全文而非部分文本

如何解决《Android折叠工具栏:如何调整文本大小,使其显示全文而非部分文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
错误地复制到struct中

如何解决《错误地复制到struct中》经验，为你挑选了1个好方法。 ... [详细]
程序员
你可以愚弄isatty并分别记录stdout和stderr吗？

如何解决《你可以愚弄isatty并分别记录stdout和stderr吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用NodeJS捕获全局错误

如何解决《如何使用NodeJS捕获全局错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
HSpice网表中的子电路？

如何解决《HSpice网表中的子电路？》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用webpack与es6的分块

如何解决《使用webpack与es6的分块》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何布置包含多个文本字段和OK,CANCEL按钮的输入面板？

如何解决《如何布置包含多个文本字段和OK,CANCEL按钮的输入面板？》经验，为你挑选了1个好方法。 ... [详细]

oDavid_仔o_880

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章