5赞

PDFminer:使用其字体信息提取文本

作者：小色米虫_524 | 2023-09-08 14:04

如何解决《PDFminer:使用其字体信息提取文本》经验，为你挑选了1个好方法。

我发现这个问题,但它使用命令行,我不想使用子进程在命令行中调用Python脚本并解析HTML文件以获取字体信息.

我想使用PDFminer作为库,我发现这个问题,但它们只是提取纯文本,没有其他信息,如字体名称,字体大小等.

1> Emilia Apost..：

#!/usr/bin/env python
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
import pdfminer


def createPDFDoc(fpath):
    fp = open(fpath, 'rb')
    parser = PDFParser(fp)
    document = PDFDocument(parser, password='')
    # Check if the document allows text extraction. If not, abort.
    if not document.is_extractable:
        raise "Not extractable"
    else:
        return document


def createDeviceInterpreter():
    rsrcmgr = PDFResourceManager()
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    return device, interpreter


def parse_obj(objs):
    for obj in objs:
        if isinstance(obj, pdfminer.layout.LTTextBox):
            for o in obj._objs:
                if isinstance(o,pdfminer.layout.LTTextLine):
                    text=o.get_text()
                    if text.strip():
                        for c in  o._objs:
                            if isinstance(c, pdfminer.layout.LTChar):
                                print "fontname %s"%c.fontname
        # if it's a container, recurse
        elif isinstance(obj, pdfminer.layout.LTFigure):
            parse_obj(obj._objs)
        else:
            pass


document=createPDFDoc("/tmp/simple.pdf")
device,interpreter=createDeviceInterpreter()
pages=PDFPage.create_pages(document)
interpreter.process_page(pages.next())
layout = device.get_result()


parse_obj(layout._objs)

推荐阅读

程序员
否定Elixir中的谓词

如何解决《否定Elixir中的谓词》经验，为你挑选了1个好方法。 ... [详细]
程序员
C# - 使用反射从列表<Class>中提取值列表

如何解决《C#-使用反射从列表<Class>中提取值列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
在R中使用httr到POST文件时指定文件名

如何解决《在R中使用httr到POST文件时指定文件名》经验，为你挑选了1个好方法。 ... [详细]
程序员
当x = 0时,Java的Math.pow(x,2)表现不佳

如何解决《当x=0时,Java的Math.pow(x,2)表现不佳》经验，为你挑选了1个好方法。 ... [详细]
程序员
连接到MySQL数据库时有关SSL连接的警告

如何解决《连接到MySQL数据库时有关SSL连接的警告》经验，为你挑选了8个好方法。 ... [详细]
程序员
将预编译的Cython代码分发给Windows

如何解决《将预编译的Cython代码分发给Windows》经验，为你挑选了1个好方法。 ... [详细]
程序员
低功耗蓝牙：被动扫描-但是不会永远循环吗？

如何解决《低功耗蓝牙：被动扫描-但是不会永远循环吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用不同的属性执行两次maven插件

如何解决《如何使用不同的属性执行两次maven插件》经验，为你挑选了1个好方法。 ... [详细]
程序员
读取异步管道 - 丢失数据

如何解决《读取异步管道-丢失数据》经验，为你挑选了0个好方法。 ... [详细]
程序员
C的Haskell导出函数

如何解决《C的Haskell导出函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
ColorSpacePoint到DepthSpacePoint

如何解决《ColorSpacePoint到DepthSpacePoint》经验，为你挑选了1个好方法。 ... [详细]
程序员
ArrayList <>无法解析为类型

如何解决《ArrayList<>无法解析为类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以(如何)在MS Edge Browser中禁用"友好HTTP错误消息"？

如何解决《我可以(如何)在MSEdgeBrowser中禁用"友好HTTP错误消息"？》经验，为你挑选了0个好方法。 ... [详细]
程序员
阵列平均程序的输出错误

如何解决《阵列平均程序的输出错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
MPI_Cart_Shift.Corner邻居

如何解决《MPI_Cart_Shift.Corner邻居》经验，为你挑选了0个好方法。 ... [详细]
程序员
是否有一个简单的方法来检查NSRange传递给NSString上的substringWithRange是否存在(所以不会导致错误)？

如何解决《是否有一个简单的方法来检查NSRange传递给NSString上的substringWithRange是否存在(所以不会导致错误)？》经验，为你挑选了1个好方法。 ... [详细]
程序员
对象文字之外的JS冒号语法？

如何解决《对象文字之外的JS冒号语法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
<Python> for循环中的两个迭代变量

如何解决《<Python>for循环中的两个迭代变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
添加新事件/日志后刷新TensorBoard的最佳方法是什么？

如何解决《添加新事件/日志后刷新TensorBoard的最佳方法是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Wifi Casting打盹模式

如何解决《WifiCasting打盹模式》经验，为你挑选了0个好方法。 ... [详细]

小色米虫_524

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章