9赞

用于IndirectObject提取的pyPdf

作者：pan2502851807 | 2023-09-01 09:10

如何解决《用于IndirectObject提取的pyPdf》经验，为你挑选了1个好方法。

按照这个例子,我可以将所有元素列入pdf文件

import pyPdf
pdf = pyPdf.PdfFileReader(open("pdffile.pdf"))
list(pdf.pages) # Process all the objects.
print pdf.resolvedObjects

现在,我需要从pdf文件中提取非标准对象.

我的对象是名为MYOBJECT的对象,它是一个字符串.

由关注我的python脚本打印的作品是:

{'/MYOBJECT': IndirectObject(584, 0)}

pdf文件是这样的:

558 0 obj
<>
    /ExtGState <>
    /Font<>
    /ProcSet[/PDF/Text/ImageC]
    /Properties<>/MC1<> >>
    /XObject<>>>
  /Rotate 0/StructParents 0/Type/Page>>
endobj
...
...
...
584 0 obj
<>stream

1_22_4_1     --->>>>  this is the string I need to extract from the object

endstream
endobj

如何跟踪该584值以引用我的字符串(当然在pyPdf下)？

1> Jehiah..：

每个元素pdf.pages都是一个字典,所以假设它在第1页,pdf.pages[0]['/MYOBJECT']应该是你想要的元素.

你可以尝试打印单独或在它戳help,并dir在Python提示更多关于如何得到你想要的字符串

编辑:

收到pdf的副本后,我发现对象在,pdf.resolvedObjects[0][558]['/Resources']['/Properties']['/MC0']['/MYOBJECT']并且可以通过getData()检索值

下面的函数提供了一种更通用的方法来通过递归查找有问题的密钥来解决这个问题

import types
import pyPdf
pdf = pyPdf.PdfFileReader(open('file.pdf'))
pages = list(pdf.pages)

def findInDict(needle,haystack):
    for key in haystack.keys():
        try:
            value = haystack[key]
        except:
            continue
        if key == needle:
            return value
        if type(value) == types.DictType or isinstance(value,pyPdf.generic.DictionaryObject):  
            x = findInDict(needle,value)
            if x is not None:
                return x

answer = findInDict('/MYOBJECT',pdf.resolvedObjects).getData()

推荐阅读

程序员
反滚动两个div

如何解决《反滚动两个div》经验，为你挑选了0个好方法。 ... [详细]
程序员
c#socket接收字节数组长度

如何解决《c#socket接收字节数组长度》经验，为你挑选了0个好方法。 ... [详细]
程序员
弹簧websocket与sockjs和stomp客户端设计

如何解决《弹簧websocket与sockjs和stomp客户端设计》经验，为你挑选了1个好方法。 ... [详细]
程序员
查找数据框中每行的前N列

如何解决《查找数据框中每行的前N列》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何更有效地检查错误的值

如何解决《如何更有效地检查错误的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
Hibernate Envers:@Audited在一个子类上

如何解决《HibernateEnvers:@Audited在一个子类上》经验，为你挑选了0个好方法。 ... [详细]
程序员
SQL循环,如果BREAK

如何解决《SQL循环,如果BREAK》经验，为你挑选了1个好方法。 ... [详细]
程序员
Enum对象的C#extend方法

如何解决《Enum对象的C#extend方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从FasterXML\Jackson序列化/反序列化布尔值作为Int？

如何解决《如何从FasterXML\Jackson序列化/反序列化布尔值作为Int？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何让JToolBar覆盖整个窗口高度？

如何解决《如何让JToolBar覆盖整个窗口高度？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何处理Redshift中的尺寸类型2缓慢变化？

如何解决《如何处理Redshift中的尺寸类型2缓慢变化？》经验，为你挑选了0个好方法。 ... [详细]
程序员
是否可以使用扩展超类的方法参数的参数覆盖超类的方法？

如何解决《是否可以使用扩展超类的方法参数的参数覆盖超类的方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在C中解析链式宏？

如何解决《如何在C中解析链式宏？》经验，为你挑选了0个好方法。 ... [详细]
程序员
TweenMax将无法正确初始化:"Uncaught无法补间空目标."

如何解决《TweenMax将无法正确初始化:"Uncaught无法补间空目标."》经验，为你挑选了1个好方法。 ... [详细]
程序员
`cv.glmnet`适用于RStudio但不适用于RScript

如何解决《`cv.glmnet`适用于RStudio但不适用于RScript》经验，为你挑选了1个好方法。 ... [详细]
程序员
将系统属性传递给spring boot

如何解决《将系统属性传递给springboot》经验，为你挑选了1个好方法。 ... [详细]
程序员
d3.js geo worldmap - 合并俄罗斯(从美国右边的左边小部分向左移位)

如何解决《d3.jsgeoworldmap-合并俄罗斯(从美国右边的左边小部分向左移位)》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在.cshtml中使用@：

如何解决《如何在.cshtml中使用@：》经验，为你挑选了1个好方法。 ... [详细]
程序员
Modelica质量/能量/动量平衡

如何解决《Modelica质量/能量/动量平衡》经验，为你挑选了1个好方法。 ... [详细]
程序员
NPM + Zurb Foundation + WebPack:无法解析模块'基础'

如何解决《NPM+ZurbFoundation+WebPack:无法解析模块'基础'》经验，为你挑选了4个好方法。 ... [详细]

pan2502851807

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章