如何在PDFSharp中浏览Pdf对象树？

作者：k78283381 | 2023-09-03 14:21

如何解决《如何在PDFSharp中浏览Pdf对象树？》经验，为你挑选了1个好方法。

我试图使用c#中的PDFSharp在现有PDF文档中遍历PdfItem对象树.

我想在创建时创建所有对象的层次结构 - 类似于"PDF Explorer"示例所做的 - 但我希望它是树而不是所有对象的平面列表.

根节点是document.Internals.Catalog.我想要浏览所有document.Internals.Catalog.Elements,直到我访问过每个元素.

我遇到的一个问题是树中有循环引用,我无法弄清楚如何检测它们.

有代码样本吗？

1> Brian Low..：

marihanzo在PDFSharp论坛上的这篇文章对我们有用:

http://forum.pdfsharp.net/viewtopic.php?f=2&t=527&p=1603

我们唯一的问题是使用\ r \n处理字段.这是代码的副本,以防论坛帖子丢失.

PDFParser.cs

public class PDFParser
{
    /// BT = Beginning of a text object operator
    /// ET = End of a text object operator
    /// Td move to the start of next line
    ///  5 Ts = superscript
    /// -5 Ts = subscript

    #region Fields

    #region _numberOfCharsToKeep
    /// 
    /// The number of characters to keep, when extracting text.
    /// 
    private static int _numberOfCharsToKeep = 15;
    #endregion

    #endregion



    #region ExtractTextFromPDFBytes
    /// 
    /// This method processes an uncompressed Adobe (text) object
    /// and extracts text.
    /// 
    /// uncompressed
    /// 
    public string ExtractTextFromPDFBytes(byte[] input)
    {
        if (input == null || input.Length == 0) return "";

        try
        {
            string resultString = "";

            // Flag showing if we are we currently inside a text object
            bool inTextObject = false;

            // Flag showing if the next character is literal
            // e.g. '\\' to get a '\' character or '\(' to get '('
            bool nextLiteral = false;

            // () Bracket nesting level. Text appears inside ()
            int bracketDepth = 0;

            // Keep previous chars to get extract numbers etc.:
            char[] previousCharacters = new char[_numberOfCharsToKeep];
            for (int j = 0; j < _numberOfCharsToKeep; j++) previousCharacters[j] = ' ';


            for (int i = 0; i < input.Length; i++)
            {
                char c = (char)input[i];

                if (inTextObject)
                {
                    // Position the text
                    if (bracketDepth == 0)
                    {
                        if (CheckToken(new string[] { "TD", "Td" }, previousCharacters))
                        {
                            resultString += "\n\r";
                        }
                        else
                        {
                            if (CheckToken(new string[] { "'", "T*", "\"" }, previousCharacters))
                            {
                                resultString += "\n";
                            }
                            else
                            {
                                if (CheckToken(new string[] { "Tj" }, previousCharacters))
                                {
                                    resultString += " ";
                                }
                            }
                        }
                    }

                    // End of a text object, also go to a new line.
                    if (bracketDepth == 0 &&
                        CheckToken(new string[] { "ET" }, previousCharacters))
                    {

                        inTextObject = false;
                        resultString += " ";
                    }
                    else
                    {
                        // Start outputting text
                        if ((c == '(') && (bracketDepth == 0) && (!nextLiteral))
                        {
                            bracketDepth = 1;
                        }
                        else
                        {
                            // Stop outputting text
                            if ((c == ')') && (bracketDepth == 1) && (!nextLiteral))
                            {
                                bracketDepth = 0;
                            }
                            else
                            {
                                // Just a normal text character:
                                if (bracketDepth == 1)
                                {
                                    // Only print out next character no matter what.
                                    // Do not interpret.
                                    if (c == '\\' && !nextLiteral)
                                    {
                                        nextLiteral = true;
                                    }
                                    else
                                    {
                                        if (((c >= ' ') && (c <= '~')) ||
                                            ((c >= 128) && (c < 255)))
                                        {
                                            resultString += c.ToString();
                                        }

                                        nextLiteral = false;
                                    }
                                }
                            }
                        }
                    }
                }

                // Store the recent characters for
                // when we have to go back for a checking
                for (int j = 0; j < _numberOfCharsToKeep - 1; j++)
                {
                    previousCharacters[j] = previousCharacters[j + 1];
                }
                previousCharacters[_numberOfCharsToKeep - 1] = c;

                // Start of a text object
                if (!inTextObject && CheckToken(new string[] { "BT" }, previousCharacters))
                {
                    inTextObject = true;
                }
            }
            return resultString;
        }
        catch
        {
            return "";
        }
    }
    #endregion

    #region CheckToken
    /// 
    /// Check if a certain 2 character token just came along (e.g. BT)
    /// 
    /// the searched token
    /// the recent character array
    /// 
    private bool CheckToken(string[] tokens, char[] recent)
    {
        foreach (string token in tokens)
        {
            if (token.Length > 1)
            {
                if ((recent[_numberOfCharsToKeep - 3] == token[0]) &&
                    (recent[_numberOfCharsToKeep - 2] == token[1]) &&
                    ((recent[_numberOfCharsToKeep - 1] == ' ') ||
                    (recent[_numberOfCharsToKeep - 1] == 0x0d) ||
                    (recent[_numberOfCharsToKeep - 1] == 0x0a)) &&
                    ((recent[_numberOfCharsToKeep - 4] == ' ') ||
                    (recent[_numberOfCharsToKeep - 4] == 0x0d) ||
                    (recent[_numberOfCharsToKeep - 4] == 0x0a))
                    )
                {
                    return true;
                }
            }
            else
            {
                return false;
            }

        }
        return false;
    }
    #endregion
}

和调用代码:

   public override String ExtractText()
    {
        String outputText = "";
        try
        {
            PdfDocument inputDocument = PdfReader.Open(this._sDirectory + this._sFileName, PdfDocumentOpenMode.ReadOnly);

            foreach (PdfPage page in inputDocument.Pages)
            {
                for (int index = 0; index < page.Contents.Elements.Count; index++)
                {

                    PdfDictionary.PdfStream stream = page.Contents.Elements.GetDictionary(index).Stream;
                    outputText += new PDFParser().ExtractTextFromPDFBytes(stream.Value);
                }
            }

        }
        catch (Exception e)
        {
            PDF_ParseException oEx = new PDF_ParseException(this, e);
            oEx.Log();
            oEx.ToPdf(this._sDirectoryException);
        }
        return outputText;
    }

推荐阅读

程序员
全局变量类c ++

如何解决《全局变量类c++》经验，为你挑选了1个好方法。 ... [详细]
程序员
差异两个rpms？ - linux

如何解决《差异两个rpms？-linux》经验，为你挑选了1个好方法。 ... [详细]
程序员
监视生产服务器上的django rest framework api

如何解决《监视生产服务器上的djangorestframeworkapi》经验，为你挑选了2个好方法。 ... [详细]
程序员
在不同的Linux机器上部署PyQt5应用程序

如何解决《在不同的Linux机器上部署PyQt5应用程序》经验，为你挑选了0个好方法。 ... [详细]
程序员
以编程方式获取内存使用率iOS

如何解决《以编程方式获取内存使用率iOS》经验，为你挑选了0个好方法。 ... [详细]
程序员
计划中的汽车和Cdr

如何解决《计划中的汽车和Cdr》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用iomanip匹配printf格式

如何解决《使用iomanip匹配printf格式》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Swift中以wav格式录制音频？

如何解决《如何在Swift中以wav格式录制音频？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在dplyr和列中使用重命名时避免错误不存在

如何解决《在dplyr和列中使用重命名时避免错误不存在》经验，为你挑选了2个好方法。 ... [详细]
程序员
DjangoRestFramework ModelSerializer DateTimeField仅在创建对象时转换为当前时区

如何解决《DjangoRestFrameworkModelSerializerDateTimeField仅在创建对象时转换为当前时区》经验，为你挑选了1个好方法。 ... [详细]
程序员
RxJS:如何让一个Observer处理多个Observables？

如何解决《RxJS:如何让一个Observer处理多个Observables？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用moment.js获取上个月的第一天和未来一个月的最后一天

如何解决《如何使用moment.js获取上个月的第一天和未来一个月的最后一天》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何创建响应式(变化列数)Angular-Material卡网格

如何解决《如何创建响应式(变化列数)Angular-Material卡网格》经验，为你挑选了1个好方法。 ... [详细]
程序员
NodeJS/Express4端点生成损坏的xlsx文件

如何解决《NodeJS/Express4端点生成损坏的xlsx文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
排列,但有一些数字保持在一个顺序

如何解决《排列,但有一些数字保持在一个顺序》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何获取桌面位置？

如何解决《如何获取桌面位置？》经验，为你挑选了3个好方法。 ... [详细]
程序员
字符串格式:将"%0%1%2"替换为带有0,1,2索引的元组

如何解决《字符串格式:将"%0%1%2"替换为带有0,1,2索引的元组》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以安全地更改SharedPreferences变量的类型吗？

如何解决《我可以安全地更改SharedPreferences变量的类型吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用JQuery更改拖动事件上光标的图像侧

如何解决《如何使用JQuery更改拖动事件上光标的图像侧》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法使用Application Loader上传应用内购买的托管内容

如何解决《无法使用ApplicationLoader上传应用内购买的托管内容》经验，为你挑选了1个好方法。 ... [详细]

k78283381

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章