8赞

如何使用ElementTree输出CDATA

作者：虎仔球妈_459 | 2023-09-04 13:52

如何解决《如何使用ElementTree输出CDATA》经验，为你挑选了6个好方法。

我发现cElementTree快了大约30倍xml.dom.minidom,我正在重写我的XML编码/解码代码.但是,我需要输出包含CDATA部分的XML,并且似乎没有办法使用ElementTree.

可以吗？

1> elifiner..：

经过一番工作,我自己找到了答案.查看ElementTree.py源代码,我发现XML注释和预处理指令有特殊处理.他们所做的是为特殊元素类型创建一个工厂函数,该函数使用特殊(非字符串)标记值来区分它与常规元素.

def Comment(text=None):
    element = Element(Comment)
    element.text = text
    return element

然后在_write实际输出XML的ElementTree函数中,有一个特殊的案例处理注释:

if tag is Comment:
    file.write("" % _escape_cdata(node.text, encoding))

为了支持CDATA部分,我创建了一个名为的工厂函数CDATA,扩展了ElementTree类并更改了_write处理CDATA元素的函数.

如果你想用CDATA部分解析XML然后再用CDATA部分输出它,这仍然无济于事,但它至少允许你以编程方式创建带有CDATA部分的XML,这是我需要做的.

该实现似乎适用于ElementTree和cElementTree.

import elementtree.ElementTree as etree
#~ import cElementTree as etree

def CDATA(text=None):
    element = etree.Element(CDATA)
    element.text = text
    return element

class ElementTreeCDATA(etree.ElementTree):
    def _write(self, file, node, encoding, namespaces):
        if node.tag is CDATA:
            text = node.text.encode(encoding)
            file.write("\n\n" % text)
        else:
            etree.ElementTree._write(self, file, node, encoding, namespaces)

if __name__ == "__main__":
    import sys

    text = """
    
    
    This is just some sample text.
    
    """

    e = etree.Element("data")
    cdata = CDATA(text)
    e.append(cdata)
    et = ElementTreeCDATA(e)
    et.write(sys.stdout, "utf-8")

Thsio reciep不适用于Python 2.7或3.2(和3.3) - 请查看@ amaury的答案.因此,新的ElementTree没有可以重写的"_write"方法.

2> iny..：

lxml支持像ElementTree这样的CDATA和API.

3> 小智..：

以下是适用于python 3.2的gooli解决方案的变体:

import xml.etree.ElementTree as etree

def CDATA(text=None):
    element = etree.Element('![CDATA[')
    element.text = text
    return element

etree._original_serialize_xml = etree._serialize_xml
def _serialize_xml(write, elem, qnames, namespaces):
    if elem.tag == '![CDATA[':
        write("\n<%s%s]]>\n" % (
                elem.tag, elem.text))
        return
    return etree._original_serialize_xml(
        write, elem, qnames, namespaces)
etree._serialize_xml = etree._serialize['xml'] = _serialize_xml


if __name__ == "__main__":
    import sys

    text = """
    
    
    This is just some sample text.
    
    """

    e = etree.Element("data")
    cdata = CDATA(text)
    e.append(cdata)
    et = etree.ElementTree(e)
    et.write(sys.stdout.buffer.raw, "utf-8")


        
for python 2.7将编码arg添加到序列化签名.改变`DEF _serialize_xml(写,ELEM,的QName,命名空间):`到`DEF _serialize_xml(写,ELEM,编码,的QName,命名空间):`变化`写入,ELEM,的QName,命名空间)`到`写,ELEM,编码,的QName,命名空间)``变化et.write(sys.stdout.buffer.raw, "UTF-8")``到et.write(sys.stdout的, "UTF-8")` 

4> Kamil..：
我不知道先前版本的拟议代码是否运行良好以及ElementTree模块是否已更新但我遇到了使用此技巧的问题:

import xml.etree.ElementTree as ElementTree

def CDATA(text=None):
    element = ElementTree.Element('![CDATA[')
    element.text = text
    return element

ElementTree._original_serialize_xml = ElementTree._serialize_xml
def _serialize_xml(write, elem, qnames, namespaces,short_empty_elements, **kwargs):
    if elem.tag == '![CDATA[':
        write("\n<{}{}]]>\n".format(elem.tag, elem.text))
        if elem.tail:
            write(_escape_cdata(elem.tail))
    else:
        return ElementTree._original_serialize_xml(write, elem, qnames, namespaces,short_empty_elements, **kwargs)

ElementTree._serialize_xml = ElementTree._serialize['xml'] = _serialize_xml

if __name__ == "__main__":
    import sys

text = """


This is just some sample text.

"""

e = ElementTree.Element("data")
cdata = CDATA(text)
root.append(cdata)


这种方法的问题在于,在传递此异常之后,序列化程序再次将其视为普通标记.我得到的东西是这样的:

etree._original_serialize_xml = etree._serialize_xml
def _serialize_xml(write, elem, qnames, namespaces):
    if elem.tag == '![CDATA[':
        write("\n<%s%s]]>\n" % (
                elem.tag, elem.text))
        return
    return etree._original_serialize_xml(
        write, elem, qnames, namespaces)
etree._serialize_xml = etree._serialize['xml'] = _serialize_xml


当然,我们知道这只会导致很多错误.为什么会这样呢？

答案就在这个小家伙身上:



this was the code I wanted to put inside of CDATA



如果我们已经困住了我们的CDATA并成功通过了它,我们不想再通过原始的序列化函数来检查代码.因此,在"if"块中,只有当CDATA不存在时,我们才必须返回原始序列化函数.在返回原始函数之前,我们错过了"else".

而且在我的版本ElementTree模块中,serialize函数拼命地要求"short_empty_element"参数.所以我推荐的最新版本看起来像这样(也有"尾巴"):

return etree._original_serialize_xml(write, elem, qnames, namespaces)


我得到的输出是:

from xml.etree import ElementTree
from xml import etree

#in order to test it you have to create testing.xml file in the folder with the script
xmlParsedWithET = ElementTree.parse("testing.xml")
root = xmlParsedWithET.getroot()

def CDATA(text=None):
    element = ElementTree.Element('![CDATA[')
    element.text = text
    return element

ElementTree._original_serialize_xml = ElementTree._serialize_xml

def _serialize_xml(write, elem, qnames, namespaces,short_empty_elements, **kwargs):

    if elem.tag == '![CDATA[':
        write("\n<{}{}]]>\n".format(elem.tag, elem.text))
        if elem.tail:
            write(_escape_cdata(elem.tail))
    else:
        return ElementTree._original_serialize_xml(write, elem, qnames, namespaces,short_empty_elements, **kwargs)

ElementTree._serialize_xml = ElementTree._serialize['xml'] = _serialize_xml


text = """


This is just some sample text.

"""
e = ElementTree.Element("data")
cdata = CDATA(text)
root.append(cdata)

#tests
print(root)
print(root.getchildren()[0])
print(root.getchildren()[0].text + "\n\nyay!")


祝你有同样的结果!

        

5> Dan Lenski..：
这是不可能的AFAIK ...这是一个遗憾.基本上,ElementTree模块假定读者是100%XML兼容的,因此如果他们输出一个CDATA或其他生成等效文本的格式,则无关紧要.

有关详细信息,请参阅Python邮件列表中的此主题.基本上,他们建议使用某种基于DOM的XML库.

        
我不会称之为"遗憾".对于XML信息集(内容),""和"&"之间没有区别......大多数XML解析器甚至不会让您知道原始文档中的内容. 

6> 小智..：
实际上这段代码有一个错误,因为你没有]]>在你作为CDATA插入的数据中出现

按是否有一种方式来逃避XML中的CDATA结束令牌？

在这种情况下你应该把它分成两个CDATA,在]]>两者之间分开.

基本上data = data.replace("]]>", "]]]]>")

(不一定正确,请验证)



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        如何使用`gsub`替换具有相同字符串的多个子字符串
                    

                    
                                                
                        如何解决《如何使用`gsub`替换具有相同字符串的多个子字符串》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Visual Studio for ASP.NET 5项目是否需要.sln文件？它可以只使用Global.json吗？
                    

                    
                                                
                        如何解决《VisualStudioforASP.NET5项目是否需要.sln文件？它可以只使用Global.json吗？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在Python中有效地分割数据
                    

                    
                                                
                        如何解决《在Python中有效地分割数据》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        kubernetes本地集群创建pod有'ErrImagePull'和'ImagePullBackOff'之类的错误
                    

                    
                                                
                        如何解决《kubernetes本地集群创建pod有'ErrImagePull'和'ImagePullBackOff'之类的错误》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        按组计算摘要并将值返回到数据框中
                    

                    
                                                
                        如何解决《按组计算摘要并将值返回到数据框中》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        从Swift中的NSBundle获取文件路径
                    

                    
                                                
                        如何解决《从Swift中的NSBundle获取文件路径》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        我没有在sdk中获取'com.google.android.gms:play-services-wallet:8.4.0'更新Google Play服务
                    

                    
                                                
                        如何解决《我没有在sdk中获取'com.google.android.gms:play-services-wallet:8.4.0'更新GooglePlay服务》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        将Enum转换为TextBlock文本内的字符串
                    

                    
                                                
                        如何解决《将Enum转换为TextBlock文本内的字符串》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        有没有办法避免在Android中使用instanceOf？
                    

                    
                                                
                        如何解决《有没有办法避免在Android中使用instanceOf？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        将Typesafe配置类型转换为java.util.Properties
                    

                    
                                                
                        如何解决《将Typesafe配置类型转换为java.util.Properties》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在KDevelop进行多线编辑？
                    

                    
                                                
                            
                        
                                                
                        如何解决《在KDevelop进行多线编辑？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在Ubuntu 15.10中无法终止使用python创建的sudo进程
                    

                    
                                                
                        如何解决《在Ubuntu15.10中无法终止使用python创建的sudo进程》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在扇形图中R与其他包比fanplot
                    

                    
                                                
                        如何解决《在扇形图中R与其他包比fanplot》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在Smalltalk中,如果x是一个数组,并且x at:3 put:123将起作用,那么(x at:3)+ 1如何工作？
                    

                    
                                                
                        如何解决《在Smalltalk中,如果x是一个数组,并且xat:3put:123将起作用,那么(xat:3)+1如何工作？》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        str_replace"NA"出现意外行为
                    

                    
                                                
                        如何解决《str_replace"NA"出现意外行为》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        向活动添加按钮以打开浏览器URL
                    

                    
                                                
                        如何解决《向活动添加按钮以打开浏览器URL》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        CakePHP 3.1 patchEntity在清理时始终将belongsToMany关联标记为脏
                    

                    
                                                
                        如何解决《CakePHP3.1patchEntity在清理时始终将belongsToMany关联标记为脏》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        删除R中的反斜杠和引号
                    

                    
                                                
                        如何解决《删除R中的反斜杠和引号》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用SpreadsheetApp脚本重置范围颜色
                    

                    
                                                
                        如何解决《使用SpreadsheetApp脚本重置范围颜色》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        PostgreSQL子字符串在括号之间获取字符串
                    

                    
                                                
                        如何解决《PostgreSQL子字符串在括号之间获取字符串》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                虎仔球妈_459            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1在Python中有效地分割数据
                
                                
                    2kubernetes本地集群创建pod有'ErrImagePull'和'ImagePullBackOff'之类的错误
                
                                
                    3按组计算摘要并将值返回到数据框中
                
                                
                    4从Swift中的NSBundle获取文件路径
                
                                
                    5我没有在sdk中获取'com.google.android.gms:play-services-wallet:8.4.0'更新Google Play服务
                
                                
                    6将Enum转换为TextBlock文本内的字符串
                
                                
                    7有没有办法避免在Android中使用instanceOf？
                
                                
                    8将Typesafe配置类型转换为java.util.Properties
                
                                
                    9在KDevelop进行多线编辑？
                
                                
                    10在Ubuntu 15.10中无法终止使用python创建的sudo进程
                
                                
                    11在扇形图中R与其他包比fanplot
                
                                
                    12在Smalltalk中,如果x是一个数组,并且x at:3 put:123将起作用,那么(x at:3)+ 1如何工作？
                
                                
                    13str_replace"NA"出现意外行为
                
                                
                    14向活动添加按钮以打开浏览器URL
                
                                
                    15CakePHP 3.1 patchEntity在清理时始终将belongsToMany关联标记为脏
                
                                
                    16删除R中的反斜杠和引号
                
                                
                    17使用SpreadsheetApp脚本重置范围颜色
                
                                
                    18PostgreSQL子字符串在括号之间获取字符串
                
                                
                    19当使用::？指定模块时,为什么Ruby不能在更高的范围内查找类？
                
                                
                    20Sublime Text 3:将文本写入输出面板