1赞

禁用特殊的"类"属性处理

作者：360691894_8a5c48 | 2023-09-10 10:08

如何解决《禁用特殊的"类"属性处理》经验，为你挑选了1个好方法。

故事:

解析HTML时BeautifulSoup,class属性被视为多值属性,并以特殊方式处理:

请记住,单个标记的"class"属性可以有多个值.当您搜索与某个CSS类匹配的标记时,您将匹配其任何CSS类.

此外,作为其他树构建器类的基础HTMLTreeBuilder使用的内置引用BeautifulSoup,例如,HTMLParserTreeBuilder:

# The HTML standard defines these attributes as containing a
# space-separated list of values, not a single value. That is,
# class="foo bar" means that the 'class' attribute has two values,
# 'foo' and 'bar', not the single value 'foo bar'.  When we
# encounter one of these attributes, we will parse its value into
# a list of values if possible. Upon output, the list will be
# converted back into a string.

问题:

如何配置BeautifulSoup为处理class通常的单值属性？换句话说,我不希望它class专门处理并将其视为常规属性.

仅供参考,这是其中一个有用的用例:

在按复合类名称搜索时,BeautifulSoup返回空列表

我尝试过的:

我实际上是通过创建自定义树构建器类并class从特殊处理的属性列表中删除它来实现的:

from bs4.builder._htmlparser import HTMLParserTreeBuilder

class MyBuilder(HTMLParserTreeBuilder):
    def __init__(self):
        super(MyBuilder, self).__init__()

        # BeautifulSoup, please don't treat "class" specially
        self.cdata_list_attributes["*"].remove("class")


soup = BeautifulSoup(data, "html.parser", builder=MyBuilder())

在这种方法中我不喜欢的是它非常"不自然"和"神奇"涉及导入"私人"内部_htmlparser.我希望有一种更简单的方法.

^{注意:我想保存所有其他HTML解析相关的功能,这意味着我不想解析HTML"xml" - 只有功能(这可能是另一种解决方法).}

1> dnozay..：

在这种方法中我不喜欢的是它非常"不自然"和"神奇"涉及导入"私人"内部_htmlparser.我希望有一种更简单的方法.

是的,您可以从中导入它bs4.builder:

from bs4 import BeautifulSoup
from bs4.builder import HTMLParserTreeBuilder

class MyBuilder(HTMLParserTreeBuilder):
    def __init__(self):
        super(MyBuilder, self).__init__()
        # BeautifulSoup, please don't treat "class" as a list
        self.cdata_list_attributes["*"].remove("class")


soup = BeautifulSoup(data, "html.parser", builder=MyBuilder())

如果您不想重复自己的重要性,请将构建器放在自己的模块中,并将其注册为register_treebuilders_from()优先级.

推荐阅读

程序员
Stanford NER Tagger在NLTK

如何解决《StanfordNERTagger在NLTK》经验，为你挑选了1个好方法。 ... [详细]
程序员
Phaser:如何在预加载后加载资产？

如何解决《Phaser:如何在预加载后加载资产？》经验，为你挑选了1个好方法。 ... [详细]
程序员
键入表示非空的字符串或F#中的空格

如何解决《键入表示非空的字符串或F#中的空格》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何正确使用dataLayer.push（）更新数组中嵌套对象的值？

如何解决《如何正确使用dataLayer.push（）更新数组中嵌套对象的值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法使用bootstrap-sass与webpack一起工作

如何解决《无法使用bootstrap-sass与webpack一起工作》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django上的用户角色架构

如何解决《Django上的用户角色架构》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Multibranch Workflow清理构建

如何解决《使用MultibranchWorkflow清理构建》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何告诉Gradle始终使用--console = plain？

如何解决《如何告诉Gradle始终使用--console=plain？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在C++ 11中使用shared_from_this()而不使用托管共享指针

如何解决《在C++11中使用shared_from_this()而不使用托管共享指针》经验，为你挑选了0个好方法。 ... [详细]
程序员
在git rebase期间找到分支名称

如何解决《在gitrebase期间找到分支名称》经验，为你挑选了0个好方法。 ... [详细]
程序员
从C++ std :: vector中的线程中启动可运行对象

如何解决《从C++std::vector中的线程中启动可运行对象》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android Studio更新破坏了我的模拟器

如何解决《AndroidStudio更新破坏了我的模拟器》经验，为你挑选了3个好方法。 ... [详细]
程序员
Scikit Learn Multilabel分类:ValueError:您似乎正在使用传统的多标签数据表示

如何解决《ScikitLearnMultilabel分类:ValueError:您似乎正在使用传统的多标签数据表示》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法在AsyncTask中访问"findViewById"

如何解决《无法在AsyncTask中访问"findViewById"》经验，为你挑选了1个好方法。 ... [详细]
程序员
Haskell从文件中读取一个Map

如何解决《Haskell从文件中读取一个Map》经验，为你挑选了1个好方法。 ... [详细]
程序员
Webpack手表没有在Windows上使用Webstorm？

如何解决《Webpack手表没有在Windows上使用Webstorm？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Kafka Producer 0.9性能问题与小消息

如何解决《KafkaProducer0.9性能问题与小消息》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Google Maps Api V2 Android上组合,合并或加入圈子

如何解决《如何在GoogleMapsApiV2Android上组合,合并或加入圈子》经验，为你挑选了0个好方法。 ... [详细]
程序员
从每个案例的创建时间开始计算开放案例的更有效方法

如何解决《从每个案例的创建时间开始计算开放案例的更有效方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
moment.js:如何获得短日期格式？

如何解决《moment.js:如何获得短日期格式？》经验，为你挑选了0个好方法。 ... [详细]

360691894_8a5c48

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章