2赞

使用Python进行Web抓取

作者：mobiledu2402851377 | 2023-08-07 14:34

如何解决《使用Python进行Web抓取》经验，为你挑选了1个好方法。

我目前正试图抓取一个格式相当差的HTML网站(通常缺少结束标签,不使用类或ID,所以直接找到你想要的元素非常困难等等).到目前为止,我一直在使用BeautifulSoup取得了一些成功,但每隔一段时间(尽管很少),我会遇到一个页面,其中BeautifulSoup创建的HTML树与(例如)Firefox或Webkit略有不同.虽然这是可以理解的,因为HTML的格式化使这种模糊,如果我能够获得与Firefox或Webkit产生相同的解析树,我将能够更容易地解析事物.问题通常是网站打开标签两次,当BeautifulSoup看到第二个标签时,它会立即关闭第一个标签,而Firefox和Webkit嵌套标签.

是否存在用于Python(甚至任何其他语言(我正在变得绝望))的Web抓取库,它可以重现由Firefox或WebKit生成的解析树(或者在模糊的情况下至少比BeautifulSoup更接近).

1> jfs..：
用BeautifulSoup一棵树建设者html5lib:

from html5lib import HTMLParser, treebuilders parser = HTMLParser(tree=treebuilders.getTreeBuilder("beautifulsoup")) text = "abc" soup = parser.parse(text) print soup.prettify()

输出:

a b c

推荐阅读

程序员
使用Symfony 2.8生成表单会抛出Twig_Error_Runtime

如何解决《使用Symfony2.8生成表单会抛出Twig_Error_Runtime》经验，为你挑选了2个好方法。 ... [详细]

程序员
我应该用setter创建一个构造函数

如何解决《我应该用setter创建一个构造函数》经验，为你挑选了2个好方法。 ... [详细]

程序员
在Tcl中使用名称模式的tar不起作用

如何解决《在Tcl中使用名称模式的tar不起作用》经验，为你挑选了1个好方法。 ... [详细]

程序员
问:保存Qt-creator应用程序的SQLite数据库的最佳"路径"在哪里？

如何解决《问:保存Qt-creator应用程序的SQLite数据库的最佳"路径"在哪里？》经验，为你挑选了1个好方法。 ... [详细]

程序员
Nullable初始化为null - 理解源代码

如何解决《Nullable初始化为null-理解源代码》经验，为你挑选了1个好方法。 ... [详细]

程序员
什么是CocoaPods"(未使用)"

如何解决《什么是CocoaPods"(未使用)"》经验，为你挑选了0个好方法。 ... [详细]

程序员
如何在BitBucket上创建文件夹？

如何解决《如何在BitBucket上创建文件夹？》经验，为你挑选了2个好方法。 ... [详细]

程序员
限制Log4J中的消息长度

如何解决《限制Log4J中的消息长度》经验，为你挑选了1个好方法。 ... [详细]

程序员
工作日的对象如星期日,星期一,......,星期六

如何解决《工作日的对象如星期日,星期一,,星期六》经验，为你挑选了1个好方法。 ... [详细]

程序员
在javascript中具有特定形状的词云

如何解决《在javascript中具有特定形状的词云》经验，为你挑选了0个好方法。 ... [详细]

程序员
禁用Flask中的缓存

如何解决《禁用Flask中的缓存》经验，为你挑选了2个好方法。 ... [详细]

程序员
C++如何从std :: string中删除\ 0 char

如何解决《C++如何从std::string中删除\0char》经验，为你挑选了1个好方法。 ... [详细]

程序员
错误R10(引导超时) - > Web进程在启动后60秒内无法绑定到$ PORT - Heroku

如何解决《错误R10(引导超时)->Web进程在启动后60秒内无法绑定到$PORT-Heroku》经验，为你挑选了2个好方法。 ... [详细]

程序员
从数组列表中删除元素并在java中更新选项卡大小

如何解决《从数组列表中删除元素并在java中更新选项卡大小》经验，为你挑选了1个好方法。 ... [详细]

程序员
使用int而不是size_t索引来访问向量元素的性能降低了吗？

如何解决《使用int而不是size_t索引来访问向量元素的性能降低了吗？》经验，为你挑选了1个好方法。 ... [详细]

程序员
如何使用Angular Material Design创建黑白主题？

如何解决《如何使用AngularMaterialDesign创建黑白主题？》经验，为你挑选了1个好方法。 ... [详细]

程序员
Pycharm警告:必须实现所有抽象方法

如何解决《Pycharm警告:必须实现所有抽象方法》经验，为你挑选了1个好方法。 ... [详细]

程序员
汉堡应该列入名单吗？

如何解决《汉堡应该列入名单吗？》经验，为你挑选了1个好方法。 ... [详细]

程序员
在Android上验证数字签名

如何解决《在Android上验证数字签名》经验，为你挑选了1个好方法。 ... [详细]

程序员
hybris populators and converter概念及其关系

如何解决《hybrispopulatorsandconverter概念及其关系》经验，为你挑选了1个好方法。 ... [详细]

吐了个 "CAO" !

吐个槽吧,看都看了

会员登录 | 用户注册

mobiledu2402851377

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

actionscrip

bash

c#

c++

c语言

erlang

flutter

go

golang

java

javascript

lua

node.js

perl

php

python

scala

typescript

RankList | 热门文章

1关键字'PROCEDURE'附近的语法不正确

2在Android上玩HLS(比较替代方案)

3如何从数据帧的单元格中获取值？

4SVG <defs>生成空格

5静态与实例方法的使用

6有没有办法在不将整个内容加载到数组中的情况下搜索文件？

7如何将透明PNG图像与颜色合并

8从WooCommerce中删除支付网关

9net beans 7.3中没有Web应用程序选项

10使用带有*char的strcmp进行Seg Fault

11德尔福更换一条线

12如何在运行时检测某些编译器选项(如断言)是否设置为ON？

13如何获取Grails HeaderParam属性

14在Microsoft Visual C++(而不是托管代码)中如何将PNG打印到打印机？

15如何从ffmpeg中打开的文件中获取流信息？

16是否有可能有多个例外的Try/Catch Throw

17对于rdfs:range,将xsd:string限制为[AZ]

18为什么我的模板功能在此调用中不是有效匹配？

19无法在印地文发送短信

20具有ng-repeat的AngularJS隔离指令打破了转换范围