在Python中进行Web爬网的最佳预构建库是什么？

作者：罗文彬2502852027 | 2023-09-01 11:57

如何解决《在Python中进行Web爬网的最佳预构建库是什么？》经验，为你挑选了1个好方法。

我需要在本地抓取并存储以供将来分析有限的网站列表的内容.我基本上想要在所有页面中啜饮并按照所有内部链接来获取整个公开的网站.

是否有现有的免费图书馆让我在那里？我见过奇尔卡特,但这是为了报酬.我只是在这里寻找基线功能.思考？建议？

完全重复:任何人都知道我可以使用的基于python的网络爬虫吗？

1> nosklo..：

使用Scrapy.

它是一个基于扭曲的Web爬虫框架.仍处于重大发展阶段,但已经有效.有很多好吃的东西:

内置支持解析HTML,XML,CSV和Javascript

用于使用图像(或任何其他媒体)抓取项目并同时下载图像文件的媒体管道

通过使用中间件,扩展和管道插入您自己的功能,支持扩展Scrapy

广泛的内置中间件和扩展,用于处理压缩,缓存,cookie,身份验证,用户代理欺骗,robots.txt处理,统计信息,爬网深度限制等

交互式刮擦shell控制台,对开发和调试非常有用

用于监视和控制机器人的Web管理控制台

Telnet控制台,用于对Scrapy进程进行低级访问

通过在返回的HTML上使用XPath选择器提取有关今天在mininova torrent网站中添加的所有torrent文件的信息的示例代码:

class Torrent(ScrapedItem):
    pass

class MininovaSpider(CrawlSpider):
    domain_name = 'mininova.org'
    start_urls = ['http://www.mininova.org/today']
    rules = [Rule(RegexLinkExtractor(allow=['/tor/\d+']), 'parse_torrent')]

    def parse_torrent(self, response):
        x = HtmlXPathSelector(response)
        torrent = Torrent()

        torrent.url = response.url
        torrent.name = x.x("//h1/text()").extract()
        torrent.description = x.x("//div[@id='description']").extract()
        torrent.size = x.x("//div[@id='info-left']/p[2]/text()[2]").extract()
        return [torrent]

推荐阅读

程序员
对于循环数组不会返回正确的结果

如何解决《对于循环数组不会返回正确的结果》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用powershell downloadstring忽略SSL警告

如何解决《使用powershelldownloadstring忽略SSL警告》经验，为你挑选了1个好方法。 ... [详细]
程序员
elasticsearch查询字符串不要按字部分搜索

如何解决《elasticsearch查询字符串不要按字部分搜索》经验，为你挑选了1个好方法。 ... [详细]
程序员
每次与存储库同步后,IntelliJ都会继续询问"Setup Scala SDK"

如何解决《每次与存储库同步后,IntelliJ都会继续询问"SetupScalaSDK"》经验，为你挑选了0个好方法。 ... [详细]
程序员
Android中Abstract类的最佳示例

如何解决《Android中Abstract类的最佳示例》经验，为你挑选了3个好方法。 ... [详细]
程序员
Android TextInputLayout未显示错误

如何解决《AndroidTextInputLayout未显示错误》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用HTML/CSS调整动画GIF的大小？

如何解决《如何使用HTML/CSS调整动画GIF的大小？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在<angular2 beta 0 app中生成的<undefined> html标记

如何解决《在<angular2beta0app中生成的<undefined>html标记》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么不应在Symfony中使用绝对路径常量__DIR__和__FILE__

如何解决《为什么不应在Symfony中使用绝对路径常量__DIR__和__FILE__》经验，为你挑选了2个好方法。 ... [详细]
程序员
两个256位整数的按位xor

如何解决《两个256位整数的按位xor》经验，为你挑选了1个好方法。 ... [详细]
程序员
typedef持续多长时间？

如何解决《typedef持续多长时间？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Angular重定向到登录页面

如何解决《Angular重定向到登录页面》经验，为你挑选了4个好方法。 ... [详细]
程序员
扩展两个方向的范围

如何解决《扩展两个方向的范围》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用pthread_create创建的线程的输出未打印

如何解决《使用pthread_create创建的线程的输出未打印》经验，为你挑选了1个好方法。 ... [详细]
程序员
Emacs + Magit-垂直怪

如何解决《Emacs+Magit-垂直怪》经验，为你挑选了0个好方法。 ... [详细]
程序员
在循环中执行网络呼叫后,同一项目被删除两次

如何解决《在循环中执行网络呼叫后,同一项目被删除两次》经验，为你挑选了0个好方法。 ... [详细]
程序员
将RSS pubdate解析为DateTime

如何解决《将RSSpubdate解析为DateTime》经验，为你挑选了1个好方法。 ... [详细]
程序员
MVVM在点击时更改网格的背景颜色

如何解决《MVVM在点击时更改网格的背景颜色》经验，为你挑选了0个好方法。 ... [详细]
程序员
将Android库(aar)发布到Bintray,并选择其他风味

如何解决《将Android库(aar)发布到Bintray,并选择其他风味》经验，为你挑选了2个好方法。 ... [详细]
程序员
从项目单击打开片段

如何解决《从项目单击打开片段》经验，为你挑选了1个好方法。 ... [详细]

罗文彬2502852027

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章