5赞

如何使用Scrapy

作者：Gbom2402851125 | 2023-06-29 14:19

如何解决《如何使用Scrapy》经验，为你挑选了2个好方法。

我想知道如何开始基于Scrapy的爬虫.我通过apt-get install安装了该工具,并尝试运行一个示例:

/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy list
directory.google.com

/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy crawl

我从spiders/google_directory.py中破解了代码,但它似乎没有被执行,因为我没有看到我插入的任何打印件.我阅读了他们的文档,但我发现没有任何相关内容; 你有什么想法？

此外,如果您认为对于抓取网站我应该使用其他工具,请告诉我.我对Python工具没有经验,Python是必须的.

谢谢!

1> line break..：

EveryBlock.com 使用lxml,urllib2和Django作为堆栈发布了一些高质量的抓取代码.

Scraperwiki.com充满灵感,充满了python刮刀的例子.

cssselect的简单示例:

from lxml.html import fromstring

dom = fromstring('
        

2> Pablo Hoffma..：
您在crawl命令中错过了蜘蛛名称.使用:

$ scrapy crawl directory.google.com


此外,我建议您将示例项目复制到您的家中,而不是在/usr/share/doc/scrapy/examples/目录中工作,因此您可以修改它并使用它:

$ cp -r /usr/share/doc/scrapy/examples/googledir ~
$ cd ~/googledir
$ scrapy crawl directory.google.com

推荐阅读

程序员
我应该在混合的Objective-C/Swift项目中使用Realm Objective-C或Realm Swift吗？

如何解决《我应该在混合的Objective-C/Swift项目中使用RealmObjective-C或RealmSwift吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
运行gulp app时无法找到模块'require-dir'错误:serve rails

如何解决《运行gulpapp时无法找到模块'require-dir'错误:serverails》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用sql语法(没有PHP)在mysql表中插入blob中的图像？

如何解决《如何使用sql语法(没有PHP)在mysql表中插入blob中的图像？》经验，为你挑选了1个好方法。 ... [详细]
程序员
错误:初始化程序只能在类型中声明

如何解决《错误:初始化程序只能在类型中声明》经验，为你挑选了1个好方法。 ... [详细]
程序员
删除邮递员缓存

如何解决《删除邮递员缓存》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Github上创建一个库,并通过Android Studio中的gradle依赖项使用它

如何解决《如何在Github上创建一个库,并通过AndroidStudio中的gradle依赖项使用它》经验，为你挑选了2个好方法。 ... [详细]
程序员
在KDB +希望之后你不做一个hclose会发生什么

如何解决《在KDB+希望之后你不做一个hclose会发生什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用c#在折线图中显示标记点

如何解决《如何使用c#在折线图中显示标记点》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在YAML文件中为简单的POJO定义地图？

如何解决《如何在YAML文件中为简单的POJO定义地图？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何通过命令行获取32位十六进制数字的随机字符串？

如何解决《如何通过命令行获取32位十六进制数字的随机字符串？》经验，为你挑选了4个好方法。 ... [详细]
程序员
获取rails中每个不同记录的所有列

如何解决《获取rails中每个不同记录的所有列》经验，为你挑选了1个好方法。 ... [详细]
程序员
android:从片段打开chrome自定义选项卡

如何解决《android:从片段打开chrome自定义选项卡》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Reactjs条带自定义表单

如何解决《使用Reactjs条带自定义表单》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何获取最外面的父UIView容器？

如何解决《如何获取最外面的父UIView容器？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Node/Multer获取文件名

如何解决《Node/Multer获取文件名》经验，为你挑选了3个好方法。 ... [详细]
程序员
Perl:Foreach循环

如何解决《Perl:Foreach循环》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用jQuery/Javascript放置占位符

如何解决《使用jQuery/Javascript放置占位符》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么循环中的任务工厂打印超出循环索引？

如何解决《为什么循环中的任务工厂打印超出循环索引？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何保护领域中的重复记录插入

如何解决《如何保护领域中的重复记录插入》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用electron和Systemjs导入节点模块

如何解决《使用electron和Systemjs导入节点模块》经验，为你挑选了0个好方法。 ... [详细]

Gbom2402851125

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章