当前位置:  开发笔记 > 编程语言 > 正文

如何使用Scrapy

如何解决《如何使用Scrapy》经验,为你挑选了2个好方法。

我想知道如何开始基于Scrapy的爬虫.我通过apt-get install安装了该工具,并尝试运行一个示例:

/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy list
directory.google.com

/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy crawl

我从spiders/google_directory.py中破解了代码,但它似乎没有被执行,因为我没有看到我插入的任何打印件.我阅读了他们的文档,但我发现没有任何相关内容; 你有什么想法?

此外,如果您认为对于抓取网站我应该使用其他工具,请告诉我.我对Python工具没有经验,Python是必须的.

谢谢!



1> line break..:

EveryBlock.com 使用lxml,urllib2和Django作为堆栈发布了一些高质量的抓取代码.

Scraperwiki.com充满灵感,充满了python刮刀的例子.

cssselect的简单示例:

from lxml.html import fromstring

dom = fromstring('



2> Pablo Hoffma..:

您在crawl命令中错过了蜘蛛名称.使用:

$ scrapy crawl directory.google.com

此外,我建议您将示例项目复制到您的家中,而不是在/usr/share/doc/scrapy/examples/目录中工作,因此您可以修改它并使用它:

$ cp -r /usr/share/doc/scrapy/examples/googledir ~
$ cd ~/googledir
$ scrapy crawl directory.google.com

推荐阅读
Gbom2402851125
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有