我想知道如何开始基于Scrapy的爬虫.我通过apt-get install安装了该工具,并尝试运行一个示例:
/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy list directory.google.com /usr/share/doc/scrapy/examples/googledir/googledir$ scrapy crawl
我从spiders/google_directory.py中破解了代码,但它似乎没有被执行,因为我没有看到我插入的任何打印件.我阅读了他们的文档,但我发现没有任何相关内容; 你有什么想法?
此外,如果您认为对于抓取网站我应该使用其他工具,请告诉我.我对Python工具没有经验,Python是必须的.
谢谢!
EveryBlock.com 使用lxml,urllib2和Django作为堆栈发布了一些高质量的抓取代码.
Scraperwiki.com充满灵感,充满了python刮刀的例子.
cssselect的简单示例:
from lxml.html import fromstring dom = fromstring('
2> Pablo Hoffma..:您在crawl命令中错过了蜘蛛名称.使用:
$ scrapy crawl directory.google.com此外,我建议您将示例项目复制到您的家中,而不是在
/usr/share/doc/scrapy/examples/
目录中工作,因此您可以修改它并使用它:$ cp -r /usr/share/doc/scrapy/examples/googledir ~ $ cd ~/googledir $ scrapy crawl directory.google.com