2赞

Python+MongoDB爬虫程序开发

作者：周扒pi | 2021-08-10 17:50

工具准备及爬虫搭建Scrapy(python写成的爬虫框架)在前一篇Scrapy爬虫入门里有写到Scrapy的安装和基本使用，他的特点是每个不同的page都自己定制一个不同的Spider，通过scrapycrawlspidername-ofile-tjson的方法运行爬虫程序并且以json形式保存到

工具准备及爬虫搭建 Scrapy(python写成的爬虫框架)

在前一篇 Scrapy爬虫入门里有写到Scrapy的安装和基本使用，他的特点是每个不同的page都自己定制一个不同的Spider，通过

scrapy crawl spidername -o file -t json

的方法运行爬虫程序并且以json形式保存到目标文件里（当然后面 -o -t 两项可以省略）。而且python代码很少，实现很方便。简单看下python的语法就可以轻松上手。

顺便以Java开发者和python小白用户的角度阐述下我对python语法的总结：

句末不带分号

if，while，for不带大括号

变量不用声明，比js声明还简单

三个主要数据结果：字典，列表，元组

没有好的IDE，全靠自己声明：包的导入要自己声明，异常要自己声明

代码短小，给我很强烈的空虚感

MongoDB(带上pymongo和mongo-java-driver)

很早以前就想实践下MongoDB，早早的看过《MongoDB权威指南》，却一直没有机会实战，亏得毕设可以让我有了需求驱动。因为MongoDB以BSON的形式存储对象，所以我觉得蛮适合存储Scrapy的json爬取结果，由pymongo进行交互。爬取到的数据后期会交由solr搭建搜索服务，所以也装上了java的driver看看读取结果。

java-driver的简单操作

pymongo的简单操作

数据尝试

以CSDN博客里的数据练手，爬取CSDN各博客内的博文内容数据。先爬取热门文章页面上的一些博主名字和url：

{
    'username' : 'xxx',
    'url' : 'http://blog.csdn.net/xxx/article/list/n'
}
然后爬取该博主所有的文章url链接，再爬取每份url链接里的内容，存到MongoDB里：
{
    'user' : 'xxx',
    'title' : 'xxxxx',
    'tag' : ['xx', 'xx', 'xx'],
    'content' : 'xxxxxxxxxxxxxxxxxxxxxxxx'
}
总结

有一些技术是由需求驱动才去尝试学习；有一些问题只要具备一定的执行力就能发现。

MongoDB读取性能如何？他的自动分片怎么得以体现？自带的js版mapreduce如何利用？

如何将Scrapy做成一种服务？python语言的各种实践？

今后的数据会设计论文，个人主页，这里的CSDN博客数据只是整条道路的铺垫。不过对整个学习和探索过程我还是充满期待，哈哈。

推荐阅读

程序员
我可以使Realm Results类使用协议作为泛型吗？

如何解决《我可以使RealmResults类使用协议作为泛型吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在具有隐式参数的函数上调用Private

如何解决《如何在具有隐式参数的函数上调用Private》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么可以使std :: map找不到它的一个键？

如何解决《什么可以使std::map找不到它的一个键？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Linq加入查询错误

如何解决《Linq加入查询错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将预先填充的文本消息发送给特定(预期)Whats-App用户/用户？

如何解决《如何将预先填充的文本消息发送给特定(预期)Whats-App用户/用户？》经验，为你挑选了0个好方法。 ... [详细]
程序员
学习Netsuite

如何解决《学习Netsuite》经验，为你挑选了1个好方法。 ... [详细]
程序员
包括头文件进行分析之后，请告诉我有关cppcheck的用途或工作方式

如何解决《包括头文件进行分析之后，请告诉我有关cppcheck的用途或工作方式》经验，为你挑选了1个好方法。 ... [详细]
程序员
JDBC是否在将日期插入Oracle DB之前调整日期？我该如何防止这种情况？

如何解决《JDBC是否在将日期插入OracleDB之前调整日期？我该如何防止这种情况？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在类"对象"中定义的==运算符在哪里？

如何解决《在类"对象"中定义的==运算符在哪里？》经验，为你挑选了2个好方法。 ... [详细]
程序员
有没有办法在babelify中关闭"超级之前不允许这样的规则"？

如何解决《有没有办法在babelify中关闭"超级之前不允许这样的规则"？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Bootstrap 3无法在Symfony3中运行

如何解决《Bootstrap3无法在Symfony3中运行》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Javascript下载HTML5 mp4视频

如何解决《使用Javascript下载HTML5mp4视频》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在android中的数组列表中获取特定值的索引

如何解决《如何在android中的数组列表中获取特定值的索引》经验，为你挑选了1个好方法。 ... [详细]
程序员
在带有colspan和rowspan的表中重复

如何解决《在带有colspan和rowspan的表中重复》经验，为你挑选了1个好方法。 ... [详细]
程序员
安装perl模块和复制整个文件夹有什么区别？

如何解决《安装perl模块和复制整个文件夹有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
@Bean和@Autowired之间的区别

如何解决《@Bean和@Autowired之间的区别》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何将UTF-8数据与Latin1 MySQL数据库表中保存的相同数据进行比较

如何解决《如何将UTF-8数据与Latin1MySQL数据库表中保存的相同数据进行比较》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django/WSGI应用程序中的持久数据库连接

如何解决《Django/WSGI应用程序中的持久数据库连接》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么Stream.limit在此代码段中没有按预期工作？

如何解决《为什么Stream.limit在此代码段中没有按预期工作？》经验，为你挑选了4个好方法。 ... [详细]
程序员
Python：如何获取用MySQLdb删除的行数

如何解决《Python：如何获取用MySQLdb删除的行数》经验，为你挑选了1个好方法。 ... [详细]

周扒pi

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章