当前位置:  开发笔记 > 编程语言 > 正文

Python中的多线程爬虫是否真的加快了速度?

如何解决《Python中的多线程爬虫是否真的加快了速度?》经验,为你挑选了2个好方法。

期待在python中编写一个小的web爬虫.我开始研究将其编写为多线程脚本,一个线程下载池和一个池处理结果.由于GIL它实际上会同时下载吗?GIL如何影响网络爬虫?每个线程都会从套接字中选择一些数据,然后转到下一个线程,让它从套接字中选择一些数据等等.

基本上我要问的是在python中做一个多线程爬虫真的会给我带来很多性能vs单线程?

谢谢!



1> Greg Hewgill..:

执行网络操作时,Python解释器不会保留GIL.如果您正在进行网络绑定的工作(如爬虫),则可以安全地忽略GIL的影响.

另一方面,如果您创建了许多正在处理的线程(下载后),您可能需要测量性能.限制线程数将减少GIL对您的性能的影响.



2> nosklo..:

看看scrapy的工作原理.它可以帮到你很多.它不使用线程,但可以在同一个线程中进行多个"同时"下载.

如果你考虑一下,你只有一个网卡,所以并行处理无法真正帮助定义.

scrapy所做的只是在发送另一个请求之前不等待一个请求的响应.全部在一个线程中.

推荐阅读
凹凸曼00威威_694
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有