并发下载 - Python

作者：mylvfamily | 2023-08-07 20:42

如何解决《并发下载-Python》经验，为你挑选了2个好方法。

计划是这样的:

我下载一个网页,收集在DOM中解析的图像列表,然后下载这些图像.在此之后,我将遍历图像,以评估哪个图像最适合代表网页.

问题是图像是逐个下载的,这可能需要相当长的时间.

如果有人能指出我关于这个话题的某个方向,那将是很棒的.

非常感谢帮助.

1> rdw..：

加速爬行基本上是Eventlet的主要用例.它的速度非常快 - 我们的应用程序必须在几分钟内达到2,000,000个网址.它利用系统上最快的事件接口(通常是epoll),并使用greenthreads(它们建立在协同程序之上并且非常便宜)以便于编写.

以下是文档中的示例:

urls = ["http://www.google.com/intl/en_ALL/images/logo.gif",
     "https://wiki.secondlife.com/w/images/secondlife.jpg",
     "http://us.i1.yimg.com/us.yimg.com/i/ww/beta/y3.gif"]

import eventlet
from eventlet.green import urllib2  

def fetch(url):
  body = urllib2.urlopen(url).read()
  return url, body

pool = eventlet.GreenPool()
for url, body in pool.imap(fetch, urls):
  print "got body from", url, "of length", len(body)

这是开发功能更全面的爬虫的一个很好的起点.随意进入Freenode的#eventlet寻求帮助.

[更新:我在文档中添加了一个更复杂的递归网络爬虫示例.我发誓这是在提出这个问题之前的工作,但这个问题最终激励我完成它.:)]

2> Alex Martell..：

虽然线程肯定是可能的,但我建议asyncore- 这里有一个很好的例子,它显示了两个URL的同时提取(很容易推广到任何URL列表!).

推荐阅读

程序员
JavaScript中的IndexOf方法比遍历数组更有效吗？

如何解决《JavaScript中的IndexOf方法比遍历数组更有效吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
"apktool:命令未找到"错误

如何解决《"apktool:命令未找到"错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
Julia - 访问for循环中的两个元素

如何解决《Julia-访问for循环中的两个元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从属性文件的服务器路径获取URL位置

如何解决《如何从属性文件的服务器路径获取URL位置》经验，为你挑选了0个好方法。 ... [详细]
程序员
NSDateFormatter显示不正确的分钟值

如何解决《NSDateFormatter显示不正确的分钟值》经验，为你挑选了1个好方法。 ... [详细]
程序员
Inno Setup:如何操作Run部分的进度条？

如何解决《InnoSetup:如何操作Run部分的进度条？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用ReactiveUI和Windows窗体绑定到ComboBox

如何解决《使用ReactiveUI和Windows窗体绑定到ComboBox》经验，为你挑选了0个好方法。 ... [详细]
程序员
SQL Query显示工单的顺序

如何解决《SQLQuery显示工单的顺序》经验，为你挑选了0个好方法。 ... [详细]
程序员
图像使用Glide和SimpleTarget随机加载到视图寻呼机中

如何解决《图像使用Glide和SimpleTarget随机加载到视图寻呼机中》经验，为你挑选了1个好方法。 ... [详细]
程序员
summernote中的font-family选项不起作用

如何解决《summernote中的font-family选项不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
注入错误:无法解析所有参数

如何解决《注入错误:无法解析所有参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
知道它是Id,从js数组中删除对象

如何解决《知道它是Id,从js数组中删除对象》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用ODP.NET,从Oracle DB表的列信息创建C#类/结构

如何解决《使用ODP.NET,从OracleDB表的列信息创建C#类/结构》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在android项目属性中启用调试(Xamarin Android)

如何解决《如何在android项目属性中启用调试(XamarinAndroid)》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何将.vue文件中的所有CSS代码放入一个.css文件中？

如何解决《如何将.vue文件中的所有CSS代码放入一个.css文件中？》经验，为你挑选了0个好方法。 ... [详细]
程序员
"Service MeasurementBrokerService正在使用中"正在我的申请流程中显示

如何解决《"ServiceMeasurementBrokerService正在使用中"正在我的申请流程中显示》经验，为你挑选了0个好方法。 ... [详细]
程序员
继续对新线路进行方法签名的公约

如何解决《继续对新线路进行方法签名的公约》经验，为你挑选了1个好方法。 ... [详细]
程序员
D:用逗号分隔字符串,但不引用字符串

如何解决《D:用逗号分隔字符串,但不引用字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android Studio:如何删除/过滤构建变体以进行默认调试和发布buildTypes,并仅保留使用自定义buildTypes的变体？

如何解决《AndroidStudio:如何删除/过滤构建变体以进行默认调试和发布buildTypes,并仅保留使用自定义buildTypes的变体？》经验，为你挑选了1个好方法。 ... [详细]
程序员
编程语言可以是客户端还是服务器端？

如何解决《编程语言可以是客户端还是服务器端？》经验，为你挑选了1个好方法。 ... [详细]

mylvfamily

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章