13赞

Python大批量搜索引擎图像爬虫工具详解

作者：U友50081205_653 | 2022-01-26 01:07

这篇文章主要介绍了Python大批量搜索引擎图像爬虫工具,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下

python图像爬虫包

最近在做一些图像分类的任务时，为了扩充我们的数据集，需要在搜索引擎下爬取额外的图片来扩充我们的训练集。搞人工智能真的是太难了😭，居然还要会爬虫。当然网上也有许多python写的爬虫工具，当然，用多了就知道，这些爬虫工具不是不能进行多关键字的爬虫就是用不了，或者是一会就被网站检测到给停止了，最后发现了一款非常好用的python图像爬虫库icrawler，直接就能通过pip进行安装，使用时几行代码就能搞定，简直不要太爽。
话不多说，附上安装命令：

pip install icrawler

下面附上我爬虫的代码：

from icrawler.builtin import BaiduImageCrawler 
from icrawler.builtin import BingImageCrawler 
from icrawler.builtin import GoogleImageCrawler 
#需要爬虫的关键字
list_word = ['抽烟 行人','吸烟 行人','接电话 行人','打电话 行人', '玩手机 行人']
for word in list_word:
  #bing爬虫
  #保存路径
  bing_storage = {'root_dir': 'bing\\'+word}
  #从上到下依次是解析器线程数，下载线程数，还有上面设置的保存路径
  bing_crawler = BingImageCrawler(parser_threads=2,
                  downloader_threads=4,
                  storage=bing_storage)
  #开始爬虫，关键字+图片数量
  bing_crawler.crawl(keyword=word,
            max_num=2000)

  #百度爬虫
  # baidu_storage = {'root_dir': 'baidu\\' + word}
  # baidu_crawler = BaiduImageCrawler(parser_threads=2,
  #                  downloader_threads=4,
  #                  storage=baidu_storage)
  # baidu_crawler.crawl(keyword=word,
  #           max_num=2000)


  # google爬虫
  # google_storage = {'root_dir': '‘google\\' + word}
  # google_crawler = GoogleImageCrawler(parser_threads=4,
  #                  downloader_threads=4,
  #                  storage=google_storage)
  # google_crawler.crawl(keyword=word,
  #           max_num=2000)

这个爬虫库能够实现多线程，多搜索引擎（百度、必应、谷歌）的爬虫，当然谷歌爬虫需要梯子。这里展示的是基于必应的爬虫，百度和谷歌的代码也在下面，只不过被我屏蔽掉了，当然也可以三个同时全开！这样的python爬虫库用起来简直不要太爽。

到此这篇关于Python大批量搜索引擎图像爬虫工具的文章就介绍到这了,更多相关Python搜索引擎图像爬虫内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

程序员
Xamarin表单ListView CachingStrategy

如何解决《Xamarin表单ListViewCachingStrategy》经验，为你挑选了0个好方法。 ... [详细]
程序员
indexOf显然不应该返回-1

如何解决《indexOf显然不应该返回-1》经验，为你挑选了1个好方法。 ... [详细]
程序员
OSError:[Errno 107]传输端点未连接

如何解决《OSError:[Errno107]传输端点未连接》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使toctree链接引用单独的文件,就像它引用的小节一样

如何解决《如何使toctree链接引用单独的文件,就像它引用的小节一样》经验，为你挑选了1个好方法。 ... [详细]
程序员
pyodbc无法连接到数据库

如何解决《pyodbc无法连接到数据库》经验，为你挑选了1个好方法。 ... [详细]
程序员
最后,除了在python中加注之外,重新发现异常

如何解决《最后,除了在python中加注之外,重新发现异常》经验，为你挑选了1个好方法。 ... [详细]
程序员
删除迁移和makemigrations后的django.db.utils.OperationalError

如何解决《删除迁移和makemigrations后的django.db.utils.OperationalError》经验，为你挑选了1个好方法。 ... [详细]
程序员
片段重用

如何解决《片段重用》经验，为你挑选了1个好方法。 ... [详细]
程序员
评估c中if语句中的表达式

如何解决《评估c中if语句中的表达式》经验，为你挑选了1个好方法。 ... [详细]
程序员
Flask API突然没有收到请求

如何解决《FlaskAPI突然没有收到请求》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法在ubuntu中找到mongod.conf文件

如何解决《无法在ubuntu中找到mongod.conf文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在逻辑回归中避免NaN？

如何解决《如何在逻辑回归中避免NaN？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Mockito和TextUtils

如何解决《Mockito和TextUtils》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用auto.Arima（）和xreg进行ARIMA预测

如何解决《使用auto.Arima（）和xreg进行ARIMA预测》经验，为你挑选了1个好方法。 ... [详细]
程序员
Firefox,Edge和IE中的Flexbox列反转

如何解决《Firefox,Edge和IE中的Flexbox列反转》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用Python中的beautifulsoup从网站中提取数字

如何解决《使用Python中的beautifulsoup从网站中提取数字》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Node/V8中实现正则表达式匹配？

如何解决《如何在Node/V8中实现正则表达式匹配？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用css模块,如何从文件中导入类

如何解决《使用css模块,如何从文件中导入类》经验，为你挑选了0个好方法。 ... [详细]
程序员
一个玩家表 - 两个团队下拉列表 - 如何获得没有双重玩家(mysql,php,ajax)

如何解决《一个玩家表-两个团队下拉列表-如何获得没有双重玩家(mysql,php,ajax)》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Clojure中使用关键字作为地图中的键有什么好处？

如何解决《在Clojure中使用关键字作为地图中的键有什么好处？》经验，为你挑选了1个好方法。 ... [详细]

U友50081205_653

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章