7赞

python妹子图简单爬虫实例

作者：LEEstarmmmmm | 2021-11-03 12:18

这篇文章主要介绍了python妹子图简单爬虫,实例分析了Python爬虫程序所涉及的页面源码获取、进度显示、正则匹配等技巧,需要的朋友可以参考下

本文实例讲述了python妹子图简单爬虫实现方法。分享给大家供大家参考。具体如下：

#!/usr/bin/env python
#coding: utf-8
import urllib
import urllib2
import os
import re
import sys
#显示下载进度
def schedule(a,b,c):
  '''''
  a:已经下载的数据块
  b:数据块的大小
  c:远程文件的大小
  '''
  per = 100.0 * a * b / c
  if per > 100 :
    per = 100
  print '%.2f%%' % per
#获取html源码
def getHtml(url):
  page = urllib.urlopen(url)
  html = page.read()
  return html
#下载图片
def downloadImg(html, num, foldername):
  picpath = '%s' % (foldername) #下载到的本地目录
  if not os.path.exists(picpath): #路径不存在时创建一个
    os.makedirs(picpath)
  target = picpath+'/%s.jpg' % num
  myItems = re.findall('',html,re.S)
  print 'Downloading image to location: ' + target
  urllib.urlretrieve(myItems[0], target, schedule)
#正则匹配分页
def findPage(html):
  myItems = re.findall('(\d*)', html, re.S)
  return myItems.pop()
#正则匹配列表
def findList(html):
  myItems = re.findall('.*?', html, re.S)
  return myItems
#总下载
def totalDownload(modelUrl):
  listHtml5 = getHtml(modelUrl)
  listContent = findList(listHtml)
  for list in listContent:
    html = getHtml('http://www.mzitu.com/' + str(list[0]))
    totalNum = findPage(html)
    for num in range(1, int(totalNum)+1):
      if num == 1:
        url = 'http://www.mzitu.com/' + str(list[0])
        html5 = getHtml(url)
        downloadImg(html5, str(num), str(list[1]))
      else:
        url = 'http://www.mzitu.com/' + str(list[0]) + '/'+str(num)
        html5 = getHtml(url)
        downloadImg(html5, str(num), str(list[1]))
if __name__ == '__main__':
  listHtml = getHtml('http://www.mzitu.com/model')
  #这是其中一个模块的url，可以添加不同的模块url从而达到整站爬取。
  for model in range(1, int(findPage(listHtml))+1):
    if model == 1:
      modelUrl = 'http://www.mzitu.com/model'
      totalDownload(modelUrl)
    else:
      modelUrl = 'http://www.mzitu.com/model/page/' + str(model)
      totalDownload(modelUrl)
  print "Download has finished."

希望本文所述对大家的Python程序设计有所帮助。

推荐阅读

程序员
使用c#计算datagridview中的行数

如何解决《使用c#计算datagridview中的行数》经验，为你挑选了1个好方法。 ... [详细]
程序员
C#:为什么传递null会使用Object []进行重载(但仅在某些情况下)？

如何解决《C#:为什么传递null会使用Object[]进行重载(但仅在某些情况下)？》经验，为你挑选了0个好方法。 ... [详细]
程序员
是否在C中允许/安全地使用不同尺寸的结构？

如何解决《是否在C中允许/安全地使用不同尺寸的结构？》经验，为你挑选了1个好方法。 ... [详细]
程序员
何时使用Angular的$元素

如何解决《何时使用Angular的$元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Mongolite R库中获取ObjectID

如何解决《在MongoliteR库中获取ObjectID》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否可以链接范围和数字HTML输入？

如何解决《是否可以链接范围和数字HTML输入？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为Jekyll网站的某些页面添加身份验证

如何解决《为Jekyll网站的某些页面添加身份验证》经验，为你挑选了0个好方法。 ... [详细]
程序员
由于"display:inline",CSS Hover-Effect在Firefox中不起作用

如何解决《由于"display:inline",CSSHover-Effect在Firefox中不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
varchar的Pivot列

如何解决《varchar的Pivot列》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么我不能使用此循环从bash历史记录中删除多个条目

如何解决《为什么我不能使用此循环从bash历史记录中删除多个条目》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何让JS了解应用程序根目录？

如何解决《如何让JS了解应用程序根目录？》经验，为你挑选了1个好方法。 ... [详细]
程序员
wso2:esb:call mediator和send mediator之间的基本区别是什么

如何解决《wso2:esb:callmediator和sendmediator之间的基本区别是什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
缺少对hdf5:totem的依赖

如何解决《缺少对hdf5:totem的依赖》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果在打印时它等于6,则跳过数组中的int元素

如何解决《如果在打印时它等于6,则跳过数组中的int元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
设置为生产模式时,Webpack Globalize失败构建:未提供格式化程序或解析器

如何解决《设置为生产模式时,WebpackGlobalize失败构建:未提供格式化程序或解析器》经验，为你挑选了0个好方法。 ... [详细]
程序员
iOS蓝牙状态保存和恢复的DUPLICATE ISSUE -25299

如何解决《iOS蓝牙状态保存和恢复的DUPLICATEISSUE-25299》经验，为你挑选了0个好方法。 ... [详细]
程序员
有没有办法优雅地更改rails secret_key_base？

如何解决《有没有办法优雅地更改railssecret_key_base？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何异步读取文件？

如何解决《如何异步读取文件？》经验，为你挑选了0个好方法。 ... [详细]
程序员
invokestatic on interface中的静态方法

如何解决《invokestaticoninterface中的静态方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Tampermonkey在AngularJS网站上自动提交表单？

如何解决《使用Tampermonkey在AngularJS网站上自动提交表单？》经验，为你挑选了1个好方法。 ... [详细]

LEEstarmmmmm

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章