4赞

使用Python爬取小姐姐图片（beautifulsoup法）

作者：云聪京初瑞子_617 | 2022-10-14 20:16

这篇文章主要介绍了Python爬取小姐姐图片（beautifulsoup法）,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下

Python有许多强大的库用于爬虫，如beautifulsoup、requests等，本文将以网站https://www.xiurenji.cc/XiuRen/为例（慎点！！），讲解网络爬取图片的一般步骤。
为什么选择这个网站？其实与网站的内容无关。主要有两项技术层面的原因：①该网站的页面构造较有规律，适合新手对爬虫的技巧加强认识。②该网站没有反爬虫机制，可以放心使用爬虫。

第三方库需求

beautifulsoup
requests

步骤

打开网站，点击不同的页面：
发现其首页是https://www.xiurenji.cc/XiuRen/，而第二页是https://www.xiurenji.cc/XiuRen/index2.html，第三页第四页以此类推。为了爬虫代码的普适性，我们不妨从第二页以后进行构造url。

在这里插入图片描述

选中封面图片，点击检查：

在这里插入图片描述

可以发现，图片的信息，都在'div',class_='dan'里，而链接又在a标签下的href里。据此我们可以写一段代码提取出每一个封面图片的url：

def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#获得网站每一个首页的网址
  res=requests.get(url)#发送请求
  res.encoding="gbk"#设置编码方式为gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到储存每一个封面图片的标签值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#寻找每一个封面对应的网址
   urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一个元素，达到扩充列表的目的，注意要把网址扩充完整
  return urls#返回该主页每一个封面对应的网址

点击封面图片，打开不同的页面，可以发现，首页的网址是https://www.xiurenji.cc/XiuRen/xxxx.html，而第二页的网址是https://www.xiurenji.cc/XiuRen/xxxx_1.html，第三第四页同理。同样为了普适性，我们从第二页开始爬取。

在这里插入图片描述

右键，点击“检查”：

在这里插入图片描述

可以发现所有的图片信息都储存在'div',class_='img'中，链接、标题分别在img标签中的src和alt中，我们同样也可以将它们提取出来。

def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#获得网站每一个首页的网址
  res=requests.get(url)#发送请求
  res.encoding="gbk"#设置编码方式为gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到储存每一个封面图片的标签值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#寻找每一个封面对应的网址
   urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一个元素，达到扩充列表的目的，注意要把网址扩充完整
  return urls#返回该主页每一个封面对应的网址

完整代码

import requests
from bs4 import BeautifulSoup

def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#获得网站每一个首页的网址
  res=requests.get(url)#发送请求
  res.encoding="gbk"#设置编码方式为gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到储存每一个封面图片的标签值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#寻找每一个封面对应的网址
   urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一个元素，达到扩充列表的目的，注意要把网址扩充完整
  return urls#返回该主页每一个封面对应的网址

def download(urls):
 for url1 in urls:
  print("prepare to download pictures in "+url1)
  getEveryPage(url1)#下载页面内的图片
  print("all pictures in "+url1+"are downloaded")
  
def getEveryPage(url1):
 total=0#total的作用：对属于每一个封面内的图片一次编号
 for n in range (1,11):#每一个封面对应下载10张图，可自行调整
  temp=url1.replace('.html','')
  url2=temp+'_'+str(n)+'.html'#获得每一内部页面的网址
  res=requests.get(url2)
  res.encoding="gbk"
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists1=soup.find_all('div',class_='img')#储存图片的路径
  
  for item in lists1:
   url=item.find('img').get('src')
   title=item.find('img').get('alt')#获取图片及其标题
   picurl='https://www.xiurenji.cc'+url#获取完整的图片标题
   picture=requests.get(picurl).content#下载图片
   address='D:\pythonimages'+'\\'#自定义保存图片的路径
   with open(address+title+str(total)+'.jpg','wb') as file:#保存图片
    print("downloading"+title+str(total))
    total=total+1
    file.write(picture)
    

if __name__ == "__main__":
 page=int(input('input the page you want:'))
 urls=getFirstPage(page)
 download(urls)

本文仅供学习参考，切勿用作其他用途！

到此这篇关于Python爬取小姐姐图片（beautifulsoup法）的文章就介绍到这了,更多相关Python爬取小姐姐图片内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

程序员
为什么不可能/不太可能显示性能改进？

如何解决《为什么不可能/不太可能显示性能改进？》经验，为你挑选了0个好方法。 ... [详细]
程序员
连接列表列表

如何解决《连接列表列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
读取不同语言环境中的时间戳

如何解决《读取不同语言环境中的时间戳》经验，为你挑选了0个好方法。 ... [详细]
程序员
我们可以在SQL Transaction中多次使用'GO'吗？

如何解决《我们可以在SQLTransaction中多次使用'GO'吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在kubernetes上传递一个认为yaml的配置文件来创建新的复制控制器

如何解决《如何在kubernetes上传递一个认为yaml的配置文件来创建新的复制控制器》经验，为你挑选了1个好方法。 ... [详细]
程序员
xgboost中Objective和feval之间的差异

如何解决《xgboost中Objective和feval之间的差异》经验，为你挑选了1个好方法。 ... [详细]
程序员
Intellij如何使用spring boot正确配置hql.现在我得到持久性QL查询被错误检查

如何解决《Intellij如何使用springboot正确配置hql.现在我得到持久性QL查询被错误检查》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果未选中复选框,则阻止表单提交

如何解决《如果未选中复选框,则阻止表单提交》经验，为你挑选了1个好方法。 ... [详细]
程序员
弹簧数据mongodb中的2d球面索引

如何解决《弹簧数据mongodb中的2d球面索引》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何修复java中的堆栈溢出错误？

如何解决《如何修复java中的堆栈溢出错误？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在R中指定三维图表的摄像机视角？

如何解决《如何在R中指定三维图表的摄像机视角？》经验，为你挑选了1个好方法。 ... [详细]
程序员
"无法在未定义的值上调用方法'状态'"？

如何解决《"无法在未定义的值上调用方法'状态'"？》经验，为你挑选了1个好方法。 ... [详细]
程序员
根据转储成员函数的operator <<函数的通用实现

如何解决《根据转储成员函数的operator<<函数的通用实现》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Elastic Beanstalk上添加PATH

如何解决《如何在ElasticBeanstalk上添加PATH》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何通过环境变量在名称中设置带下划线的Spring Boot属性？

如何解决《如何通过环境变量在名称中设置带下划线的SpringBoot属性？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何证明返回IEnumerable的方法已被调用两次？

如何解决《如何证明返回IEnumerable的方法已被调用两次？》经验，为你挑选了2个好方法。 ... [详细]
程序员
mongo C驱动程序1.2.0中的错误处理

如何解决《mongoC驱动程序1.2.0中的错误处理》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Laravel5中调用未定义的方法Illuminate\Http\Response :: json()

如何解决《在Laravel5中调用未定义的方法Illuminate\Http\Response::json()》经验，为你挑选了2个好方法。 ... [详细]
程序员
诊断进程陷入D状态(不间断睡眠/阻塞IO)

如何解决《诊断进程陷入D状态(不间断睡眠/阻塞IO)》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用int13h从软盘加载段

如何解决《使用int13h从软盘加载段》经验，为你挑选了1个好方法。 ... [详细]

云聪京初瑞子_617

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章