17赞

python爬虫实现获取下一页代码

作者：oDavid_仔o_880 | 2022-02-22 10:37

在本篇文章里小编给大家整理了关于python爬虫实现获取下一页代码内容，需要的朋友们可以参考学习下。

我们首先来看下实例代码：

from time import sleep

import faker
import requests
from lxml import etree

fake = faker.Faker()

base_url = "http://angelimg.spbeen.com"

def get_next_link(url):
  content = downloadHtml(url)
  html = etree.HTML(content)
  next_url = html.xpath("//a[@class='ch next']/@href")
  if next_url:
    return base_url + next_url[0]
  else:
    return False

def downloadHtml(ur):
  user_agent = fake.user_agent()
  headers = {'User-Agent': user_agent,"Referer":"http://angelimg.spbeen.com/"}
  response = requests.get(url, headers=headers)
  return response.text

def getImgUrl(content):
  html = etree.HTML(content)
  img_url = html.xpath('//*[@id="content"]/a/img/@src')
  title = html.xpath(".//div['@class=article']/h2/text()")

  return img_url[0],title[0]

def saveImg(title,img_url):
  if img_url is not None and title is not None:
    with open("txt/"+str(title)+".jpg",'wb') as f:
      user_agent = fake.user_agent()
      headers = {'User-Agent': user_agent,"Referer":"http://angelimg.spbeen.com/"}
      content = requests.get(img_url, headers=headers)
      #request_view(content)
      f.write(content.content)
      f.close()

def request_view(response):
  import webbrowser
  request_url = response.url
  base_url = '' %(request_url)
  base_url = base_url.encode()
  content = response.content.replace(b"",base_url)
  tem_html = open('tmp.html','wb')
  tem_html.write(content)
  tem_html.close()
  webbrowser.open_new_tab('tmp.html')

def crawl_img(url):
  content = downloadHtml(url)
  res = getImgUrl(content)
  title = res[1]
  img_url = res[0]
  saveImg(title,img_url)

if __name__ == "__main__":
  url = "http://angelimg.spbeen.com/ang/4968/1"

  while url:
    print(url)
    crawl_img(url)
    url = get_next_link(url)

python 爬虫如何执行自动下一页循环加载文字

from bs4 import BeautifulSoup
import requests
import time
from lxml import etree
import os
# 该demo执行的为如何利用bs去爬一些文字
def start():
  # 发起网络请求
  html=requests.get('http://www.baidu.com')
  #编码
  html.encoding=html.apparent_encoding
  #创建sp
  soup=BeautifulSoup(html.text,'html.parser')
  print(type(soup))
  print('打印元素')
  print(soup.prettify())
  #存储一下title 该方法没有提示直接展示
  title=soup.head.title.string
  print(title)
#   写入文本
  with open(r'C:/Users/a/Desktop/a.txt','w') as f:
    f.write(title)
  print(time.localtime())
 
url_2 = 'http://news.gdzjdaily.com.cn/zjxw/politics/sz_4.shtml'
def get_html_from_bs4(url):
 
  # response = requests.get(url,headers=data,proxies=ip).content.decode('utf-8')
  response = requests.get(url).content.decode('utf-8')
  soup = BeautifulSoup(response, 'html.parser')
  next_page = soup.select('#displaypagenum a:nth-of-type(9)')[0].get('href')
  # for i in nett
  print(next_page)
  next2='http://news.gdzjdaily.com.cn/zjxw/politics/'+next_page
 
 
def get_html_from_etree(url):
 
  response = requests.get(url).content.decode('utf-8')
  html= etree.HTML(response)
 
  next_page = html.xpath('.//a[@class="PageNum"][8]/@href')[0]
  print(next_page)
  # next2='http://news.gdzjdaily.com.cn/zjxw/politics/'+next_page
 
 
get_html_from_etree(url_2)
 
if __name__ == '__main__':
  start()

到此这篇关于python爬虫实现获取下一页代码的文章就介绍到这了,更多相关python爬虫获取下一页内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

程序员
将字符串转换为Panel

如何解决《将字符串转换为Panel》经验，为你挑选了1个好方法。 ... [详细]
程序员
CSS整页高度内容

如何解决《CSS整页高度内容》经验，为你挑选了1个好方法。 ... [详细]
程序员
_blank被阻止弹出我怎么能阻止这个？

如何解决《_blank被阻止弹出我怎么能阻止这个？》经验，为你挑选了1个好方法。 ... [详细]
程序员
允许访问Apache中的隐藏目录（。）

如何解决《允许访问Apache中的隐藏目录（。）》经验，为你挑选了0个好方法。 ... [详细]
程序员
检查时差是否小于45分钟并运行功能 - AngularJS

如何解决《检查时差是否小于45分钟并运行功能-AngularJS》经验，为你挑选了0个好方法。 ... [详细]
程序员
Siri Remote.定向箭头

如何解决《SiriRemote.定向箭头》经验，为你挑选了1个好方法。 ... [详细]
程序员
多语种玉模板？

如何解决《多语种玉模板？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在python中优雅地记录多个非常相似的事件？

如何解决《如何在python中优雅地记录多个非常相似的事件？》经验，为你挑选了1个好方法。 ... [详细]
程序员
更改NavigationView分隔线颜色和子标题文本颜色

如何解决《更改NavigationView分隔线颜色和子标题文本颜色》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android Studio:安装更新补丁

如何解决《AndroidStudio:安装更新补丁》经验，为你挑选了1个好方法。 ... [详细]
程序员
当我尝试使用p4 client -d删除工作区时,我收到消息"客户端已锁定,无法删除"

如何解决《当我尝试使用p4client-d删除工作区时,我收到消息"客户端已锁定,无法删除"》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用symfony只渲染表单的一个字段

如何解决《如何使用symfony只渲染表单的一个字段》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何阅读此C++语句

如何解决《如何阅读此C++语句》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用FormData和multer上传文件

如何解决《使用FormData和multer上传文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
Guava是否提供了一种解除字符串的方法？

如何解决《Guava是否提供了一种解除字符串的方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在列表和数组中按索引获取struct项

如何解决《在列表和数组中按索引获取struct项》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何清除TextBox以使默认的Undo方法仍然起作用？

如何解决《如何清除TextBox以使默认的Undo方法仍然起作用？》经验，为你挑选了1个好方法。 ... [详细]
程序员
jQuery自动完成悬停样式

如何解决《jQuery自动完成悬停样式》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何将相机聚焦在Windows Universal Apps中？

如何解决《如何将相机聚焦在WindowsUniversalApps中？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Javascript中的2D数组

如何解决《Javascript中的2D数组》经验，为你挑选了1个好方法。 ... [详细]

oDavid_仔o_880

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章