python爬虫使用正则爬取网站的实现

作者：mobiledu2402851373 | 2022-01-05 17:07

这篇文章主要介绍了python爬虫使用正则爬取网站的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

本文章的所有代码和相关文章，仅用于经验技术交流分享，禁止将相关技术应用到不正当途径，滥用技术产生的风险与本人无关。

本文章是自己学习的一些记录。欢迎各位大佬点评！

首先

今天是第一天写博客，感受到了博客的魅力，博客不仅能够记录每天的代码学习情况，并且可以当作是自己的学习笔记，以便在后面知识点不清楚的时候前来复习。这是第一次使用爬虫爬取网页，这里展示的是爬取豆瓣电影top250的整个过程，欢迎大家指点。

这里我只爬取了电影链接和电影名称，如果想要更加完整的爬取代码，请联系我。qq 1540741344 欢迎交流

开发工具： pycharm、chrome

分析网页

在开发之前你首先要去你所要爬取的网页提取出你要爬取的网页链接，并且将网页分析出你想要的内容。

在开发之前首先要导入几个模块，模块描述如下，具体不知道怎么导入包的可以看我下一篇内容

首先定义几个函数，便于将各个步骤的工作分开便于代码管理，我这里是分成了7个函数，分别如下：

@主函数入口

if __name__=="__main__":    #程序执行入口
  main()

@捕获网页html内容 askURL(url)

这里的head的提取是在chrome中分析网页源码获得的，具体我也不做过多解释，大家可以百度

def askURL(url): #得到指定网页信息的内容 #爬取一个网页的数据
  # 用户代理，本质上是告诉服务器，我们是以什么样的机器来访问网站，以便接受什么样的水平数据
  head={"User-Agent":"Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 84.0.4147.89 Safari / 537.36"}
  request=urllib.request.Request(url,headers=head)     #request对象接受封装的信息，通过urllib携带headers访问信息访问url
  response=urllib.request.urlopen(request)         #用于接收返回的网页信息
  html=response.read().decode("utf-8")           #通过read方法读取response对象里的网页信息，使用“utf-8”
  return html

@将baseurl里的内容进行逐一解析 getData(baseURL)
这里面的findlink和findname是正则表达式，可以首先定义全局变量

findlink=r'(.*?)'

def getData(baseURL):
  dataList=[]                   #初始化datalist用于存储获取到的数据
  for i in range(0,10):
    url=baseURL+str(i*25)
    html=askURL(url)                  #保存获取到的源码
    soup=BeautifulSoup(html,"html.parser")       #对html进行逐一解析，使用html.parser解析器进行解析
    for item in soup.find_all("div",class_="item"):   #查找符合要求的字符串 ，形成列表，find_all是查找所有的class是item的div
      data=[]                     #初始化data，用于捕获一次爬取一个div里面的内容
      item=str(item)                 #将item数据类型转化为字符串类型
      # print(item)
      link=re.findall(findlink,item)[0]        #使用re里的findall方法根据正则提取item里面的电影链接
      data.append(link)                #将网页链接追加到data里
      name=re.findall(findname,item)[0]        #使用re里的findall方法根据正则提取item里面的电影名字
      data.append(name)                #将电影名字链接追加到data里
      # print(link)
      # print(name)
      dataList.append(data)              #将捕获的电影链接和电影名存到datalist里面
  return dataList                     #返回一个列表，里面存放的是每个电影的信息
  print(dataList)

@保存捕获的数据到excel saveData(dataList,savepath)

def saveData(dataList,savepath):              #保存捕获的内容到excel里，datalist是捕获的数据列表，savepath是保存路径
  book=xlwt.Workbook(encoding="utf-8",style_compression=0)#初始化book对象，这里首先要导入xlwt的包
  sheet=book.add_sheet("test",cell_overwrite_ok=True)   #创建工作表
  col=["电影详情链接","电影名称"]              #列名
  for i in range(0,2):
    sheet.write(0,i,col[i])               #将列名逐一写入到excel
  for i in range(0,250):
    data=dataList[i]                  #依次将datalist里的数据获取
    for j in range(0,2):
      sheet.write(i+1,j,data[j])           #将data里面的数据逐一写入
  book.save(savepath)

@保存捕获的数据到数据库

def saveDataDb(dataList,dbpath):
  initDb(dbpath)                     #用一个函数初始化数据库
  conn=sqlite3.connect(dbpath)              #初始化数据库
  cur=conn.cursor()                    #获取游标
  for data in dataList:                  
    for index in range(len(data)): 
      data[index]='"'+data[index]+'" '        #将每条数据都加上""
    #每条数据之间用，隔开，定义sql语句的格式
    sql='''
      insert into test(link,name) values (%s)     
    '''%','.join (data)
    cur.execute(sql)                  #执行sql语句
    conn.commit()                    #提交数据库操作
  conn.close()
  print("爬取存入数据库成功！")

@初始化数据库 initDb(dbpath)

def initDb(dbpath):
  conn=sqlite3.connect(dbpath)
  cur=conn.cursor()
  sql='''
    create table test(
      id integer primary key autoincrement,
      link text,
      name varchar 
      
    )
  '''
  cur.execute(sql)
  conn.commit()
  cur.close()
  conn.close()

@main函数，用于调用其他函数 main()

def main():
  dbpath="testSpider.db"               #用于指定数据库存储路径
  savepath="testSpider.xls"             #用于指定excel存储路径
  baseURL="https://movie.douban.com/top250?start="  #爬取的网页初始链接
  dataList=getData(baseURL)
  saveData(dataList,savepath)
  saveDataDb(dataList,dbpath)

点击运行就可以看到在左侧已经生成了excel和DB文件

excel可以直接打开

DB文件双击之后会在右边打开

到这里爬虫的基本内容就已经结束了，如果有什么不懂或者想交流的地方可以加我qq 1540741344

以下附上整个代码

import re                  #网页解析，获取数据
from bs4 import BeautifulSoup        #正则表达式，进行文字匹配
import urllib.request,urllib.error     #制定URL，获取网页数据
import xlwt
import sqlite3

findlink=r'(.*?)'
def main():
  dbpath="testSpider.db"               #用于指定数据库存储路径
  savepath="testSpider.xls"             #用于指定excel存储路径
  baseURL="https://movie.douban.com/top250?start="  #爬取的网页初始链接
  dataList=getData(baseURL)
  saveData(dataList,savepath)
  saveDataDb(dataList,dbpath)
def askURL(url): #得到指定网页信息的内容 #爬取一个网页的数据
  # 用户代理，本质上是告诉服务器，我们是以什么样的机器来访问网站，以便接受什么样的水平数据
  head={"User-Agent":"Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 84.0.4147.89 Safari / 537.36"}
  request=urllib.request.Request(url,headers=head)     #request对象接受封装的信息，通过urllib携带headers访问信息访问url
  response=urllib.request.urlopen(request)         #用于接收返回的网页信息
  html=response.read().decode("utf-8")           #通过read方法读取response对象里的网页信息，使用“utf-8”
  return html                       #返回捕获的网页内容，此时还是未处理过的
def getData(baseURL):
  dataList=[]                   #初始化datalist用于存储获取到的数据
  for i in range(0,10):
    url=baseURL+str(i*25)
    html=askURL(url)                  #保存获取到的源码
    soup=BeautifulSoup(html,"html.parser")       #对html进行逐一解析，使用html.parser解析器进行解析
    for item in soup.find_all("div",class_="item"):   #查找符合要求的字符串 ，形成列表，find_all是查找所有的class是item的div
      data=[]                     #初始化data，用于捕获一次爬取一个div里面的内容
      item=str(item)                 #将item数据类型转化为字符串类型
      # print(item)
      link=re.findall(findlink,item)[0]        #使用re里的findall方法根据正则提取item里面的电影链接
      data.append(link)                #将网页链接追加到data里
      name=re.findall(findname,item)[0]        #使用re里的findall方法根据正则提取item里面的电影名字
      data.append(name)                #将电影名字链接追加到data里
      # print(link)
      # print(name)
      dataList.append(data)              #将捕获的电影链接和电影名存到datalist里面
  return dataList                     #返回一个列表，里面存放的是每个电影的信息
  print(dataList)

def saveData(dataList,savepath):              #保存捕获的内容到excel里，datalist是捕获的数据列表，savepath是保存路径
  book=xlwt.Workbook(encoding="utf-8",style_compression=0)#初始化book对象，这里首先要导入xlwt的包
  sheet=book.add_sheet("test",cell_overwrite_ok=True)   #创建工作表
  col=["电影详情链接","电影名称"]              #列名
  for i in range(0,2):
    sheet.write(0,i,col[i])               #将列名逐一写入到excel
  for i in range(0,250):
    data=dataList[i]                  #依次将datalist里的数据获取
    for j in range(0,2):
      sheet.write(i+1,j,data[j])           #将data里面的数据逐一写入
  book.save(savepath)                   #保存excel文件

def saveDataDb(dataList,dbpath):
  initDb(dbpath)                     #用一个函数初始化数据库
  conn=sqlite3.connect(dbpath)              #初始化数据库
  cur=conn.cursor()                    #获取游标
  for data in dataList:
    for index in range(len(data)):
      data[index]='"'+data[index]+'" '        #将每条数据都加上""
    #每条数据之间用，隔开，定义sql语句的格式
    sql='''
      insert into test(link,name) values (%s)     
    '''%','.join (data)
    cur.execute(sql)                  #执行sql语句
    conn.commit()                    #提交数据库操作
  conn.close()
  print("爬取存入数据库成功！")
def initDb(dbpath):
  conn=sqlite3.connect(dbpath)
  cur=conn.cursor()
  sql='''
    create table test(
      id integer primary key autoincrement,
      link text,
      name varchar 
      
    )
  '''
  cur.execute(sql)
  conn.commit()
  cur.close()
  conn.close()
if __name__=="__main__":    #程序执行入口
  main()

到此这篇关于python爬虫使用正则爬取网站的实现的文章就介绍到这了,更多相关python正则爬取内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

程序员
如何在Laravel 5中使用redis为多租户多数据库架构应用程序执行排队和缓存？

如何解决《如何在Laravel5中使用redis为多租户多数据库架构应用程序执行排队和缓存？》经验，为你挑选了0个好方法。 ... [详细]
程序员
正则表达式匹配Java中字符串的开头和结尾

如何解决《正则表达式匹配Java中字符串的开头和结尾》经验，为你挑选了0个好方法。 ... [详细]
程序员
在对象中引用Javascript对象的正确方法

如何解决《在对象中引用Javascript对象的正确方法》经验，为你挑选了0个好方法。 ... [详细]
程序员
NoReverseMatch用于简单的Django View

如何解决《NoReverseMatch用于简单的DjangoView》经验，为你挑选了1个好方法。 ... [详细]
程序员
SFML :: View倒y轴标准？如何解决它？

如何解决《SFML::View倒y轴标准？如何解决它？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Azure:您在目录中没有任何订阅

如何解决《Azure:您在目录中没有任何订阅》经验，为你挑选了1个好方法。 ... [详细]
程序员
上传从网络摄像头生成的图像到mysql数据库与PHP无法正常工作

如何解决《上传从网络摄像头生成的图像到mysql数据库与PHP无法正常工作》经验，为你挑选了0个好方法。 ... [详细]
程序员
Google App引擎应用程序的IP地址

如何解决《GoogleApp引擎应用程序的IP地址》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在编译时初始化浮点数组？

如何解决《如何在编译时初始化浮点数组？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将重复出现的图像识别为更大的图像

如何解决《将重复出现的图像识别为更大的图像》经验，为你挑选了1个好方法。 ... [详细]
程序员
Angular 2指令现在是"可扩展的"吗？

如何解决《Angular2指令现在是"可扩展的"吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Retrofit 2.0.x进行HTTP缓存

如何解决《使用Retrofit2.0.x进行HTTP缓存》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何初始化Direct到对象在C++中工作？

如何解决《如何初始化Direct到对象在C++中工作？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么采用迭代器的构造函数需要元素为EmplaceConstructible？

如何解决《为什么采用迭代器的构造函数需要元素为EmplaceConstructible？》经验，为你挑选了1个好方法。 ... [详细]
程序员
MYSQL导入:无法从发送到GEOMETRY字段的数据中获取几何对象

如何解决《MYSQL导入:无法从发送到GEOMETRY字段的数据中获取几何对象》经验，为你挑选了0个好方法。 ... [详细]
程序员
React中的校验和是什么以及如何使用它？

如何解决《React中的校验和是什么以及如何使用它？》经验，为你挑选了1个好方法。 ... [详细]
程序员
javascript:什么是$$？

如何解决《javascript:什么是$$？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Stetho显示两个具有相同名称的列

如何解决《Stetho显示两个具有相同名称的列》经验，为你挑选了0个好方法。 ... [详细]
程序员
在C#中的父类上正确实现IDisposable

如何解决《在C#中的父类上正确实现IDisposable》经验，为你挑选了1个好方法。 ... [详细]
程序员
Rails类型如何转换array_agg（）函数的结果

如何解决《Rails类型如何转换array_agg（）函数的结果》经验，为你挑选了0个好方法。 ... [详细]

mobiledu2402851373

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章