Python使用requests及BeautifulSoup构建爬虫实例代码

作者：贴进你的心聆听你的世界 | 2021-10-27 06:35

这篇文章主要介绍了Python使用requests及BeautifulSoup构建爬虫，介绍了具体操作步骤和实例代码等相关内容，小编觉得还是挺不错的，这里分享给大家，需要的朋友可以参考下

本文研究的主要是Python使用requests及BeautifulSoup构建一个网络爬虫，具体步骤如下。

功能说明

在Python下面可使用requests模块请求某个url获取响应的html文件，接着使用BeautifulSoup解析某个html。

案例

假设我要http://maoyan.com/board/4猫眼电影的top100电影的相关信息，如下截图：

获取电影的标题及url。

安装requests和BeautifulSoup

使用pip工具安装这两个工具。

pip install requests

pip install beautifulsoup4

程序

__author__ = 'Qian Yang'
# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
def get_one_page(url):
  response= requests.get(url)
  if response.status_code == 200:
    return response.content.decode("utf8","ignore").encode("gbk","ignore")
#采用BeautifulSoup解析
def bs4_paraser(html):
  all_value = []
  value = {}
  soup = BeautifulSoup(html,'html.parser')
  # 获取每一个电影
  all_div_item = soup.find_all('div', attrs={'class': 'movie-item-info'})
  for r in all_div_item:
    # 获取电影的名称和url
    title = r.find_all(name="p",attrs={"class":"name"})[0].string
    movie_url = r.find_all('p', attrs={'class': 'name'})[0].a['href']
    value['title'] = title
    value['movie_url'] = movie_url
    all_value.append(value)
    value = {}
  return all_value

def main():
  url = 'http://maoyan.com/board/4'
  html = get_one_page(url)
  all_value = bs4_paraser(html)
  print(all_value)

if __name__ == '__main__':
  main()

代码测试可用，实现效果：

总结

以上就是本文关于Python使用requests及BeautifulSoup构建爬虫实例代码的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题，如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

推荐阅读

程序员
更好的byebug格式(带颜色)

如何解决《更好的byebug格式(带颜色)》经验，为你挑选了1个好方法。 ... [详细]
程序员
网格单元向量中的元素替换

如何解决《网格单元向量中的元素替换》经验，为你挑选了0个好方法。 ... [详细]
程序员
Heroku + Rails4.2:Cloudfront设置

如何解决《Heroku+Rails4.2:Cloudfront设置》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何获得随机日期和时间C#

如何解决《如何获得随机日期和时间C#》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么这两个div宽度不等于100%？

如何解决《为什么这两个div宽度不等于100%？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Fabric Crashlytics - 汇总来自不同项目的数据

如何解决《FabricCrashlytics-汇总来自不同项目的数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
拼出可访问时间标签的当前时间

如何解决《拼出可访问时间标签的当前时间》经验，为你挑选了0个好方法。 ... [详细]
程序员
NPM问题使用AWS codedeploy部署nodejs实例

如何解决《NPM问题使用AWScodedeploy部署nodejs实例》经验，为你挑选了1个好方法。 ... [详细]
程序员
在python中舍入科学记数法

如何解决《在python中舍入科学记数法》经验，为你挑选了1个好方法。 ... [详细]
程序员
(取5(范围))和(范围5)之间有什么区别

如何解决《(取5(范围))和(范围5)之间有什么区别》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django UserCreationForm无法正常工作

如何解决《DjangoUserCreationForm无法正常工作》经验，为你挑选了1个好方法。 ... [详细]
程序员
Thread.sleep()延迟整个程序,而不仅仅是它之后的程序

如何解决《Thread.sleep()延迟整个程序,而不仅仅是它之后的程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
找不到openshift v3 pod文件

如何解决《找不到openshiftv3pod文件》经验，为你挑选了0个好方法。 ... [详细]
程序员
运行Java字节码

如何解决《运行Java字节码》经验，为你挑选了1个好方法。 ... [详细]
程序员
禁用在Visual Studio 2015 for ASP.NET 5项目中自动添加新文件

如何解决《禁用在VisualStudio2015forASP.NET5项目中自动添加新文件》经验，为你挑选了0个好方法。 ... [详细]
程序员
Haskell中的语法错误

如何解决《Haskell中的语法错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
启动任务并等待多次

如何解决《启动任务并等待多次》经验，为你挑选了1个好方法。 ... [详细]
程序员
常数,但仅适用于此范围的其余部分

如何解决《常数,但仅适用于此范围的其余部分》经验，为你挑选了1个好方法。 ... [详细]
程序员
投影中的变量"x"在GROUP BY中不存在

如何解决《投影中的变量"x"在GROUPBY中不存在》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何搜索"到下一行所述的无效地址"错误

如何解决《如何搜索"到下一行所述的无效地址"错误》经验，为你挑选了0个好方法。 ... [详细]

贴进你的心聆听你的世界

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章