4赞

python爬虫获取多页天涯帖子

作者：乐韵答题 | 2021-11-03 09:38

本篇文章通过爬取多页天涯帖子内容来教给大家深入理解python爬虫相关知识，有兴趣的参考学习下。

今天练习了抓取多页天涯帖子，重点复习的知识包括

soup.find_all和soup.selcet两个筛选方式对应不同的参数；
希望将获取到的多个内容组合在一起返回的时候，要用'zip()'的代码来实现；
两层代码结构之间的关系如何构造；

这里有一个疑问：有时候一个标签可以有多个属性，不知道soup.find_all()能不能接受不止一个属性以缩小查找的范围。

# 引入库和请求头文件
import requests
from bs4 import BeautifulSoup
headers = {
  'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'
}

# 定义主体函数。函数主体由四部分组成：
#1.请求网址
#2.解析网页，形成可查找的html格式
#3.通过soup.select或者sopu.find_all查找需要的标签
#4.通过zip()代码将多个内容合并在一起

def get_content(url):
  res = requests.get(url,headers = headers)
  res.encoding = 'utf-8'
  soup = BeautifulSoup(res.text,'html.parser')
  contents = soup.find_all('div','bbs-content')
  authors = soup.find_all('a','js-vip-check')
  for author,content in zip(authors,contents):
    data = {
    'author':author.get_text().strip(),
    'content': content.get_text().strip()
  }
    print(data)
# 在这里构造一个两层链接结构：帖子的1、2、3、4页和帖子的详情页的关系在这里实现
if __name__ == '__main__':
  urls = ['http://bbs.tianya.cn/post-develop-2271894-{}.shtml'.format(str(i)) for i in range (1,5)] # 要注意，这里的‘5'是不包括在范围里的
  for url in urls:
    get_content(url)

推荐阅读

程序员
Golang:如何在Linux上使用syscall.Syscall？

如何解决《Golang:如何在Linux上使用syscall.Syscall？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何从django rest框架的基于函数的视图中分页响应？

如何解决《如何从djangorest框架的基于函数的视图中分页响应？》经验，为你挑选了1个好方法。 ... [详细]
程序员
解析JSON响应的最简单方法

如何解决《解析JSON响应的最简单方法》经验，为你挑选了3个好方法。 ... [详细]
程序员
Google Feeds API无法正常工作-是否已关闭？

如何解决《GoogleFeedsAPI无法正常工作-是否已关闭？》经验，为你挑选了1个好方法。 ... [详细]
程序员
MATLAB - 获取当前工作空间

如何解决《MATLAB-获取当前工作空间》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么减法超过30天导致错误答案

如何解决《为什么减法超过30天导致错误答案》经验，为你挑选了1个好方法。 ... [详细]
程序员
Chrome DevTools - "排队"在"计时"选项卡中的含义是什么？

如何解决《ChromeDevTools-"排队"在"计时"选项卡中的含义是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用角度2添加firebase的单元测试

如何解决《使用角度2添加firebase的单元测试》经验，为你挑选了0个好方法。 ... [详细]
程序员
从数组中获取最"流行"的数字

如何解决《从数组中获取最"流行"的数字》经验，为你挑选了1个好方法。 ... [详细]
程序员
在UICollectionViewCell中处理滚动视图大小

如何解决《在UICollectionViewCell中处理滚动视图大小》经验，为你挑选了0个好方法。 ... [详细]
程序员
术语弹性搜索中嵌套字段的聚合

如何解决《术语弹性搜索中嵌套字段的聚合》经验，为你挑选了1个好方法。 ... [详细]
程序员
Linux IRQ处理程序中的固有竞争条件

如何解决《LinuxIRQ处理程序中的固有竞争条件》经验，为你挑选了1个好方法。 ... [详细]
程序员
BlueZ D-Bus C或C++示例

如何解决《BlueZD-BusC或C++示例》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++ - 递归结构 - 它可能吗？

如何解决《C++-递归结构-它可能吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
AngularJS捕获$ http操作的所有状态代码？

如何解决《AngularJS捕获$http操作的所有状态代码？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将字符串转换为size_t

如何解决《将字符串转换为size_t》经验，为你挑选了4个好方法。 ... [详细]
程序员
可重用类库内部的依赖注入（DI）

如何解决《可重用类库内部的依赖注入（DI）》经验，为你挑选了0个好方法。 ... [详细]
程序员
C中的这个操作是什么？

如何解决《C中的这个操作是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Microsoft Server studio'脚本表为'用于INSERT到错误的语法

如何解决《MicrosoftServerstudio'脚本表为'用于INSERT到错误的语法》经验，为你挑选了1个好方法。 ... [详细]
程序员
NuGet - 使用packages.config的依赖项创建nuspec

如何解决《NuGet-使用packages.config的依赖项创建nuspec》经验，为你挑选了0个好方法。 ... [详细]

乐韵答题

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章