9赞

python爬虫之异常捕获及标签过滤详解

作者：TXCWB_523 | 2022-01-05 14:48

今天带大家了解python异常捕获及标签过滤,文中有非常详细的代码示例,对正在学习python爬虫的小伙伴们很有帮助,需要的朋友可以参考下

增加异常捕获，更容易现问题的解决方向

import ssl
import urllib.request
from bs4 import BeautifulSoup
from urllib.error import HTTPError, URLError
 
 
def get_data(url):
    headers = {"user-agent":
                   "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
               }
    ssl._create_default_https_context = ssl._create_unverified_context
 
    """
    urlopen处增加两个异常捕获：
            1、如果页面出现错误或者服务器不存在时，会抛HTTP错误代码
            2、如果url写错了或者是链接打不开时，会抛URLError错误
    """
    try:
        url_obj = urllib.request.Request(url, headers=headers)
        response = urllib.request.urlopen(url_obj)
        html = response.read().decode('utf8')
    except (HTTPError, URLError)as e:
        raise e
 
    """
    BeautifulSoup处增加异常捕获是因为BeautifulSoup对象中有时候标签实际不存在时，会返回None值；
    因为不知道，所以调用了就会导致抛出AttributeError: 'NoneType' object has no xxxxxxx。
    """
    try:
        bs = BeautifulSoup(html, "html.parser")
        results = bs.body 
    except AttributeError as e:
        return None
 
    return results
 
 
if __name__ == '__main__':
    print(get_data("https://movie.douban.com/chart"))

解析html，更好的实现数据展示效果

get_text()：获取文本信息

# 此处代码同上面打开url代码一致，故此处省略......
 
html = response.read().decode('utf8')
bs = BeautifulSoup(html, "html.parser")
data = bs.find('span', {'class': 'pl'})
print(f'电影评价数：{data}')
print(f'电影评价数：{data.get_text()}')

运行后的结果显示如下：

电影评价数：(38054人评价)
电影评价数：(38054人评价)

find() 方法是过滤HTML标签，查找需要的单个标签

实际find方法封装是调用了正则find_all方法，把find_all中的limt参数传1，获取单个标签

1.name：可直接理解为标签元素

2.attrs：字典格式，放属性和属性值 {"class": "indent"}

3.recursive：递归参数，布尔值，为真时递归查询子标签

4.text：标签的文本内容匹配 , 是标签的文本，标签的文本

find_all() 方法是过滤HTML标签，查找需要的标签组

使用方法适合find一样的，无非就是多了个limit参数（筛选数据)

必须注意的小知识点：

#   下面两种写法，实际是一样的功能，都是查询id为text的属性值
bs.find_all(id="text")
bs.find_all(' ', {"id": "text"})

#   如果是class的就不能class="x x x"了，因为class是python中类的关键字
bs.find_all(class_="text")
bs.find_all(' ', {"class": "text"})

到此这篇关于python爬虫之异常捕获及标签过滤详解的文章就介绍到这了,更多相关python异常捕获及标签过滤内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

程序员
使用trampolining进行递归溢出

如何解决《使用trampolining进行递归溢出》经验，为你挑选了0个好方法。 ... [详细]
程序员
PostgreSQL查询聚合和RIGHT JOIN不过滤

如何解决《PostgreSQL查询聚合和RIGHTJOIN不过滤》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Swift 2.0中正确实现cellForRowAtIndexPath

如何解决《在Swift2.0中正确实现cellForRowAtIndexPath》经验，为你挑选了1个好方法。 ... [详细]
程序员
编译输出中的TypeScript依赖项未按正确顺序解析

如何解决《编译输出中的TypeScript依赖项未按正确顺序解析》经验，为你挑选了1个好方法。 ... [详细]
程序员
64位平台的效率:指针与32位数组索引

如何解决《64位平台的效率:指针与32位数组索引》经验，为你挑选了3个好方法。 ... [详细]
程序员
访问数据和连接字符串？

如何解决《访问数据和连接字符串？》经验，为你挑选了1个好方法。 ... [详细]
程序员
根据方案设置默认模型值

如何解决《根据方案设置默认模型值》经验，为你挑选了0个好方法。 ... [详细]
程序员
是否可以将套接字映射到虚拟内存？

如何解决《是否可以将套接字映射到虚拟内存？》经验，为你挑选了1个好方法。 ... [详细]
程序员
从Javascript中的Kendo网格中的列名获取列索引

如何解决《从Javascript中的Kendo网格中的列名获取列索引》经验，为你挑选了1个好方法。 ... [详细]
程序员
基于系统时间(DAY)触发

如何解决《基于系统时间(DAY)触发》经验，为你挑选了1个好方法。 ... [详细]
程序员
WP rest api jwt auth

如何解决《WPrestapijwtauth》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ionic/Cordova:如何强制应用程序在开始时刷新,即使它在后台？

如何解决《Ionic/Cordova:如何强制应用程序在开始时刷新,即使它在后台？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Azure - BlobStore SAS uri命令执行失败.

如何解决《Azure-BlobStoreSASuri命令执行失败.》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在django admin中实现搜索

如何解决《如何在djangoadmin中实现搜索》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法找到相对于目录"web/static/js"的预设"es2015"

如何解决《无法找到相对于目录"web/static/js"的预设"es2015"》经验，为你挑选了2个好方法。 ... [详细]
程序员
提供非子域路由

如何解决《提供非子域路由》经验，为你挑选了1个好方法。 ... [详细]
程序员
设置公共Juypter服务器时SSL:WRONG_VERSION_NUMBER

如何解决《设置公共Juypter服务器时SSL:WRONG_VERSION_NUMBER》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在PHP中将多个值从视图传递到控制器

如何解决《如何在PHP中将多个值从视图传递到控制器》经验，为你挑选了1个好方法。 ... [详细]
程序员
C中的getlocale()函数

如何解决《C中的getlocale()函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
Mongoose - 无法在快速路线中检索虚拟场

如何解决《Mongoose-无法在快速路线中检索虚拟场》经验，为你挑选了1个好方法。 ... [详细]

TXCWB_523

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章