python网络爬虫学习笔记（1）

作者：U友50081205_653 | 2022-10-18 15:15

这篇文章主要为大家详细介绍了python网络爬虫学习笔记的第一篇，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

本文实例为大家分享了python网络爬虫的笔记，供大家参考，具体内容如下

（一）三种网页抓取方法

1、正则表达式：

模块使用C语言编写，速度快，但是很脆弱，可能网页更新后就不能用了。

2、Beautiful Soup

模块使用Python编写，速度慢。

安装：

pip install beautifulsoup4

3、 Lxml

模块使用C语言编写，即快速又健壮，通常应该是最好的选择。

（二） Lxml安装

pip install lxml

如果使用lxml的css选择器，还要安装下面的模块

pip install cssselect

（三）使用lxml示例

import urllib.request as re
import lxml.html
#下载网页并返回HTML
def download(url,user_agent='Socrates',num=2):
  print('下载:'+url)
  #设置用户代理
  headers = {'user_agent':user_agent}
  request = re.Request(url,headers=headers)
  try:
    #下载网页
    html = re.urlopen(request).read()
  except re.URLError as e:
    print('下载失败'+e.reason)
    html=None
    if num>0:
      #遇到5XX错误时，递归调用自身重试下载，最多重复2次
      if hasattr(e,'code') and 500<=e.code<600:
        return download(url,num-1)
  return html
html = download('https://tieba.baidu.com/p/5475267611')
#将HTML解析为统一的格式
tree = lxml.html.fromstring(html)
# img = tree.cssselect('img.BDE_Image')
#通过lxml的xpath获取src属性的值，返回一个列表
img = tree.xpath('//img[@class="BDE_Image"]/@src')
x= 0
#迭代列表img,将图片保存在当前目录下
for i in img:
  re.urlretrieve(i,'%s.jpg'%x)
  x += 1

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

推荐阅读

程序员
快递路由器 - :id？

如何解决《快递路由器-:id？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Visual Studio表现得很奇怪.我该如何解决？

如何解决《VisualStudio表现得很奇怪.我该如何解决？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何获取导致“ st_distance_sphere参数错误”错误的值？

如何解决《如何获取导致“st_distance_sphere参数错误”错误的值？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Edge不会在flexbox中拉伸iframe

如何解决《Edge不会在flexbox中拉伸iframe》经验，为你挑选了1个好方法。 ... [详细]
程序员
Woocommerce:如何从ID中获取产品slug？

如何解决《Woocommerce:如何从ID中获取产品slug？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Web RTC重新协商错误

如何解决《WebRTC重新协商错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
VBoxManage命令修复了Windows上的Xamarin android播放器错误

如何解决《VBoxManage命令修复了Windows上的Xamarinandroid播放器错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
Ent Entity Framework可以在SQL中生成UPDATE ... WHERE语句吗？

如何解决《EntEntityFramework可以在SQL中生成UPDATEWHERE语句吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法在C++ Win32中为SysLink设置URL或ID

如何解决《无法在C++Win32中为SysLink设置URL或ID》经验，为你挑选了1个好方法。 ... [详细]
程序员
GPU拾取-精灵周围的不可见像素

如何解决《GPU拾取-精灵周围的不可见像素》经验，为你挑选了1个好方法。 ... [详细]
程序员
前缀密钥MySQL不正确

如何解决《前缀密钥MySQL不正确》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么我可以返回一个返回类型为AnyObject的bool？与UIKit而不是达尔文

如何解决《为什么我可以返回一个返回类型为AnyObject的bool？与UIKit而不是达尔文》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何以编程方式重新启动Windows 10 IoT应用程序

如何解决《如何以编程方式重新启动Windows10IoT应用程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
Tcl错误:错误#args:应该是"set varName？newValue？"

如何解决《Tcl错误:错误#args:应该是"setvarName？newValue？"》经验，为你挑选了1个好方法。 ... [详细]
程序员
AWS EC2实例路由表和VPC路由表

如何解决《AWSEC2实例路由表和VPC路由表》经验，为你挑选了1个好方法。 ... [详细]
程序员
Bin大小的seaborn jointplot

如何解决《Bin大小的seabornjointplot》经验，为你挑选了1个好方法。 ... [详细]
程序员
RxSwift:使用Zip与不同类型的可观察对象

如何解决《RxSwift:使用Zip与不同类型的可观察对象》经验，为你挑选了2个好方法。 ... [详细]
程序员
监视器错误与ember-cli

如何解决《监视器错误与ember-cli》经验，为你挑选了2个好方法。 ... [详细]
程序员
这条JS系列如何运作？

如何解决《这条JS系列如何运作？》经验，为你挑选了1个好方法。 ... [详细]
程序员
找不到模块:错误:无法解析模块'react-addons-test-utils'

如何解决《找不到模块:错误:无法解析模块'react-addons-test-utils'》经验，为你挑选了1个好方法。 ... [详细]

U友50081205_653

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章