19赞

python利用beautifulSoup实现爬虫

作者：小妖694_807 | 2021-11-03 13:25

这篇文章主要介绍了python利用beautifulSoup实现爬虫,需要的朋友可以参考下

以前讲过利用phantomjs做爬虫抓网页 https://www.jb51.net/article/55789.htm 是配合选择器做的

利用 beautifulSoup(文档：http://www.crummy.com/software/BeautifulSoup/bs4/doc/)这个python模块，可以很轻松的抓取网页内容

# coding=utf-8
import urllib
from bs4 import BeautifulSoup

url ='http://www.baidu.com/s'
values ={'wd':'网球'}
encoded_param = urllib.urlencode(values)
full_url = url +'?'+ encoded_param
response = urllib.urlopen(full_url)
soup =BeautifulSoup(response)
alinks = soup.find_all('a')

上面可以抓取百度搜出来结果是网球的记录。

beautifulSoup内置了很多非常有用的方法。

几个比较好用的特性：

构造一个node元素

复制代码代码如下:

soup = BeautifulSoup('Extremely bold')

tag = soup.b

type(tag)

#

属性可以使用attr拿到，结果是字典

复制代码代码如下:

tag.attrs

# {u'class': u'boldest'}

或者直接tag.class取属性也可。

也可以自由操作属性

tag['class'] = 'verybold'
tag['id'] = 1
tag
# Extremely bold

del tag['class']
del tag['id']
tag
# Extremely bold

tag['class']
# KeyError: 'class'
print(tag.get('class'))
# None

还可以随便操作，查找dom元素，比如下面的例子

1.构建一份文档

html_doc = """
<html><head><title>The Dormouse's story</title></head>

<p><b>The Dormouse's story</b></p>

<p>Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" id="link1">Elsie</a>,
<a href="http://example.com/lacie" id="link2">Lacie</a> and
<a href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p>...</p>
"""

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc)

2.各种搞

soup.head
# The Dormouse's story
soup.title
# The Dormouse's story
soup.body.b
# The Dormouse's story
soup.a
# Elsie
soup.find_all('a')
# [Elsie,
# Lacie,
# Tillie]
head_tag = soup.head
head_tag
# The Dormouse's story

head_tag.contents
[The Dormouse's story]

title_tag = head_tag.contents[0]
title_tag
# The Dormouse's story
title_tag.contents
# [u'The Dormouse's story']
len(soup.contents)
# 1
soup.contents[0].name
# u'html'
text = title_tag.contents[0]
text.contents

for child in title_tag.children:
  print(child)
head_tag.contents
# [The Dormouse's story]
for child in head_tag.descendants:
  print(child)
# The Dormouse's story
# The Dormouse's story

len(list(soup.children))
# 1
len(list(soup.descendants))
# 25
title_tag.string
# u'The Dormouse's story'

推荐阅读

程序员
IE 11的GWT源图

如何解决《IE11的GWT源图》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Linux上使用FFmpeg从OpenCV 3编写x264

如何解决《在Linux上使用FFmpeg从OpenCV3编写x264》经验，为你挑选了2个好方法。 ... [详细]
程序员
打开搜索栏时导航栏正在隐藏

如何解决《打开搜索栏时导航栏正在隐藏》经验，为你挑选了1个好方法。 ... [详细]
程序员
ASP.NET WebForms中的SignalR

如何解决《ASP.NETWebForms中的SignalR》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在PC中区分耳机与集成音频

如何解决《如何在PC中区分耳机与集成音频》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何检查下个月是否有4个不同的日期

如何解决《如何检查下个月是否有4个不同的日期》经验，为你挑选了1个好方法。 ... [详细]
程序员
TomEE 7.0.0上ManagedScheduledExecutorService的任务内部的事务？

如何解决《TomEE7.0.0上ManagedScheduledExecutorService的任务内部的事务？》经验，为你挑选了1个好方法。 ... [详细]
程序员
从字符串中提取java中一年的最后两位数字

如何解决《从字符串中提取java中一年的最后两位数字》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用正则表达式验证用户输入是一个整数

如何解决《使用正则表达式验证用户输入是一个整数》经验，为你挑选了1个好方法。 ... [详细]
程序员
根据MySQL数据库字段中的值设置背景颜色

如何解决《根据MySQL数据库字段中的值设置背景颜色》经验，为你挑选了1个好方法。 ... [详细]
程序员
更改Visual Studio 2015的黑暗主题的TypeScript配色方案

如何解决《更改VisualStudio2015的黑暗主题的TypeScript配色方案》经验，为你挑选了1个好方法。 ... [详细]
程序员
char数组初始化程序中的多余元素错误

如何解决《char数组初始化程序中的多余元素错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
设置default_socket_timeout为无穷大？

如何解决《设置default_socket_timeout为无穷大？》经验，为你挑选了1个好方法。 ... [详细]
程序员
#20区域的VS2015主题颜色

如何解决《#20区域的VS2015主题颜色》经验，为你挑选了1个好方法。 ... [详细]
程序员
goBack()带我到第一个入口,而不是我想去的地方

如何解决《goBack()带我到第一个入口,而不是我想去的地方》经验，为你挑选了0个好方法。 ... [详细]
程序员
S3调度`rbind`和`cbind`

如何解决《S3调度`rbind`和`cbind`》经验，为你挑选了1个好方法。 ... [详细]
程序员
在鼠标悬停时更改按钮颜色

如何解决《在鼠标悬停时更改按钮颜色》经验，为你挑选了1个好方法。 ... [详细]
程序员
OCR:两帧之间的差异

如何解决《OCR:两帧之间的差异》经验，为你挑选了1个好方法。 ... [详细]
程序员
用不同的编码读取Rdata文件

如何解决《用不同的编码读取Rdata文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法使ShouldSerialize模式与XmlSerializer一起使用

如何解决《无法使ShouldSerialize模式与XmlSerializer一起使用》经验，为你挑选了1个好方法。 ... [详细]

小妖694_807

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章