5赞

python如何爬取网页中的文字

作者：ERIK又 | 2022-02-22 09:02

在本篇文章里小编给大家整理的是关于python如何爬取网页中的文字的相关实例内容，需要的朋友们可以学习下。

用Python进行爬取网页文字的代码：

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 下载一个网页
url = 'https://www.biquge.tw/75_75273/3900155.html'
# 模拟浏览器发送http请求
response = requests.get(url)
# 编码方式
response.encoding='utf-8'
# 目标小说主页的网页源码
html = response.text
print(html)

1、编写爬虫思路：

确定下载目标，找到网页，找到网页中需要的内容。对数据进行处理。保存数据。

2、知识点说明：

1）确定网络中需要的信息，打开网页后使用F12打开开发者模式。

在Network中可以看到很多信息，我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response，文字信息都包含在response中。

对于需要输入的信息，可以使用ctrl+f，进行搜索。查看信息前后包含哪些特定字段。

对于超链接的提取，可以使用最左边的箭头点击超链接，这时Elements会打开有该条超链接的信息，从中判断需要提取的信息。从下载小说来看，在目录页提取出小说的链接和章节名。

2）注意编码格式

输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。

内容扩展：

接下来我们了解一下爬取网页信息的步骤。

想要获得我们所需的数据分三步

第一步：使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,'lxml')

第二步：描述想要爬去信息的东西在哪里。

信息 = Soup.select('???')

要知道它叫什么名字，如何去定位。

第三步：从标签中获得你想要的信息

Something

从标签中获取我们需要的信息，去掉一些没有用的结构，并且把我们获取的信息按照一定格式装在数据容器中，方便我们去查询。

以上就是python如何爬取网页中的文字的详细内容，更多关于python爬取网页文字的资料请关注其它相关文章！

推荐阅读

程序员
在TMemo中锁定文本的开头

如何解决《在TMemo中锁定文本的开头》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何以这种格式验证字符串:p [1或更多数字]？

如何解决《如何以这种格式验证字符串:p[1或更多数字]？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果a的值是5,那么a ++ + a的值是多少？

如何解决《如果a的值是5,那么a+++a的值是多少？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将命令行参数转换为双数组以计算总和？

如何解决《如何将命令行参数转换为双数组以计算总和？》经验，为你挑选了0个好方法。 ... [详细]
程序员
iOS有类似Android的RecyclerView吗？

如何解决《iOS有类似Android的RecyclerView吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Haskell中生成下一个词典字符串

如何解决《在Haskell中生成下一个词典字符串》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用rustc_serialize并获取不带引号的字符串

如何解决《使用rustc_serialize并获取不带引号的字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
skimage调整大小给出奇怪的输出

如何解决《skimage调整大小给出奇怪的输出》经验，为你挑选了0个好方法。 ... [详细]
程序员
在更新面板内自动将文件上载到服务器第一次不起作用

如何解决《在更新面板内自动将文件上载到服务器第一次不起作用》经验，为你挑选了0个好方法。 ... [详细]
程序员
C++体系结构x86_64的未定义符号

如何解决《C++体系结构x86_64的未定义符号》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有办法在Haskell中模拟线性类型？

如何解决《有没有办法在Haskell中模拟线性类型？》经验，为你挑选了2个好方法。 ... [详细]
程序员
按条件跨多个列交换值

如何解决《按条件跨多个列交换值》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在matplotlib中更改科学记数法的字体大小？

如何解决《如何在matplotlib中更改科学记数法的字体大小？》经验，为你挑选了1个好方法。 ... [详细]
程序员
解决错误“与返回的局部变量关联的堆栈内存地址”

如何解决《解决错误“与返回的局部变量关联的堆栈内存地址”》经验，为你挑选了1个好方法。 ... [详细]
程序员
Windows命令：如何使用chdir推送当前目录以便以后弹出？

如何解决《Windows命令：如何使用chdir推送当前目录以便以后弹出？》经验，为你挑选了1个好方法。 ... [详细]
程序员
ObjectResult <T>不可用的异步方法

如何解决《ObjectResult<T>不可用的异步方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在java中获取Path的长度？

如何解决《如何在java中获取Path的长度？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在cx_Oracle中使用with cursor on cursor

如何解决《在cx_Oracle中使用withcursoroncursor》经验，为你挑选了0个好方法。 ... [详细]
程序员
关于返回STL容器数据成员而不调用复制构造函数

如何解决《关于返回STL容器数据成员而不调用复制构造函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
brew install opencv3显然是成功的,但缺少cv2.so和cv2.py

如何解决《brewinstallopencv3显然是成功的,但缺少cv2.so和cv2.py》经验，为你挑选了0个好方法。 ... [详细]

ERIK又

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章