5赞

Python实现的爬取小说爬虫功能示例

作者：帆侮听我悄悄说星星 | 2021-10-27 06:00

这篇文章主要介绍了Python实现的爬取小说爬虫功能,结合实例形式分析了Python爬取顶点小说站上的小说爬虫功能相关实现技巧,需要的朋友可以参考下

本文实例讲述了Python实现的爬取小说爬虫功能。分享给大家供大家参考，具体如下：

想把顶点小说网上的一篇持续更新的小说下下来，就写了一个简单的爬虫，可以爬取爬取各个章节的内容，保存到txt文档中，支持持续更新保存。需要配置一些信息，设置文档保存路径，书名等。写着玩，可能不大规范。

# coding=utf-8
import requests
from lxml import etree
from urllib.parse import urljoin
import re
import os
# 获取页面，并返回解析整理好的文本
def get_page(url):
  response = requests.get(url, headers=header)
  set_encoding(response)
  text = parse_page(response.text)
  return text
# 解析页面，将当前页面中的文字筛选出来
def parse_page(html):
  title = re.findall('\s+(.+?)', html)[0]
  content = re.findall('div id="content">(.*?)', html, re.S)[0]
  content = content.replace('
', '').replace(' ', ' ').replace('\r\n\r\n', '\r\n')
  content = title + '\r\n' + content + '\r\n\r\n'
  return content
# 将文本追加到file_path对应的txt中
def save_page(path, text):
  with open(path, 'a', encoding='utf-8') as f:
    f.write(text)
# 设置对response得到文本的解析编码为'gbk'
def set_encoding(response):
  response.encoding = 'gbk'
# 从配置文件中获取当前保存的链接总数
def get_current_chapters_count(path):
  # （1）第一次读配置文件可能没有创建，所以要支持没有文件创建文件的功能（2）如果文件存在，则不能清空，参考https://www.jb51.net/article/158740.htm
  with open(path, 'a+') as f:
    f.seek(0)
    res = f.read()
    if res == '':
      return 0
    else:
      return int(res)
# 将保存的链接总数保存到配置文件中
def set_current_chapters_count(path, count):
  with open(path, 'w') as f:
    f.write(str(count))
# 需要配置的字典
config_dic = dict(start_url='http://www.booktxt.net/2_2220/', # 待下载小说的章节首页 
         latest_item=9, # 列出的所有章节链接中，前面几个链接为最新章节，一般为9个，爬取时避免与最后部分重复，所以前面9个链接不爬取
         bookname='赘婿', # 待下载的小说名 
         folder_path='D:\\') #保存位置
domain = 'http://www.booktxt.net' # 顶点网域名
if __name__ == '__main__':
  chapter_url_list = []
  response = requests.get(config_dic['start_url'], headers=header)
  set_encoding(response)
  html = etree.HTML(response.text)
  chapters = html.xpath('//dd')
  print('所有链接' + str(len(chapters)))
  chapters = chapters[config_dic['latest_item']:] # 前9章为最新章节，后面还会重复，这里去掉
  print('不重复有效章节链接' + str(len(chapters)))
  folder_path = config_dic['folder_path'] + config_dic['bookname']
  if not os.path.exists(folder_path):
    os.mkdir(folder_path)
  file_path = folder_path + '\\' + config_dic['bookname'] + '.txt'
  config_file_path = folder_path + '\\' + 'config.txt'
  print('小说存储路径为：' + file_path)
  print('配置文件存储路径为：' + config_file_path)
  saved_count = get_current_chapters_count(config_file_path) # 获取目前保存的小说中已经包含的章节数
  print('当前' + file_path + '中已经保存的章节总数' + str(saved_count))
  if saved_count < len(chapters): # 说明有更新
    set_current_chapters_count(config_file_path, len(chapters))
    print('共更新 ' + str(len(chapters) - saved_count) + ' 章')
    for c in chapters[saved_count:]: # 从上次保存的位置开始继续保存
      url = c.xpath('a/@href')[0]
      url = urljoin(domain, url)
      txt = c.xpath('a/text()')[0]
      chapter_url_list.append(url)
      print(url)
      print(txt)
      save_page(file_path, get_page(url))
  else:
    print('小说还没有更新哦')

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

推荐阅读

程序员
如何在python中保护密码

如何解决《如何在python中保护密码》经验，为你挑选了0个好方法。 ... [详细]
程序员
instance_eval和singleton方法之间的区别

如何解决《instance_eval和singleton方法之间的区别》经验，为你挑选了0个好方法。 ... [详细]
程序员
AngularJS:显示加载器图像,直到加载数据

如何解决《AngularJS:显示加载器图像,直到加载数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
Microsoft JScript运行时错误:对象预期代码800A13F

如何解决《MicrosoftJScript运行时错误:对象预期代码800A13F》经验，为你挑选了1个好方法。 ... [详细]
程序员
隐藏状态monad的类型参数

如何解决《隐藏状态monad的类型参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
对于MVC6 RC1,现有的MVC项目是否有简单的升级过程？

如何解决《对于MVC6RC1,现有的MVC项目是否有简单的升级过程？》经验，为你挑选了1个好方法。 ... [详细]
程序员
动态突出显示时,将项目符号添加到<p>？

如何解决《动态突出显示时,将项目符号添加到<p>？》经验，为你挑选了2个好方法。 ... [详细]
程序员
是否可以将EntityFramework与MemSQL一起使用？

如何解决《是否可以将EntityFramework与MemSQL一起使用？》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么clock()返回1.84467e + 13？

如何解决《为什么clock()返回1.84467e+13？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何修复数组索引超出范围的异常

如何解决《如何修复数组索引超出范围的异常》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Express.JS来使用API

如何解决《使用Express.JS来使用API》经验，为你挑选了1个好方法。 ... [详细]
程序员
获取没有指定子项的父(作业)的SQL查询(状态)

如何解决《获取没有指定子项的父(作业)的SQL查询(状态)》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用dplyr汇总与组不匹配的值

如何解决《如何使用dplyr汇总与组不匹配的值》经验，为你挑选了2个好方法。 ... [详细]
程序员
po> 2&1对popen做了什么？

如何解决《po>2&1对popen做了什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
无效的'asm':嵌套的汇编方言替代品

如何解决《无效的'asm':嵌套的汇编方言替代品》经验，为你挑选了1个好方法。 ... [详细]
程序员
允许在Javascript中使用命名参数或位置参数

如何解决《允许在Javascript中使用命名参数或位置参数》经验，为你挑选了0个好方法。 ... [详细]
程序员
如果用户仅在EditText - Android中输入空格,则显示错误

如何解决《如果用户仅在EditText-Android中输入空格,则显示错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
@Path注释中冒号(:)的含义

如何解决《@Path注释中冒号(:)的含义》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法连接到tcp:5037:无法连接到127.0.0.1:5037:无法建立连接,因为目标计算机主动拒绝它.(10061)

如何解决《无法连接到tcp:5037:无法连接到127.0.0.1:5037:无法建立连接,因为目标计算机主动拒绝它.(10061)》经验，为你挑选了1个好方法。 ... [详细]
程序员
Internet Explorer中的全角背景视频

如何解决《InternetExplorer中的全角背景视频》经验，为你挑选了1个好方法。 ... [详细]

帆侮听我悄悄说星星

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章