5赞

Python爬虫之爬取最新更新的小说网站

作者：mobiledu2402851323 | 2022-02-22 06:39

这篇文章主要介绍了Python爬虫之爬取最新更新的小说网站,文中有非常详细的代码示例,对正在学习python爬虫的小伙伴们有非常好的帮助,需要的朋友可以参考下

一、引言

这个五一假期自驾回老家乡下，家里没装宽带，用手机热点方式访问网络。这次回去感觉4G信号没有以前好，通过百度查找小说最新更新并打开小说网站很慢，有时要打开好多个网页才能找到可以正常打开的最新更新。为了躲懒，老猿决定利用Python爬虫知识，写个简单应用自己查找小说最新更新并访问最快的网站，花了点时间研究了一下相关报文，经过近一天时间研究和编写，终于搞定，下面就来介绍一下整个过程。

二、关于相关访问请求及应答报文

2.1、百度搜索请求

我们通过百度网页的搜索框进行搜索时，提交的url请求是这样的：

https://www.baidu.com/s?wd=搜索词&pn=10&rn=50

请求的url为https://www.baidu.com/s，带三个参数：

wd：搜索的关键词
pn：当前需要显示搜索结果记录在总搜索结果的序号，如总搜索有300条记录满足要求，现在要求显示第130条记录，则pn参数值设为130即可
rn：每页显示记录数，缺省为10条，可以自行设定，但如果设定超过50，则会强制显示为每页10条。

2.2、百度返回搜索结果

百度返回的搜索结果有多种方式确定，老猿认为如下方式最简单：
以搜索小说《青萍》为例来看其中的一个返回记录：


			青萍最新章节,青萍免费阅读 - 大神小说网

整个搜索返回的结果在一个h3的标签内，返回的搜索结果对应url在a标签内，具体url由href来指定。这里返回的url实际上是一个百度重定向的地址，可以通过打开该url访问对应网站，并通过返回响应消息获取真正网站的URL。

2.3、小说网站关于最新更新的展现及html报文格式

根据老猿分析，约占30%的小说网站关于最新更新章节的展现类似如下：

在这里插入图片描述

首先有类似“最新章节”或“最新更新”或“最近更新”等类似提示词，在该提示词后是显示最新章节的章节序号及章节名的一个链接，对应的报文类似如下：

最新章节：第729章就是给你们看看的

这个报文的特点是：

“最新章节”的文本信息与小说最新章节的链接在同一个父标签内。另外需要说明的是返回的章节url并不是绝对地址，而是小说网站的相对地址。

老猿对搜索小说查找最新章节都是基于以上格式的，因此实际上程序最终获取的小说网站只占了整个搜索结果的30%左右，不过对于看小说来说已经足够了。

三、实现思路及代码

3.1、根据url获取网站名

def getHostName(url):
    httpPost = url[10:]
    hostName = url[:10]+httpPost.split('/')[0]
    return hostName

3.2、根据百度返回搜索结果地址打开网站获取小说信息

基于2.3部分介绍的小说网站返回内容，我们来根据百度返回搜索结果的URL来打开对应小说网站，并计算从请求发起到响应返回的时间：

def getNoteInfo(url):
    """
    打开指定小说网页URL获取最新章节信息
    url:百度搜索结果指定的搜索匹配记录的url
    返回该URL对应的章节ID、打开耗时、网站真正URL、网站主机名、章节相对url、章节名
    
    """
    head = mkhead()
    start = time.time_ns()
    req = urllib.request.Request(url=url, headers=head)
    try:
        resp = urllib.request.urlopen(req,timeout=2)
        #根据响应头获取真正的网页URL对应的网站名
        hostName = getHostName(resp.url)
        text = resp.read()
        #网页编码有2种：utf-8和GBK
        pageText = text.decode('utf-8')
    except UnicodeDecodeError:
        pageText =  text.decode('GBK')
    except Exception as  e:
        errInf = f"打开网站 {url} 失败，异常原因：\n{e}\n" + '\n' + traceback.format_exc() + '\n'
        logPag(errInf, False)
        return None

    #最新章节的HTML报文类似： '最新章节：第672章 天之关梁'
    end = time.time_ns()
    soup = BeautifulSoup(pageText, 'lxml')
    # 根据最新章节的提示信息搜索最新章节
    result = soup.find_all(string=re.compile(r'最新更新[：:]|最新章节[：:]|最近更新[：:]|最新[：:]'))
    found = False
    for rec in result:
        recP = rec.parent
        pa = recP.a
        matchs = re.match(r'(?:最新更新|最新章节|最近更新|最新)[：:]第(.+)章(.+)', recP.text)
        if not matchs:return None
        groups = matchs.groups()
        if matchs and pa is not None:
            found = True
            chapter = toInt(groups[0]) #章节序号
            chapterName = groups[1] #章节名
            chaperUrl = pa.attrs['href'] #章节相对URL
            break
    if not found:
        return None

    cost = (end - start) / 1000000  #网页打开耗时计算
    return (chapter,cost,resp.url,hostName,chaperUrl,chapterName)

注意：由于不同网站访问响应情况不一样，因此在打开网页时设定超时是很有必要的，这样可以避免访问缓慢的网站耽误整体访问时间。

3.3、获取小说网页绝对url地址

将返回信息中相对url和网站名结合拼凑网页的绝对url地址：

def getChapterUrl(noteInf):
    chapter, cost, url, hostName, chaperUrl, chapterName = noteInf
    if chaperUrl.strip().startswith('http'):return chaperUrl
    elif chaperUrl.strip().startswith('/'):return hostName.strip()+chaperUrl.strip()
    else:return hostName.strip()+'/'+chaperUrl.strip()

3.4、计算排序权重

根据搜索小说网页访问的信息计算排序权重，确保最新章节排在最前，相同章节访问速度最快网站排在最前。

def noteWeight(n):
#入参n为小说信息元组: chapter, cost, url, hostName, chaperUrl, chapterName
    ch,co = n[:2]
    w = ch * 100000 + min(99999, 100000 / co)
    return w

3.5、进行百度搜索并解析搜索结果访问小说网站最新更新

根据搜索词在百度执行搜索，并取最新章节且访问速度最快的前5个网站url进行输出：

def BDSearchUsingChrome(inputword,maxCount=150):
    """
    输出相关搜索结果中具有最新章节且访问速度最快的前5个网站url
    :param word: 搜索关键词，如小说名、小说名+作者名等
    :param maxCount: 最多处理的搜索记录数
    :return: None
    """
    #百度请求url类似：https://www.baidu.com/s?wd=青萍&pn=10&rn=50
    rn = 50 #每页50条记录
    #构建请求头模拟本机谷歌浏览器访问百度网页
    head = mkheadByHostForChrome('baidu.com')
    word =  urllib.parse.quote(inputword)
    urlPagePre = 'https://www.baidu.com/s?wd='+word+'&rn=50&'
    pageCount = int(0.999+maxCount/rn)
    validNoteInf = []
    seq = 0
    logPag("开始执行搜索...")
    for page in range(pageCount):
        pn = rn*page
        urlPage = urlPagePre+str(pn)
        pageReq = urllib.request.Request(url=urlPage, headers=head)
        pageResp = urllib.request.urlopen(pageReq,timeout=2)
        pageText = pageResp.read().decode()

        if pageResp.status == 200:
            soup = BeautifulSoup(pageText,'lxml')
            links = soup.select('h3.t a[href^="http://www.baidu.com/link?url="]')

            for l in links:
                noteInf = getNoteInfo(l.attrs['href'])
                seq += 1
                if noteInf is None:
                    #print(seq,'、',l.attrs['href'],None)
                    logPag(f"{seq}、{l.attrs['href']}:查找最新章节失败，忽略",True)
                else:
                    logPag(f"{seq}、返回小说信息： {noteInf}",True)
                    #chapter,cost,url,hostName,chaperUrl,chapterName = noteInf
                    validNoteInf.append(noteInf)
    validNoteInf.sort(key=noteWeight,reverse=True)
    print(f"小说： {inputword} 最新更新访问最快的5个网站是：")
    for l in validNoteInf[:5]:#输出相关搜索结果中具有最新章节且访问速度最快的前5个网站url
        print(f"{validNoteInf.index(l)+1}、第{l[0]}章 {l[-1]}  {getChapterUrl(l)}  ，网页打开耗时 {l[1]} 毫秒")
    input("按回车键退出！")

四、搜索案例

以搜索月关大大的青萍作为案例，执行搜索的语句为：

BDSearchUsingChrome('青萍月关',150)

执行结果：

小说：青萍月关最新更新访问最快的5个网站是：
1、第688章东边日出西边雨 http://www.huaxiaci.com/41620/37631250.html ，网页打开耗时 262.0 毫秒
2、第688章东边日出西边雨 http://www.huaxiaci.com/41620/37631250.html ，网页打开耗时 278.0 毫秒
3、第688章东边日出西边雨 http://www.huaxiaci.com/41620/37631250.html ，网页打开耗时 345.5 毫秒
4、第688章东边日出西边雨 https://www.24kwx.com/book/9/9202/8889236.html ，网页打开耗时 774.0 毫秒
5、第688章东边日出西边雨 https://www.27kk.net/9526/2658932.html ，网页打开耗时 800.5 毫秒
按回车键退出！

五、小结

本文介绍了使用Python搜索指定小说最新更新章节以及访问最快网站的实现思想和关键应用代码，实现自动搜索小说最新更新章节以及获取访问最快的网站。以上的实现由于已经获取最新章节的链接，再稍微改进，就可以直接将最新章节下载到本地观看。

到此这篇关于Python爬虫之爬取最新更新的小说网站的文章就介绍到这了,更多相关Python爬取最新更新的小说网站内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

程序员
使用rustc_serialize并获取不带引号的字符串

如何解决《使用rustc_serialize并获取不带引号的字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
skimage调整大小给出奇怪的输出

如何解决《skimage调整大小给出奇怪的输出》经验，为你挑选了0个好方法。 ... [详细]
程序员
在更新面板内自动将文件上载到服务器第一次不起作用

如何解决《在更新面板内自动将文件上载到服务器第一次不起作用》经验，为你挑选了0个好方法。 ... [详细]
程序员
C++体系结构x86_64的未定义符号

如何解决《C++体系结构x86_64的未定义符号》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有办法在Haskell中模拟线性类型？

如何解决《有没有办法在Haskell中模拟线性类型？》经验，为你挑选了2个好方法。 ... [详细]
程序员
按条件跨多个列交换值

如何解决《按条件跨多个列交换值》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在matplotlib中更改科学记数法的字体大小？

如何解决《如何在matplotlib中更改科学记数法的字体大小？》经验，为你挑选了1个好方法。 ... [详细]
程序员
解决错误“与返回的局部变量关联的堆栈内存地址”

如何解决《解决错误“与返回的局部变量关联的堆栈内存地址”》经验，为你挑选了1个好方法。 ... [详细]
程序员
Windows命令：如何使用chdir推送当前目录以便以后弹出？

如何解决《Windows命令：如何使用chdir推送当前目录以便以后弹出？》经验，为你挑选了1个好方法。 ... [详细]
程序员
ObjectResult <T>不可用的异步方法

如何解决《ObjectResult<T>不可用的异步方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在java中获取Path的长度？

如何解决《如何在java中获取Path的长度？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在cx_Oracle中使用with cursor on cursor

如何解决《在cx_Oracle中使用withcursoroncursor》经验，为你挑选了0个好方法。 ... [详细]
程序员
关于返回STL容器数据成员而不调用复制构造函数

如何解决《关于返回STL容器数据成员而不调用复制构造函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
brew install opencv3显然是成功的,但缺少cv2.so和cv2.py

如何解决《brewinstallopencv3显然是成功的,但缺少cv2.so和cv2.py》经验，为你挑选了0个好方法。 ... [详细]
程序员
在派生类中,如何从基类中的属性类型获取派生类型的属性？

如何解决《在派生类中,如何从基类中的属性类型获取派生类型的属性？》经验，为你挑选了1个好方法。 ... [详细]
程序员
R中coord_flip后的反转顺序

如何解决《R中coord_flip后的反转顺序》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Jupyter笔记本进行彩色打印

如何解决《如何使用Jupyter笔记本进行彩色打印》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用Hibernate和Spring Boot启用批量插入

如何解决《如何使用Hibernate和SpringBoot启用批量插入》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法通过PHP查询MySQL数据库

如何解决《无法通过PHP查询MySQL数据库》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Moment.js获取序号

如何解决《使用Moment.js获取序号》经验，为你挑选了2个好方法。 ... [详细]

mobiledu2402851323

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章