5赞

python实现博客文章爬虫示例

作者：无名有名我无名_593 | 2021-10-27 07:21

简单的博客文章爬虫，比较通用，因为大部分的网站结构都差不多,需要的朋友可以参考下

复制代码代码如下:

#!/usr/bin/python
#-*-coding:utf-8-*-
# JCrawler
# Author: Jam <810441377@qq.com>

import time
import urllib2
from bs4 import BeautifulSoup

# 目标站点
TargetHost = "http://adirectory.blog.com"
# User Agent
UserAgent = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.117 Safari/537.36'
# 链接采集规则
# 目录链接采集规则
CategoryFind    = [{'findMode':'find','findTag':'div','rule':{'id':'cat-nav'}},
                   {'findMode':'findAll','findTag':'a','rule':{}}]
# 文章链接采集规则
ArticleListFind = [{'findMode':'find','findTag':'div','rule':{'id':'content'}},
                   {'findMode':'findAll','findTag':'h2','rule':{'class':'title'}},
                   {'findMode':'findAll','findTag':'a','rule':{}}]
# 分页URL规则
PageUrl = 'page/#page/'
PageStart = 1
PageStep = 1
PageStopHtml = '404: Page Not Found'

def GetHtmlText(url):
    request = urllib2.Request(url)
    request.add_header('Accept', "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp")
    request.add_header('Accept-Encoding', "*")
    request.add_header('User-Agent', UserAgent)
    return urllib2.urlopen(request).read()

def ArrToStr(varArr):
    returnStr = ""
    for s in varArr:
        returnStr += str(s)
    return returnStr

def GetHtmlFind(htmltext, findRule):
    findReturn = BeautifulSoup(htmltext)
    returnText = ""
    for f in findRule:
        if returnText != "":
            findReturn = BeautifulSoup(returnText)
        if f['findMode'] == 'find':
            findReturn = findReturn.find(f['findTag'], f['rule'])
        if f['findMode'] == 'findAll':
            findReturn = findReturn.findAll(f['findTag'], f['rule'])
        returnText = ArrToStr(findReturn)
    return findReturn

def GetCategory():
    categorys = [];
    htmltext = GetHtmlText(TargetHost)
    findReturn = GetHtmlFind(htmltext, CategoryFind)

    for tag in findReturn:
        print "[G]->Category:" + tag.string + "|Url:" + tag['href']
        categorys.append({'name': tag.string, 'url': tag['href']})
    return categorys;

def GetArticleList(categoryUrl):
    articles = []
    page = PageStart
    #pageUrl = PageUrl
    while True:
        htmltext = ""
        pageUrl = PageUrl.replace("#page", str(page))
        print "[G]->PageUrl:" + categoryUrl + pageUrl
        while True:
            try:
                htmltext = GetHtmlText(categoryUrl + pageUrl)
                break
            except urllib2.HTTPError,e:
                print "[E]->HTTP Error:" + str(e.code)
                if e.code == 404:
                    htmltext = PageStopHtml
                    break
                if e.code == 504:
                    print "[E]->HTTP Error 504: Gateway Time-out, Wait"
                    time.sleep(5)
                else:
                    break

        if htmltext.find(PageStopHtml) >= 0:
            print "End Page."
            break
        else:

            findReturn = GetHtmlFind(htmltext, ArticleListFind)

            for tag in findReturn:
                if tag.string != None and tag['href'].find(TargetHost) >= 0:
                    print "[G]->Article:" + tag.string + "|Url:" + tag['href']
                    articles.append({'name': tag.string, 'url': tag['href']})

page += 1

return articles;

print "[G]->GetCategory"
Mycategorys = GetCategory();
print "[G]->GetCategory->Success."
time.sleep(3)
for category in Mycategorys:
print "[G]->GetArticleList:" + category['name']
GetArticleList(category['url'])

推荐阅读

程序员
spring mvc rest protocol缓冲http 406不可接受的错误

如何解决《springmvcrestprotocol缓冲http406不可接受的错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
file_get_contents没有返回整个网页

如何解决《file_get_contents没有返回整个网页》经验，为你挑选了1个好方法。 ... [详细]
程序员
简单程序的高CPU使用率

如何解决《简单程序的高CPU使用率》经验，为你挑选了1个好方法。 ... [详细]
程序员
将HDFS格式的本地磁盘替换为s3获取错误(org.apache.hadoop.service.AbstractService)

如何解决《将HDFS格式的本地磁盘替换为s3获取错误(org.apache.hadoop.service.AbstractService)》经验，为你挑选了1个好方法。 ... [详细]
程序员
Aptana Studio在MAC OS X El Capitan中找不到JNI_CreateJavaVM符号

如何解决《AptanaStudio在MACOSXElCapitan中找不到JNI_CreateJavaVM符号》经验，为你挑选了1个好方法。 ... [详细]
程序员
Go:从http.Request获取路径参数

如何解决《Go:从http.Request获取路径参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
在C中声明变量

如何解决《在C中声明变量》经验，为你挑选了2个好方法。 ... [详细]
程序员
添加依赖项到Android Cordova插件

如何解决《添加依赖项到AndroidCordova插件》经验，为你挑选了2个好方法。 ... [详细]
程序员
Max in a C++ Array

如何解决《MaxinaC++Array》经验，为你挑选了1个好方法。 ... [详细]
程序员
R数据表 - 将值的向量添加为列

如何解决《R数据表-将值的向量添加为列》经验，为你挑选了2个好方法。 ... [详细]
程序员
Python嵌套范围函数

如何解决《Python嵌套范围函数》经验，为你挑选了2个好方法。 ... [详细]
程序员
导入pygame时出错

如何解决《导入pygame时出错》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何更改2D图像的视口？

如何解决《如何更改2D图像的视口？》经验，为你挑选了1个好方法。 ... [详细]
程序员
css使用:not()继承类

如何解决《css使用:not()继承类》经验，为你挑选了1个好方法。 ... [详细]
程序员
React-native:检测开发或生产环境

如何解决《React-native:检测开发或生产环境》经验，为你挑选了1个好方法。 ... [详细]
程序员
ASP.NET MVC5拒绝映射与物理路径匹配的路由

如何解决《ASP.NETMVC5拒绝映射与物理路径匹配的路由》经验，为你挑选了1个好方法。 ... [详细]
程序员
对于符合SQL Server的C#,仅解析时间(分钟:秒.Ms)

如何解决《对于符合SQLServer的C#,仅解析时间(分钟:秒.Ms)》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Python中查找文本中所有出现的整数

如何解决《在Python中查找文本中所有出现的整数》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用SimpleDateFormat时出现ParseException

如何解决《使用SimpleDateFormat时出现ParseException》经验，为你挑选了1个好方法。 ... [详细]
程序员
从React中已检查的输入中获取价值

如何解决《从React中已检查的输入中获取价值》经验，为你挑选了1个好方法。 ... [详细]

无名有名我无名_593

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章