当前位置:  开发笔记 > 编程语言 > 正文

Python爬虫实例爬取网站搞笑段子

这篇文章主要介绍了Python爬虫实例爬取网站搞笑段子,具有一定参考价值,看完了代码不妨看看段子,希望大家每天开心。

众所周知,python是写爬虫的利器,今天作者用python写一个小爬虫爬下一个段子网站的众多段子。

目标段子网站为“http://ishuo.cn/”,我们先分析其下段子的所在子页的url特点,可以轻易发现发现为“http://ishuo.cn/subject/”+数字,

经过测试发现,该网站的反扒机制薄弱,可以轻易地爬遍其所有站点。

现在利用python的re及urllib库将其所有段子扒下

import sys
import re
import urllib
#返回html格式
def gethtml(url):
  page=urllib.urlopen(url)
  html=page.read()
  return html
def getmessage(html):
  p=re.compile(r'
(.*)
mobiledu2402852413
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有