众所周知,python是写爬虫的利器,今天作者用python写一个小爬虫爬下一个段子网站的众多段子。
目标段子网站为“http://ishuo.cn/”,我们先分析其下段子的所在子页的url特点,可以轻易发现发现为“http://ishuo.cn/subject/”+数字,
经过测试发现,该网站的反扒机制薄弱,可以轻易地爬遍其所有站点。
现在利用python的re及urllib库将其所有段子扒下
import sys import re import urllib #返回html格式 def gethtml(url): page=urllib.urlopen(url) html=page.read() return html def getmessage(html): p=re.compile(r'(.*)Tags | 热门标签RankList | 热门文章
- 1使用Swift在iOS中打印视图
- 2使用Android PdfDocument API创建PDF文件 - 文件太大
- 3如何使用主键作为JPA和Hibernate的外键引用?
- 4詹金斯现在需要SVN的"领域".你怎么找到它,应该输入什么?
- 5如何在Java for Android中以编程方式找到"数据"的路径?
- 6从Unity C中的其他脚本访问bool#
- 7如何从ASP.NET 5 Web Api返回HTTP 500?
- 8如何将字符串转换为unsigned int?C
- 9使用ACF从分类术语中获取图像
- 10滚动在chrome中的svg外部对象内部不起作用
- 11C#类转换为类
- 12在DICTATION_MODE中使用android.speech.SpeechRecognizer时出现延迟
- 13有没有办法获取Spark Dataframe的前1000行?
- 14使用Math.NET C#计算导数
- 15如何覆盖Python中的修饰方法?
- 16如果文本字段为空,如何禁用按钮?
- 17ES7中的新异步和等待关键字是否是从C#复制的?
- 18尝试使用ODP .NET连接时出现ORA-12154错误
- 19如何将服务的方法结果作为另一个服务的参数注入?
- 20使用ipython2 notebook获取"SyntaxError:invalid syntax"