8赞

Python爬虫实例爬取网站搞笑段子

作者：mobiledu2402852413 | 2022-12-28 11:38

这篇文章主要介绍了Python爬虫实例爬取网站搞笑段子，具有一定参考价值，看完了代码不妨看看段子，希望大家每天开心。

众所周知，python是写爬虫的利器，今天作者用python写一个小爬虫爬下一个段子网站的众多段子。

目标段子网站为“http://ishuo.cn/”，我们先分析其下段子的所在子页的url特点，可以轻易发现发现为“http://ishuo.cn/subject/”+数字，

经过测试发现，该网站的反扒机制薄弱，可以轻易地爬遍其所有站点。

现在利用python的re及urllib库将其所有段子扒下

import sys
import re
import urllib
#返回html格式
def gethtml(url):
  page=urllib.urlopen(url)
  html=page.read()
  return html
def getmessage(html):
  p=re.compile(r'(.*)





















    

    
        
            
            
                
                    
                
            

            
                mobiledu2402852413            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1使用Swift在iOS中打印视图
                
                                
                    2使用Android PdfDocument API创建PDF文件 - 文件太大
                
                                
                    3如何使用主键作为JPA和Hibernate的外键引用？
                
                                
                    4詹金斯现在需要SVN的"领域".你怎么找到它,应该输入什么？
                
                                
                    5如何在Java for Android中以编程方式找到"数据"的路径？
                
                                
                    6从Unity C中的其他脚本访问bool#
                
                                
                    7如何从ASP.NET 5 Web Api返回HTTP 500？
                
                                
                    8如何将字符串转换为unsigned int？C
                
                                
                    9使用ACF从分类术语中获取图像
                
                                
                    10滚动在chrome中的svg外部对象内部不起作用
                
                                
                    11C#类转换为类
                
                                
                    12在DICTATION_MODE中使用android.speech.SpeechRecognizer时出现延迟
                
                                
                    13有没有办法获取Spark Dataframe的前1000行？
                
                                
                    14使用Math.NET C#计算导数
                
                                
                    15如何覆盖Python中的修饰方法？
                
                                
                    16如果文本字段为空,如何禁用按钮？
                
                                
                    17ES7中的新异步和等待关键字是否是从C#复制的？
                
                                
                    18尝试使用ODP .NET连接时出现ORA-12154错误
                
                                
                    19如何将服务的方法结果作为另一个服务的参数注入？
                
                                
                    20使用ipython2 notebook获取"SyntaxError:invalid syntax"

DevBox开发工具箱 | 专业的在线开发工具网站