如何使用urllib2从Python中打开的URL中提取特定数据？

作者：帆侮听我悄悄说星星 | 2023-08-24 19:35
如何解决《如何使用urllib2从Python中打开的URL中提取特定数据？》经验，为你挑选了1个好方法。
我是Python的新手,正在玩一个非常基本的网络爬虫.例如,我做了一个简单的功能来加载显示在线游戏的高分的页面.所以我能够获得html页面的源代码,但我需要从该页面中绘制特定的数字.例如,网页如下所示:
http://hiscore.runescape.com/hiscorepersonal.ws?user1=bigdrizzle13
其中'bigdrizzle13'是链接的独特部分.需要绘制并返回该页面上的数字.从本质上讲,我想构建一个程序,我所要做的就是输入'bigdrizzle13'并输出这些数字.
1> Triptych..：
正如另一张海报所提到的,BeautifulSoup是这项工作的绝佳工具.
这是整个夸张评论的程序.它可以使用很多容错,但只要您输入有效的用户名,它就会从相应的网页中提取所有分数.
我尽力发表评论.如果您对BeautifulSoup很感兴趣,我强烈建议您使用BeautifulSoup文档轻松完成我的示例.
整个计划......
from urllib2 import urlopen
from BeautifulSoup import BeautifulSoup
import sys

URL = "http://hiscore.runescape.com/hiscorepersonal.ws?user1=" + sys.argv[1]

# Grab page html, create BeatifulSoup object
html = urlopen(URL).read()
soup = BeautifulSoup(html)

# Grab the  element
scores = soup.find('table', {'id':'mini_player'})

# Get a list of all the s in the table, skip the header row
rows = scores.findAll('tr')[1:]

# Helper function to return concatenation of all character data in an element
def parse_string(el):
   text = ''.join(el.findAll(text=True))
   return text.strip()

for row in rows:

   # Get all the text from the s
   data = map(parse_string, row.findAll('td'))

   # Skip the first td, which is an image
   data = data[1:]

   # Do something with the data...
   print data


这是一个测试运行.

> test.py bigdrizzle13
[u'Overall', u'87,417', u'1,784', u'78,772,017']
[u'Attack', u'140,903', u'88', u'4,509,031']
[u'Defence', u'123,057', u'85', u'3,449,751']
[u'Strength', u'325,883', u'84', u'3,057,628']
[u'Hitpoints', u'245,982', u'85', u'3,571,420']
[u'Ranged', u'583,645', u'71', u'856,428']
[u'Prayer', u'227,853', u'62', u'357,847']
[u'Magic', u'368,201', u'75', u'1,264,042']
[u'Cooking', u'34,754', u'99', u'13,192,745']
[u'Woodcutting', u'50,080', u'93', u'7,751,265']
[u'Fletching', u'53,269', u'99', u'13,051,939']
[u'Fishing', u'5,195', u'99', u'14,512,569']
[u'Firemaking', u'46,398', u'88', u'4,677,933']
[u'Crafting', u'328,268', u'62', u'343,143']
[u'Smithing', u'39,898', u'77', u'1,561,493']
[u'Mining', u'31,584', u'85', u'3,331,051']
[u'Herblore', u'247,149', u'52', u'135,215']
[u'Agility', u'225,869', u'60', u'276,753']
[u'Thieving', u'292,638', u'56', u'193,037']
[u'Slayer', u'113,245', u'73', u'998,607']
[u'Farming', u'204,608', u'51', u'115,507']
[u'Runecraft', u'38,369', u'71', u'880,789']
[u'Hunter', u'384,920', u'53', u'139,030']
[u'Construction', u'232,379', u'52', u'125,708']
[u'Summoning', u'87,236', u'64', u'419,086']


瞧:)

            

    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        从弹性搜索中删除或删除旧数据
                    

                    
                                                
                        如何解决《从弹性搜索中删除或删除旧数据》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在chrome扩展开发中获取选定的文本？
                    

                    
                                                
                            
                        
                                                
                        如何解决《如何在chrome扩展开发中获取选定的文本？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用Optional Java 8避免在List处理中进行"空检查"
                    

                    
                                                
                        如何解决《使用OptionalJava8避免在List处理中进行"空检查"》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        为什么我的Arduino类构造函数需要参数？
                    

                    
                                                
                        如何解决《为什么我的Arduino类构造函数需要参数？》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        二进制搜索树的析构函数
                    

                    
                                                
                        如何解决《二进制搜索树的析构函数》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Service Fabric Reliable Collections:序列化问题
                    

                    
                                                
                        如何解决《ServiceFabricReliableCollections:序列化问题》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        R中的多项式回归 - 对曲线有额外的约束
                    

                    
                                                
                            
                        
                                                
                        如何解决《R中的多项式回归-对曲线有额外的约束》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在Eclipse Open Resource结果列表中排除某些项目/路径？
                    

                    
                                                
                        如何解决《如何在EclipseOpenResource结果列表中排除某些项目/路径？》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        运行基于SpringBoot的docker镜像返回错误消息:jarfile /app.jar无效或损坏
                    

                    
                                                
                        如何解决《运行基于SpringBoot的docker镜像返回错误消息:jarfile/app.jar无效或损坏》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何重新索引pandas数据帧以将起始索引值重置为零？
                    

                    
                                                
                        如何解决《如何重新索引pandas数据帧以将起始索引值重置为零？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        spring boot oauth2与jdbc令牌存储给出oauth_access_token关系不存在
                    

                    
                                                
                        如何解决《springbootoauth2与jdbc令牌存储给出oauth_access_token关系不存在》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        CUDA __constant__尊重全球记忆.哪个缓存？
                    

                    
                                                
                        如何解决《CUDA__constant__尊重全球记忆.哪个缓存？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用mvnvm vs mvn？
                    

                    
                                                
                        如何解决《使用mvnvmvsmvn？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        HTML中有多个页面,而且没有JS
                    

                    
                                                
                        如何解决《HTML中有多个页面,而且没有JS》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用termios api检测字符设备是否已在Linux中断开连接(c ++)
                    

                    
                                                
                        如何解决《使用termiosapi检测字符设备是否已在Linux中断开连接(c++)》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        带字符串响应的改造
                    

                    
                                                
                        如何解决《带字符串响应的改造》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在scikit-learn中进行一次热编码的可能方法？
                    

                    
                                                
                        如何解决《在scikit-learn中进行一次热编码的可能方法？》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        NSOpenPanel在沙箱继承过程中崩溃
                    

                    
                                                
                        如何解决《NSOpenPanel在沙箱继承过程中崩溃》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在debian上安装apcu作为php7扩展
                    

                    
                                                
                        如何解决《如何在debian上安装apcu作为php7扩展》经验，为你挑选了3个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Spring启动:使用oauth2保护api端点,同时拥有mvc UI页面
                    

                    
                                                
                        如何解决《Spring启动:使用oauth2保护api端点,同时拥有mvcUI页面》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    























    

    
        
            
            
                
                    
                
            

            
                帆侮听我悄悄说星星            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1在设计时未设置WPF转换器抛出对象引用
                
                                
                    2Facebook Marketing API  -  time_range
                
                                
                    3如何模拟一个Akka演员单元测试一个类？
                
                                
                    4RSS-Feed返回一个空字符串
                
                                
                    5XGBoost分类变量:Dummification与编码
                
                                
                    6MVC6从另一个网站解密表单身份验证cookie
                
                                
                    7如何在工具栏的顶部和底部放置颜色线
                
                                
                    8一种在python中以反向/反向顺序打印链表的方法
                
                                
                    9如何从c ++中的一个集合中随机选择一个元素？
                
                                
                    10有没有办法在PySpark中读取文本文件时控制分区数
                
                                
                    11我怎么知道我使用的是哪个jhipster版本？
                
                                
                    12Instagram,如何通过标签获取所有照片？
                
                                
                    13ASP.NET MVC 5路由可选参数
                
                                
                    14!镜像git存储库后出现[远程拒绝]错误
                
                                
                    15如何在div的底部中心对齐图像
                
                                
                    16Anypoint管理中心和骡子管理中心有什么区别？
                
                                
                    17框架的私有模块映射
                
                                
                    18glFinish()vs glFenceSync()+ glClientWaitSync()
                
                                
                    19如何使用带有windows api的c ++获取Windows文件"作者"而不是所有者
                
                                
                    20Android:从回调获得结果(网络KOUSH ION)
                
                            
        
    


    






    DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6 

    Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved  devBox.cn 开发工具箱  版权所有