19赞

从reddit获取顶级壁纸

作者：地之南_816 | 2023-09-08 19:13

如何解决《从reddit获取顶级壁纸》经验，为你挑选了1个好方法。

我正试图从Reddit的壁纸subreddit获得最热门的壁纸.我使用beautiful soup,以获得HTML第一壁纸的布局,然后regex获得URL从锚标记.但通常我会得到一个与我的正则表达式不匹配的URL.这是我正在使用的代码:

r = requests.get("https://www.reddit.com/r/wallpapers")
if r.status_code == 200:
    print r.status_code
    text = r.text
    soup = BeautifulSoup(text, "html.parser")

search_string = str(soup.find('a', {'class':'title'}))
photo_url = str(re.search('[htps:/]{7,8}[a-zA-Z0-9._/:.]+[a-zA-Z0-9./:.-]+', search_string).group())

它有什么办法吗？

1> Jarwin..：

这是一个更好的方法:在Reddit中
添加.json到url的末尾返回一个对象而不是. 例如,将提供HTML内容,但会为您提供一个json对象,您可以使用python中的模块轻松利用它jsonHTML
https://www.reddit.com/r/wallpapers
https://www.reddit.com/r/wallpapers/.jsonjson

这是获得最热门壁纸的相同程序:

>>> import urllib
>>> import json

>>> data = urllib.urlopen('https://www.reddit.com/r/wallpapers/.json')
>>> wallpaper_dict = json.loads(data.read())

>>> wallpaper_dict['data']['children'][1]['data']['url']
u'http://i.imgur.com/C49VtMu.jpg'

>>> wallpaper_dict['data']['children'][1]['data']['title']
u'Space Shuttle'

>>> wallpaper_dict['data']['children'][1]['data']['domain']
u'i.imgur.com'

如果reddit改变它的HTML布局或有人发布你的正则表达式无法处理的URL,它不仅会更清洁,它还可以防止你头疼.
作为一个拇指规则,使用json而不是刮取HTML

PS 通常更聪明:里面的列表[children]是壁纸编号.第一个是最顶层,第二个是第二个,依此类推.因此,['data']['children'][2]['data']['url']将为您提供第二个最热壁纸的链接.你得到了要点？:)

PPS:更重要的是,使用此方法,您可以使用默认urllib模块.通常,当你正在抓取时,Reddit你必须创建假User-Agent标头并在请求时传递它(或者它给你一个429响应代码,但这不是这种方法的情况.

推荐阅读

程序员
在Excel中引用

如何解决《在Excel中引用》经验，为你挑选了1个好方法。 ... [详细]
程序员
嵌套三元隐式类型转换问题:无法确定条件表达式的类型,因为它们之间没有隐式转换

如何解决《嵌套三元隐式类型转换问题:无法确定条件表达式的类型,因为它们之间没有隐式转换》经验，为你挑选了1个好方法。 ... [详细]
程序员
sqoop,选择特定列

如何解决《sqoop,选择特定列》经验，为你挑选了1个好方法。 ... [详细]
程序员
REST API版本控制 - 为什么版本不是模型

如何解决《RESTAPI版本控制-为什么版本不是模型》经验，为你挑选了1个好方法。 ... [详细]
程序员
在联合中使用继承

如何解决《在联合中使用继承》经验，为你挑选了0个好方法。 ... [详细]
程序员
在OSX上使用CMake构建Unity本机包

如何解决《在OSX上使用CMake构建Unity本机包》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用ShaderMaterial的自定义几何体的纹理加载在Three.js中不起作用

如何解决《使用ShaderMaterial的自定义几何体的纹理加载在Three.js中不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么这个调用swap()模棱两可？

如何解决《为什么这个调用swap()模棱两可？》经验，为你挑选了2个好方法。 ... [详细]
程序员
张量流显式设备要求错误

如何解决《张量流显式设备要求错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
跟踪嵌入式Python解释器中的代码执行

如何解决《跟踪嵌入式Python解释器中的代码执行》经验，为你挑选了1个好方法。 ... [详细]
程序员
NUnit 3.0 TestCase const自定义对象参数

如何解决《NUnit3.0TestCaseconst自定义对象参数》经验，为你挑选了2个好方法。 ... [详细]
程序员
dplyr在mutate中每组播放单个值

如何解决《dplyr在mutate中每组播放单个值》经验，为你挑选了1个好方法。 ... [详细]
程序员
在RoR中有什么方法可以在路由中添加一些可选参数吗？

如何解决《在RoR中有什么方法可以在路由中添加一些可选参数吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否有可能在C#中编写没有变量的程序？

如何解决《是否有可能在C#中编写没有变量的程序？》经验，为你挑选了1个好方法。 ... [详细]
程序员
从项目中的核心数据开始？

如何解决《从项目中的核心数据开始？》经验，为你挑选了1个好方法。 ... [详细]
程序员
排序和匹配列表项

如何解决《排序和匹配列表项》经验，为你挑选了1个好方法。 ... [详细]
程序员
将原始14位二进制补码转换为有符号16位整数

如何解决《将原始14位二进制补码转换为有符号16位整数》经验，为你挑选了2个好方法。 ... [详细]
程序员
未捕获的TypeError：window.reload不是函数

如何解决《未捕获的TypeError：window.reload不是函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Windows服务器上从bitbucket自动部署到iis

如何解决《在Windows服务器上从bitbucket自动部署到iis》经验，为你挑选了0个好方法。 ... [详细]
程序员
通过C中的数组迭代

如何解决《通过C中的数组迭代》经验，为你挑选了1个好方法。 ... [详细]

地之南_816

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章