python爬虫今日热榜数据到txt文件的源码

作者：sx-March23 | 2022-02-22 07:22

这篇文章主要介绍了python爬虫今日热榜数据到txt文件的源码,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下

今日热榜：https://tophub.today/

在这里插入图片描述

爬取数据及保存格式：

在这里插入图片描述

爬取后保存为.txt文件：

在这里插入图片描述

部分内容：

在这里插入图片描述

源码及注释：

import requests
from bs4 import BeautifulSoup

def download_page(url):
  headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
  try:
    r = requests.get(url,timeout = 30,headers=headers)
    return r.text
  except:
    return "please inspect your url or setup"


def get_content(html,tag):
  output = """  排名：{}\n  标题：{} \n  热度：{}\n  链接：{}\n  ------------\n"""
  output2 = """平台：{}  榜单类型：{}  最近更新：{}\n------------\n"""
  num=[]
  title=[]
  hot=[]
  href=[]
  soup = BeautifulSoup(html, 'html.parser')
  con = soup.find('div',attrs={'class':'bc-cc'})
  con_list = con.find_all('div', class_="cc-cd")
  for i in con_list: 
    author = i.find('div', class_='cc-cd-lb').get_text() # 获取平台名字
    time = i.find('div', class_='i-h').get_text() # 获取最近更新
    link = i.find('div', class_='cc-cd-cb-l').find_all('a') # 获取所有链接 
    gender = i.find('span', class_='cc-cd-sb-st').get_text() # 获取类型 
    save_txt(tag,output2.format(author, gender,time))
    for k in link:
      href.append(k['href'])
      num.append(k.find('span', class_='s').get_text())
      title.append(str(k.find('span', class_='t').get_text()))
      hot.append(str(k.find('span', class_='e').get_text()))
    for h in range(len(num)): 
      save_txt(tag,output.format(num[h], title[h], hot[h], href[h]))


def save_txt(tag,*args):
  for i in args:
    with open(tag+'.txt', 'a', encoding='utf-8') as f:
      f.write(i)


def main():
  #   综合  科技  娱乐  社区    购物   财经
  page=['news','tech','ent','community','shopping','finance']
  for tag in page:
    url = 'https://tophub.today/c/{}'.format(tag)
    html = download_page(url)
    get_content(html,tag)

if __name__ == '__main__':
  main()

到此这篇关于python爬虫今日热榜数据到txt文件的源码的文章就介绍到这了,更多相关python爬虫今日热榜数据内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

程序员
什么时候解析HTML DOM树？

如何解决《什么时候解析HTMLDOM树？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Node.js:如何远程调试？

如何解决《Node.js:如何远程调试？》经验，为你挑选了0个好方法。 ... [详细]
程序员
android中的每个活动都有自己的上下文吗？在单个应用程序中具有多个活动的方案是什么

如何解决《android中的每个活动都有自己的上下文吗？在单个应用程序中具有多个活动的方案是什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
在R中替换第一次出现的":"而不是第二次

如何解决《在R中替换第一次出现的":"而不是第二次》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Windows 10应用程序中获取WiFi适配器列表失败

如何解决《在Windows10应用程序中获取WiFi适配器列表失败》经验，为你挑选了0个好方法。 ... [详细]
程序员
带有"not character"的正则表达式与预期不匹配

如何解决《带有"notcharacter"的正则表达式与预期不匹配》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android Studio如何启动垃圾收集器以及它如何工作？

如何解决《AndroidStudio如何启动垃圾收集器以及它如何工作？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Go - ReverseProxy到Apache代理错误:x509:由未知权限签名的证书

如何解决《Go-ReverseProxy到Apache代理错误:x509:由未知权限签名的证书》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在CEKEditor中添加自定义html标签？

如何解决《如何在CEKEditor中添加自定义html标签？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在namedtuple中输入提示

如何解决《在namedtuple中输入提示》经验，为你挑选了2个好方法。 ... [详细]
程序员
按MongoDB中的子字符串对值进行分组

如何解决《按MongoDB中的子字符串对值进行分组》经验，为你挑选了1个好方法。 ... [详细]
程序员
当我动态更改html时,ng-click in ng-bind-html不会触发

如何解决《当我动态更改html时,ng-clickinng-bind-html不会触发》经验，为你挑选了0个好方法。 ... [详细]
程序员
重定向后如何在链接上设置活动类？

如何解决《重定向后如何在链接上设置活动类？》经验，为你挑选了1个好方法。 ... [详细]
程序员
meteor mongo驱动程序可以处理$ each和$ position运算符吗？

如何解决《meteormongo驱动程序可以处理$each和$position运算符吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在c ++中将char转换为string

如何解决《在c++中将char转换为string》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用SHA ID修改旧提交的评论消息

如何解决《使用SHAID修改旧提交的评论消息》经验，为你挑选了1个好方法。 ... [详细]
程序员
AMD Loader禁用,在主题中启用

如何解决《AMDLoader禁用,在主题中启用》经验，为你挑选了1个好方法。 ... [详细]
程序员
FileOutputStream将编码设置为utf-8

如何解决《FileOutputStream将编码设置为utf-8》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何动态地将类添加到焦点输入字段的父div？

如何解决《如何动态地将类添加到焦点输入字段的父div？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Webpack UglifyJS删除死代码,但不要最小化代码

如何解决《WebpackUglifyJS删除死代码,但不要最小化代码》经验，为你挑选了0个好方法。 ... [详细]

sx-March23

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章