python爬取哈尔滨天气信息

作者：mobiledu2402852413 | 2021-11-03 08:24

这篇文章主要为大家详细介绍了python爬虫抓取哈尔滨天气信息，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

本文实例为大家分享了python爬取哈尔滨天气信息的具体代码，供大家参考，具体内容如下

环境：

windows7

python3.4（pip install requests；pip install BeautifulSoup4）

代码： （亲测可以正确执行）

# coding:utf-8
"""
总结一下，从网页上抓取内容大致分3步：
1、模拟浏览器访问，获取html源代码
2、通过正则匹配，获取指定标签中的内容
3、将获取到的内容写到文件中
"""
import requests # 用来抓取网页的html源代码
import csv # 将数据写入到csv文件中
import random # 取随机数
import time # 时间相关操作
import socket # 用于异常处理
import http.client # 用于异常处理
from bs4 import BeautifulSoup # 用来代替正则式取源码中相应标签中的内容


# 获取网页中的html代码
def get_content(url, data=None):
  header = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Accept-Encoding': 'gzip, deflate',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Connection': 'keep-alive',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
  }
  timeout = random.choice(range(80, 180)) # timeout是设定的一个超时时间，取随机数是因为防止被网站认定为网络爬虫
  while True:
    try:
      rep = requests.get(url, headers=header, timeout=timeout)
      rep.encoding = 'utf-8' # rep.encoding = ‘utf-8'是将源代码的编码格式改为utf-8
      break
    except socket.timeout as e:
      print('3:', e)
      time.sleep(random.choice(range(8, 15)))

    except socket.error as e:
      print('4:', e)
      time.sleep(random.choice(range(20, 60)))

    except http.client.BadStatusLine as e:
      print('5:', e)
      time.sleep(random.choice(range(30, 80)))

    except http.client.IncompleteRead as e:
      print('6:', e)
      time.sleep(random.choice(range(5, 15)))

  return rep.text


# 获取html中我们所需要的字段
def get_data(html_text):
  final = []
  bs = BeautifulSoup(html_text, "html.parser") # 创建BeautifulSoup对象
  body = bs.body # 获取body部分
  data = body.find('div', {'id': '7d'}) # 找到id为7d的div
  ul = data.find('ul') # 获取ul部分
  li = ul.find_all('li') # 获取所有的li

  for day in li: # 对每个li标签中的内容进行遍历
    temp = []
    date = day.find('h1').string # 找到日期
    temp.append(date) # 添加到temp中
    inf = day.find_all('p') # 找到li中的所有p标签
    temp.append(inf[0].string, ) # 第一个p标签中的内容（天气状况）加到temp中
    if inf[1].find('span') is None:
      temperature_highest = None # 天气预报可能没有当天的最高气温（到了傍晚，就是这样），需要加个判断语句,来输出最低气温
    else:
      temperature_highest = inf[1].find('span').string # 找到最高温
      temperature_highest = temperature_highest.replace('℃', '') # 到了晚上网站会变，最高温度后面也有个℃
    temperature_lowest = inf[1].find('i').string # 找到最低温
    temperature_lowest = temperature_lowest.replace('℃', '') # 最低温度后面有个℃，去掉这个符号
    temp.append(temperature_highest) # 将最高温添加到temp中
    temp.append(temperature_lowest) # 将最低温添加到temp中
    final.append(temp) # 将temp加到final中

  return final


# 写入文件csv
def write_data(data, name):
  file_name = name
  with open(file_name, 'a', errors='ignore', newline='') as f:
    f_csv = csv.writer(f)
    f_csv.writerows(data)


if __name__ == '__main__':
  url = 'http://www.weather.com.cn/weather/101050101.shtml'
  html = get_content(url)
  result = get_data(html)
  write_data(result, 'weather.csv')

讲解：

python标准库-----内置函数open(file,mode='r',buffering=-1,encoding=None,errors=None,newline=None...)

函数作用：打开一个文件并返回文件对象。如果文件不能打开，抛出异常OSError。

file：是一个字符串的文件名称，或者是一个数组表示的文件名称。文件名称可以是相对当前目录的路径，也可以是绝对路径表示。

mode：是指打开文件的模式。

1）‘r'表示打开文件只读，不能写。

2）‘w'表示打开文件只写，并且清空文件。

3）‘x'表示独占打开文件，如果文件已经存打开就会失败。

4）‘a'表示打开文件写，不清空文件，在文件后尾追加的方式写入。

5）‘b'表示二进制的模式打开文件。

6）‘t'表示文本模式，默认情况下就是这种模式。

7）‘+'打开文件更新（读取或写入）。

8）缺省时的模式就相当于'rt'。比如'w+b'就是打开文件进入读写，把文件清空；'r+b'打开文件，但不把文件清空。

参数buffering是一个可选的参数，用来表示缓冲区的策略选择。设置为0时，表示不使用缓冲区，直接读写，仅在二进制模式下有效。设置为1时，表示在文本模式下使用行缓冲区方式。设置为大于1时，表示缓冲区的设置大小。如果参数buffering没有给出，使用默认时，会采用下面策略来选择：

1）对于二进制文件模式时，采用固定块内存缓冲区方式，内存块的大小根据系统设备的分配的磁盘块来决定，如果获取系统磁盘块的大小失败，就使用内部常量io.DEFAULT_BUFFER_SIZE定义的大小。一般的操作系统上，块的大小是4096或者8192字节大小。

2）对于交互的文本文件（采用isatty()判断为True）时，采用一行缓冲区的方式。其它文本文件使用跟二进制一样的方式。

参数encoding是指明对文件编码，仅适用于文本文件。如果不明编码方式，默认是使用locale.getpreferredencoding()函数返回的编码方式。

参数errors是用来指明编码和解码错误时怎么样处理。不能在二进制的模式下使用。

1）当指明为'strict'时，编码出错则抛出异常ValueError。

2）当指明为'ignore'时，忽略错误。

3）当指明为'replace'时，使用某字符进行替代模式，比如使用'?'来替换出错的。

4）其它相应还有surrogateescape/xmlcharrefreplacs/backslashreplace。

参数newline是用来控制文本模式之下，一行的结束字符。可以是None，''，\n，\r，\r\n等。

1）当在读取模式下，如果新行符为None，那么就作为通用换行符模式工作，意思就是说当遇到\n，\r或\r\n都可以作为换行标识，并且统一转换为\n作为文本输入的换行符。当设置为空''时，也是通用换行符模式工作，但不作转换为\n，输入什么样的，就保持原样全输入。当设置为其它相应字符时，就会判断到相应的字符作为换行符，并保持原样输入到文本。

2）当在输出模式时，如果新行符为None，那么所有输出文本都是采用\n作为换行符。如果设置为''或者\n时，不作任何的替换动作。如果是其它字符，会在字符后面添加\n作为换行符。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

推荐阅读

程序员
Int.TryParse()始终返回false

如何解决《Int.TryParse()始终返回false》经验，为你挑选了1个好方法。 ... [详细]
程序员
iOS推送通知生产证书常见名称问题

如何解决《iOS推送通知生产证书常见名称问题》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在scala中进行内存分配

如何解决《如何在scala中进行内存分配》经验，为你挑选了1个好方法。 ... [详细]
程序员
符号显示不正确

如何解决《符号显示不正确》经验，为你挑选了3个好方法。 ... [详细]
程序员
我可以在dma_sync_single_for_cpu之后调用dma_unmap_single吗？

如何解决《我可以在dma_sync_single_for_cpu之后调用dma_unmap_single吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Java中随机化一个字符串

如何解决《在Java中随机化一个字符串》经验，为你挑选了0个好方法。 ... [详细]
程序员
循环c#wpf中的疯狂行为

如何解决《循环c#wpf中的疯狂行为》经验，为你挑选了1个好方法。 ... [详细]
程序员
解析dom元素时,JqueryUI滑块不起作用

如何解决《解析dom元素时,JqueryUI滑块不起作用》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用Python在2个组合数组中排列序列

如何解决《使用Python在2个组合数组中排列序列》经验，为你挑选了0个好方法。 ... [详细]
程序员
形式在angular2

如何解决《形式在angular2》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在swift中打印数组中的对象值,而不是它的位置

如何解决《如何在swift中打印数组中的对象值,而不是它的位置》经验，为你挑选了1个好方法。 ... [详细]
程序员
Swift的异构值类型数组如何工作？

如何解决《Swift的异构值类型数组如何工作？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何覆盖RecyclerView Adapter的notifyDataSetChanged,notifyItemChanged ...方法

如何解决《如何覆盖RecyclerViewAdapter的notifyDataSetChanged,notifyItemChanged方法》经验，为你挑选了2个好方法。 ... [详细]
程序员
删除排队的作业在Laravel 5

如何解决《删除排队的作业在Laravel5》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么是SSO(例如SAML)中使用的RelayState参数？

如何解决《什么是SSO(例如SAML)中使用的RelayState参数？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何让git-diff忽略所有的空白变化而忽略一个？

如何解决《如何让git-diff忽略所有的空白变化而忽略一个？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Sinon JS:有没有办法在sinon js中对对象参数的键值存根方法

如何解决《SinonJS:有没有办法在sinonjs中对对象参数的键值存根方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
Winston记录器文件名错误未定义

如何解决《Winston记录器文件名错误未定义》经验，为你挑选了1个好方法。 ... [详细]
程序员
PHP 7.0.1无法加载ini文件

如何解决《PHP7.0.1无法加载ini文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
写入BinaryWriter时的类型大小

如何解决《写入BinaryWriter时的类型大小》经验，为你挑选了0个好方法。 ... [详细]

mobiledu2402852413

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章