15赞

python爬虫请求头设置代码

作者：惬听风吟jyy_802 | 2022-12-25 17:13

在本篇文章里小编给大家整理的是一篇关于python爬虫请求头如何设置内容，需要的朋友们可以学习下。

一、requests设置请求头:

import requests

url="http://www.targetweb.com"

headers={

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'Cache-Control':'max-age=0',

'Connection':'keep-alive',

'Referer':'http://www.baidu.com/',

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400'}

res=requests.get(url,headers=headers)

#图片下载时要用到字节流，请求方式如下

#res=requests.get(url,stream=True,headers)

二、Selenium+Chrome请求头设置:

from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('lang=zh_CN.UTF-8')# 设置中文
options.add_argument('user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400"')# 设置头部
browser = webdriver.Chrome(chrome_options=options)
url="http://www.targetweb.com"
browser.get(url)
browser.quit()

三、selenium+phantomjs请求头设置：

from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
des_cap = dict(DesiredCapabilities.PHANTOMJS)
des_cap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400")
browser = webdriver.PhantomJS(desired_capabilities=des_cap)
url="http://www.targetweb.com"
browser.get(url)
browser.quit()

四、爬虫框架scrapy设置请求头：

在settings.py文件中添加如下：

DEFAULT_REQUEST_HEADERS = {
'accept': 'image/webp,*/*;q=0.8',
'accept-language': 'zh-CN,zh;q=0.8',
'referer': 'https://www.baidu.com/',
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400',}

五、Python异步Aiohttp请求头设置:

import aiohttp
url="http://www.targetweb.com"
headers={
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Cache-Control':'max-age=0',
'Connection':'keep-alive',
'Referer':'http://www.baidu.com/',
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400'}
asyncwithaiohttp.ClientSession(headers=headers)assession:
asyncwithsession.get(url)asresp:
print(resp.status)
print(awaitresp.text())

内容扩展：

1、为什么要设置headers?

在请求网页爬取的时候，输出的text信息中会出现抱歉，无法访问等字眼，这就是禁止爬取，需要通过反爬机制去解决这个问题。

headers是解决requests请求反爬的方法之一，相当于我们进去这个网页的服务器本身，假装自己本身在爬取数据。

对反爬虫网页，可以设置一些headers信息，模拟成浏览器取访问网站。

2、 headers在哪里找？

谷歌或者火狐浏览器，在网页面上点击：右键–>检查–>剩余按照图中显示操作，需要按Fn+F5刷新出网页来

有的浏览器是点击：右键->查看元素，刷新

以上就是python爬虫请求头设置代码的详细内容，更多关于python爬虫请求头如何设置的资料请关注其它相关文章！

推荐阅读

程序员
如果它是从Windows上的另一个进程生成的,我可以关闭进程自己的句柄吗？

如何解决《如果它是从Windows上的另一个进程生成的,我可以关闭进程自己的句柄吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
安装Visual Studio 2015 Update 1后出现TFS Build错误

如何解决《安装VisualStudio2015Update1后出现TFSBuild错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在命令行上创建要点

如何解决《如何在命令行上创建要点》经验，为你挑选了2个好方法。 ... [详细]
程序员
jekyll调试或打印所有变量

如何解决《jekyll调试或打印所有变量》经验，为你挑选了2个好方法。 ... [详细]
程序员
打开图层3搜索功能以查找地图位置？

如何解决《打开图层3搜索功能以查找地图位置？》经验，为你挑选了1个好方法。 ... [详细]
程序员
节点：res.download下载空的压缩文件夹

如何解决《节点：res.download下载空的压缩文件夹》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何欺骗原型检查？

如何解决《如何欺骗原型检查？》经验，为你挑选了1个好方法。 ... [详细]
程序员
React Native - initialProperties Android

如何解决《ReactNative-initialPropertiesAndroid》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何确保CQRS模式中的消息顺序

如何解决《如何确保CQRS模式中的消息顺序》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用IntelliJ快捷方式将Runnable更改为Java中的lambda表达式

如何解决《如何使用IntelliJ快捷方式将Runnable更改为Java中的lambda表达式》经验，为你挑选了2个好方法。 ... [详细]
程序员
针对不同的屏幕尺寸使用不同的故事板？通用xcode应用程序

如何解决《针对不同的屏幕尺寸使用不同的故事板？通用xcode应用程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
HBase在哪个版本中集成了spark API？

如何解决《HBase在哪个版本中集成了sparkAPI？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Converting C++ Boost Regexes to Python re regexes

如何解决《ConvertingC++BoostRegexestoPythonreregexes》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用RestTemplate POST InputStream

如何解决《使用RestTemplatePOSTInputStream》经验，为你挑选了1个好方法。 ... [详细]
程序员
sql UPDATES更新更改列之后的行中的每一列

如何解决《sqlUPDATES更新更改列之后的行中的每一列》经验，为你挑选了3个好方法。 ... [详细]
程序员
std :: static_pointer_cast vs static_cast <std :: shared_ptr <A >>

如何解决《std::static_pointer_castvsstatic_cast<std::shared_ptr<A>>》经验，为你挑选了2个好方法。 ... [详细]
程序员
这在技术上是"Hello World"的O(1)算法吗？

如何解决《这在技术上是"HelloWorld"的O(1)算法吗？》经验，为你挑选了10个好方法。 ... [详细]
程序员
Pod通讯

如何解决《Pod通讯》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在Swift中更改UIButton的字母间距？

如何解决《如何在Swift中更改UIButton的字母间距？》经验，为你挑选了3个好方法。 ... [详细]
程序员
迭代时擦除std :: map的其他元素

如何解决《迭代时擦除std::map的其他元素》经验，为你挑选了1个好方法。 ... [详细]

惬听风吟jyy_802

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章