Nginx反爬虫策略，防止UA抓取网站

作者：wurtjq | 2021-11-13 07:34

目前网络上的爬虫非常多，有对网站收录有益的，比如百度蜘蛛（Baiduspider），也有不但不遵守robots规则对服务器造成压力，还不能为网站带来流量的无用爬虫，为防止网站有可能会被别人爬，通过配置Nginx,我们可以拦截大部分爬虫

新增反爬虫策略文件：

vim /usr/www/server/nginx/conf/anti_spider.conf

文件内容

#禁止Scrapy等工具的抓取 
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { 
   return 403; 
} 
#禁止指定UA及UA为空的访问 
if ($http_user_agent ~ "WinHttp|WebZIP|FetchURL|node-superagent|java/|FeedDemon|Jullo|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|Java|Feedly|Apache-HttpAsyncClient|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|BOT/0.1|YandexBot|FlightDeckReports|Linguee Bot|^$" ) { 
   return 403;        
} 
#禁止非GET|HEAD|POST方式的抓取 
if ($request_method !~ ^(GET|HEAD|POST)$) { 
  return 403; 
}
#屏蔽单个IP的命令是
#deny 123.45.6.7
#封整个段即从123.0.0.1到123.255.255.254的命令
#deny 123.0.0.0/8
#封IP段即从123.45.0.1到123.45.255.254的命令
#deny 124.45.0.0/16
#封IP段即从123.45.6.1到123.45.6.254的命令是
#deny 123.45.6.0/24
# 以下IP皆为流氓
#deny 58.95.66.0/24;

配置使用

在站点的server中引入

# 反爬虫  
include /usr/www/server/nginx/conf/anti_spider.conf

最后重启nginx

校验是否有效

模拟YYSpider

λ curl -X GET -I -A 'YYSpider' https://www.myong.top
HTTP/1.1 200 Connection established
HTTP/2 403
server: marco/2.11
date: Fri, 20 Mar 2020 08:48:50 GMT
content-type: text/html
content-length: 146
x-source: C/403
x-request-id: 3ed800d296a12ebcddc4d61c57500aa2

模拟百度Baiduspider

λ curl -X GET -I -A 'BaiduSpider' https://www.myong.top
HTTP/1.1 200 Connection established
HTTP/2 200
server: marco/2.11
date: Fri, 20 Mar 2020 08:49:47 GMT
content-type: text/html
vary: Accept-Encoding
x-source: C/200
last-modified: Wed, 18 Mar 2020 13:16:50 GMT
etag: "5e721f42-150ce"
x-request-id: e82999a78b7d7ea2e9ff18b6f1f4cc84

爬虫常见的User-Agent

FeedDemon       内容采集 
BOT/0.1 (BOT for JCE) sql注入 
CrawlDaddy      sql注入 
Java         内容采集 
Jullo         内容采集 
Feedly        内容采集 
UniversalFeedParser  内容采集 
ApacheBench      cc攻击器 
Swiftbot       无用爬虫 
YandexBot       无用爬虫 
AhrefsBot       无用爬虫 
YisouSpider      无用爬虫（已被UC神马搜索收购，此蜘蛛可以放开！） 
jikeSpider      无用爬虫 
MJ12bot        无用爬虫 
ZmEu phpmyadmin    漏洞扫描 
WinHttp        采集cc攻击 
EasouSpider      无用爬虫 
HttpClient      tcp攻击 
Microsoft URL Control 扫描 
YYSpider       无用爬虫 
jaunty        wordpress爆破扫描器 
oBot         无用爬虫 
Python-urllib     内容采集 
Indy Library     扫描 
FlightDeckReports Bot 无用爬虫 
Linguee Bot      无用爬虫

以上就是Nginx反爬虫策略，防止UA抓取网站的详细内容，更多关于Nginx 反爬虫的资料请关注其它相关文章！

推荐阅读

程序员
C print -nan中的sqrt函数

如何解决《Cprint-nan中的sqrt函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用alertify.js更改alertify.error中的字体颜色

如何解决《如何使用alertify.js更改alertify.error中的字体颜色》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Typescript中实现JS函数指针

如何解决《如何在Typescript中实现JS函数指针》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Dropwizard读取JSON请求体

如何解决《如何使用Dropwizard读取JSON请求体》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python .csv编写器留空行

如何解决《Python.csv编写器留空行》经验，为你挑选了1个好方法。 ... [详细]
程序员
用cefsharp winforms下载文件

如何解决《用cefsharpwinforms下载文件》经验，为你挑选了3个好方法。 ... [详细]
程序员
使用正则表达式提取括号中的数字

如何解决《使用正则表达式提取括号中的数字》经验，为你挑选了0个好方法。 ... [详细]
程序员
Python更改数组中的元素

如何解决《Python更改数组中的元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么在DOMContentLoaded之前发生First Paint

如何解决《为什么在DOMContentLoaded之前发生FirstPaint》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么我的three.js场景中的聚光灯仍然在相机视角中居中,但仅限于Chrome for Android？

如何解决《为什么我的three.js场景中的聚光灯仍然在相机视角中居中,但仅限于ChromeforAndroid？》经验，为你挑选了1个好方法。 ... [详细]
程序员
有两种颜色的文字

如何解决《有两种颜色的文字》经验，为你挑选了5个好方法。 ... [详细]
程序员
使用JQuery检查父节中是否存在具有特定数据属性的子div

如何解决《使用JQuery检查父节中是否存在具有特定数据属性的子div》经验，为你挑选了1个好方法。 ... [详细]
程序员
端口"COM11"不存在.指定的端口未打开

如何解决《端口"COM11"不存在.指定的端口未打开》经验，为你挑选了1个好方法。 ... [详细]
程序员
加快Chrome应用开发流程

如何解决《加快Chrome应用开发流程》经验，为你挑选了1个好方法。 ... [详细]
程序员
Angular 2 - 相当于路由器解析新路由器的数据

如何解决《Angular2-相当于路由器解析新路由器的数据》经验，为你挑选了2个好方法。 ... [详细]
程序员
自动将Amazon AWS从micro升级到Medium

如何解决《自动将AmazonAWS从micro升级到Medium》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何以特定格式将日期和时间插入SQL Server数据库？

如何解决《如何以特定格式将日期和时间插入SQLServer数据库？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将哈希密码插入数据库？

如何解决《如何将哈希密码插入数据库？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Class.getConstructors()在Java中返回的数组顺序如何

如何解决《Class.getConstructors()在Java中返回的数组顺序如何》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用bootstrap使图像响应而不占用整个分区的宽度？

如何解决《如何使用bootstrap使图像响应而不占用整个分区的宽度？》经验，为你挑选了1个好方法。 ... [详细]

wurtjq

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章