19赞

如何用PHP检测搜索引擎机器人？

作者：mobiledu2402851173 | 2023-08-28 21:22

如何解决《如何用PHP检测搜索引擎机器人？》经验，为你挑选了9个好方法。

如何使用PHP检测搜索引擎机器人？

1> minnur..：

我使用以下代码似乎工作正常:

function _bot_detected() {

  return (
    isset($_SERVER['HTTP_USER_AGENT'])
    && preg_match('/bot|crawl|slurp|spider|mediapartners/i', $_SERVER['HTTP_USER_AGENT'])
  );
}

更新16-06-2017 https://support.google.com/webmasters/answer/1061943?hl=en

增加了媒体合作伙伴

是的,可以更改useragent,但是如果有人将其更改为包含"bot","crawl","slurp"或"spider",则知道他们会遇到什么.它还取决于效用.我不会用它来删除所有CSS,但我会用它来存储cookie,忽略位置记录或跳过登陆页面.

这是否假设机器人显示自己是这样的？

难道没有人同意我这是一种广泛匹配的方式吗？

2> Ólafur Waage..：

这是Spider名称的搜索引擎目录

然后你$_SERVER['HTTP_USER_AGENT'];用来检查代理是否是蜘蛛.

if(strstr(strtolower($_SERVER['HTTP_USER_AGENT']), "googlebot"))
{
    // what to do
}

假冒的使用者怎么样？!

因为strpos可以返回0(位置),strstr在失败时返回FALSE,如果在末尾添加!== false检查,则可以使用strpos.

嗯,`strpos`也会在失败时返回'FALSE`.但它更快更有效(没有预处理,也没有O(m)存储).

如果有人可以使用假名称更改其用户代理并将其命名为"Googlebot",该怎么办？我认为检查ip范围更值得信赖!

3> Jukka Dahlbo..：

检查下面$_SERVER['HTTP_USER_AGENT']列出的一些字符串:

http://www.useragentstring.com/pages/All/

或者更具体地说是爬虫:

http://www.useragentstring.com/pages/Crawlerlist/

如果您想 - 记录大多数常见搜索引擎抓取工具的访问次数,您可以使用

$interestingCrawlers = array( 'google', 'yahoo' );
$pattern = '/(' . implode('|', $interestingCrawlers) .')/';
$matches = array();
$numMatches = preg_match($pattern, strtolower($_SERVER['HTTP_USER_AGENT']), $matches, 'i');
if($numMatches > 0) // Found a match
{
  // $matches[1] contains an array of all text matches to either 'google' or 'yahoo'
}

4> 小智..：

你可以查看它是否是具有此功能的搜索引擎:

 'Google',
'MSN' => 'msnbot',
      'Rambler' => 'Rambler',
      'Yahoo' => 'Yahoo',
      'AbachoBOT' => 'AbachoBOT',
      'accoona' => 'Accoona',
      'AcoiRobot' => 'AcoiRobot',
      'ASPSeek' => 'ASPSeek',
      'CrocCrawler' => 'CrocCrawler',
      'Dumbot' => 'Dumbot',
      'FAST-WebCrawler' => 'FAST-WebCrawler',
      'GeonaBot' => 'GeonaBot',
      'Gigabot' => 'Gigabot',
      'Lycos spider' => 'Lycos',
      'MSRBOT' => 'MSRBOT',
      'Altavista robot' => 'Scooter',
      'AltaVista robot' => 'Altavista',
      'ID-Search Bot' => 'IDBot',
      'eStyle Bot' => 'eStyle',
      'Scrubby robot' => 'Scrubby',
      'Facebook' => 'facebookexternalhit',
  );
  // to get crawlers string used in function uncomment it
  // it is better to save it in string than use implode every time
  // global $crawlers
   $crawlers_agents = implode('|',$crawlers);
  if (strpos($crawlers_agents, $USER_AGENT) === false)
      return false;
    else {
    return TRUE;
    }
}
?>

然后你就可以使用它:

strpos不在这里工作.你必须使用preg_match.

我认为这个列表已经过时,我没有看到"slurp",例如雅虎它的蜘蛛https://help.yahoo.com/kb/SLN22600.html

5> mgutt..：

我用它来检测机器人:

if (preg_match('/bot|crawl|curl|dataprovider|search|get|spider|find|java|majesticsEO|google|yahoo|teoma|contaxe|yandex|libwww-perl|facebookexternalhit/i', $_SERVER['HTTP_USER_AGENT'])) {
    // is bot
}

另外我使用白名单来阻止不需要的机器人:

if (preg_match('/apple|baidu|bingbot|facebookexternalhit|googlebot|-google|ia_archiver|msnbot|naverbot|pingdom|seznambot|slurp|teoma|twitter|yandex|yeti/i', $_SERVER['HTTP_USER_AGENT'])) {
    // allowed bot
}

然后,不需要的机器人(=假阳性用户)能够解决验证码以解锁自己24小时.由于没有人解决这个验证码,我知道它不会产生误报.因此机器人检测似乎完美无缺.

注意:我的白名单基于Facebook的robots.txt.

6> WonderLand..：

我使用这个函数...正则表达式的一部分来自prestashop但我添加了一些更多的机器人.

    public function isBot()
{
    $bot_regex = '/BotLink|bingbot|AhrefsBot|ahoy|AlkalineBOT|anthill|appie|arale|araneo|AraybOt|ariadne|arks|ATN_Worldwide|Atomz|bbot|Bjaaland|Ukonline|borg\-bot\/0\.9|boxseabot|bspider|calif|christcrawler|CMC\/0\.01|combine|confuzzledbot|CoolBot|cosmos|Internet Cruiser Robot|cusco|cyberspyder|cydralspider|desertrealm, desert realm|digger|DIIbot|grabber|downloadexpress|DragonBot|dwcp|ecollector|ebiness|elfinbot|esculapio|esther|fastcrawler|FDSE|FELIX IDE|ESI|fido|H?m?h?kki|KIT\-Fireball|fouineur|Freecrawl|gammaSpider|gazz|gcreep|golem|googlebot|griffon|Gromit|gulliver|gulper|hambot|havIndex|hotwired|htdig|iajabot|INGRID\/0\.1|Informant|InfoSpiders|inspectorwww|irobot|Iron33|JBot|jcrawler|Teoma|Jeeves|jobo|image\.kapsi\.net|KDD\-Explorer|ko_yappo_robot|label\-grabber|larbin|legs|Linkidator|linkwalker|Lockon|logo_gif_crawler|marvin|mattie|mediafox|MerzScope|NEC\-MeshExplorer|MindCrawler|udmsearch|moget|Motor|msnbot|muncher|muninn|MuscatFerret|MwdSearch|sharp\-info\-agent|WebMechanic|NetScoop|newscan\-online|ObjectsSearch|Occam|Orbsearch\/1\.0|packrat|pageboy|ParaSite|patric|pegasus|perlcrawler|phpdig|piltdownman|Pimptrain|pjspider|PlumtreeWebAccessor|PortalBSpider|psbot|Getterrobo\-Plus|Raven|RHCS|RixBot|roadrunner|Robbie|robi|RoboCrawl|robofox|Scooter|Search\-AU|searchprocess|Senrigan|Shagseeker|sift|SimBot|Site Valet|skymob|SLCrawler\/2\.0|slurp|ESI|snooper|solbot|speedy|spider_monkey|SpiderBot\/1\.0|spiderline|nil|suke|http:\/\/www\.sygol\.com|tach_bw|TechBOT|templeton|titin|topiclink|UdmSearch|urlck|Valkyrie libwww\-perl|verticrawl|Victoria|void\-bot|Voyager|VWbot_K|crawlpaper|wapspider|WebBandit\/1\.0|webcatcher|T\-H\-U\-N\-D\-E\-R\-S\-T\-O\-N\-E|WebMoose|webquest|webreaper|webs|webspider|WebWalker|wget|winona|whowhere|wlm|WOLP|WWWC|none|XGET|Nederland\.zoek|AISearchBot|woriobot|NetSeer|Nutch|YandexBot|YandexMobileBot|SemrushBot|FatBot|MJ12bot|DotBot|AddThis|baiduspider|SeznamBot|mod_pagespeed|CCBot|openstat.ru\/Bot|m2e/i';
    $userAgent = empty($_SERVER['HTTP_USER_AGENT']) ? FALSE : $_SERVER['HTTP_USER_AGENT'];
    $isBot = !$userAgent || preg_match($bot_regex, $userAgent);

    return $isBot;
}

无论如何要注意一些机器人使用浏览器像用户代理假冒他们的身份
(我有很多俄罗斯IP在我的网站上有这种行为)

大多数机器人的一个显着特点是它们不携带任何cookie,因此没有附加会话.
(我不确定如何,但这肯定是跟踪它们的最佳方式)

7> Fabian Kessl..：

因为任何客户都可以将用户代理设置为他们想要的东西,所以寻找'Googlebot','bingbot'等只是工作的一半.

第二部分是验证客户的IP.在过去,这需要维护IP列表.您在网上找到的所有列表都已过时.顶级搜索引擎正式支持通过DNS进行验证,如Google https://support.google.com/webmasters/answer/80553和Bing http://www.bing.com/webmaster/help/how-to-verify所述-bingbot-3905dc26

首先执行客户端IP的反向DNS查找.对于Google,这会在googlebot.com下显示一个主机名,因为Bing会在search.msn.com下.然后,因为有人可以在他的IP上设置这样的反向DNS,您需要使用该主机名上的正向DNS查找进行验证.如果生成的IP与站点访问者的IP相同,则您确定它是来自该搜索引擎的爬虫.

我用Java编写了一个库,为你执行这些检查.随意将其移植到PHP.它位于GitHub上:https://github.com/optimaize/webcrawler-verifier

8> Gumbo..：

您可以分析用户代理（$_SERVER['HTTP_USER_AGENT']）或将客户端的IP地址（$_SERVER['REMOTE_ADDR']）与搜索引擎机器人的IP地址列表进行比较。

如果要确保用户代理名称确实是搜索引擎机器人，则IP列表会更安全，因为可以通过名称创建虚假的用户代理。

9> 小智..：

使用Device Detector开源库，它提供了isBot（）函数：https : //github.com/piwik/device-detector

推荐阅读

程序员
散景,两个y轴,禁用一个轴进行缩放/平移

如何解决《散景,两个y轴,禁用一个轴进行缩放/平移》经验，为你挑选了0个好方法。 ... [详细]
程序员
在服务器端登录用户帐户

如何解决《在服务器端登录用户帐户》经验，为你挑选了1个好方法。 ... [详细]
程序员
Kendo TabStrip中的Kendo MVC网格

如何解决《KendoTabStrip中的KendoMVC网格》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在symfony WebTestCase中通过测试中的fixture类型获取doctrine fixture引用？

如何解决《如何在symfonyWebTestCase中通过测试中的fixture类型获取doctrinefixture引用？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如果消息是由制作人制作的,如何从Kafka经纪人那里得到确认？

如何解决《如果消息是由制作人制作的,如何从Kafka经纪人那里得到确认？》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么java没有从用户定义的类执行overriden hashcode()方法？

如何解决《为什么java没有从用户定义的类执行overridenhashcode()方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有其他更好的方法将参数传递给backgroundworker runasync？

如何解决《有没有其他更好的方法将参数传递给backgroundworkerrunasync？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Cassandra的监听地址总是在监听ipv6地址

如何解决《Cassandra的监听地址总是在监听ipv6地址》经验，为你挑选了0个好方法。 ... [详细]
程序员
iPython笔记本错误 - Notebook JSON无效:u'execution_count'是必需属性

如何解决《iPython笔记本错误-NotebookJSON无效:u'execution_count'是必需属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
在MySQL中查找至少2个元音的名称

如何解决《在MySQL中查找至少2个元音的名称》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何避免java上的java.lang.NoClassDefFoundError:android/os/PersistableBundle？

如何解决《如何避免java上的java.lang.NoClassDefFoundError:android/os/PersistableBundle？》经验，为你挑选了1个好方法。 ... [详细]
程序员
sql中的千位分隔符

如何解决《sql中的千位分隔符》经验，为你挑选了1个好方法。 ... [详细]
程序员
你如何测试自定义的期望？

如何解决《你如何测试自定义的期望？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Javascript数组未定义大小

如何解决《Javascript数组未定义大小》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否可以在Dagger 2中有选择地为组件设置模块？

如何解决《是否可以在Dagger2中有选择地为组件设置模块？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Spring Security时，允许所有域使用iframe

如何解决《使用SpringSecurity时，允许所有域使用iframe》经验，为你挑选了1个好方法。 ... [详细]
程序员
可以安全地直接访问$ _SERVER ['DOCUMENT_ROOT']吗？

如何解决《可以安全地直接访问$_SERVER['DOCUMENT_ROOT']吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Cron Job仅限特定月份

如何解决《CronJob仅限特定月份》经验，为你挑选了2个好方法。 ... [详细]
程序员
来自EditText动画的TextView就像在LinkedIn上一样

如何解决《来自EditText动画的TextView就像在LinkedIn上一样》经验，为你挑选了1个好方法。 ... [详细]
程序员
在python中反转列表切片

如何解决《在python中反转列表切片》经验，为你挑选了1个好方法。 ... [详细]

mobiledu2402851173

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章