16赞

c# Selenium爬取数据时防止webdriver封爬虫的方法

作者：重庆制造漫画社 | 2021-12-20 18:52

这篇文章主要介绍了c#Selenium爬取数据时防止webdriver封爬虫的方法，帮助大家更好的理解和使用c#，感兴趣的朋友可以了解下

背景

大家在使用Selenium + Chromedriver爬取网站信息的时候，以为这样就能做到不被网站的反爬虫机制发现。但是实际上很多参数和实际浏览器还是不一样的，只要网站进行判断处理，就能轻轻松松识别你是否使用了Selenium + Chromedriver模拟浏览器。其中

window.navigator.webdriver

就是很重要的一个。

问题窥探

正常浏览器打开是这样的

模拟器打开是这样的

ChromeOptions options = null;
      IWebDriver driver = null;
      try
      {
        options = new ChromeOptions();
        options.AddArguments("--ignore-certificate-errors");
        options.AddArguments("--ignore-ssl-errors");

        // options.AddExcludedArgument("enable-automation");
        // options.AddAdditionalCapability("useAutomationExtension", false);

        var listCookie = CookieHelp.GetCookie();
        if (listCookie != null)
        {
          // options.AddArgument("headless");
        }

        // string ss = @"{ ""source"": ""Object.defineProperty(navigator, 'webdriver', { get: () => undefined})""}";
        //  options.AddUserProfilePreference("Page.addScriptToEvaluateOnNewDocument", new ssss() { source = " Object.defineProperty(navigator, 'webdriver', {  get: () => undefined }) " });

        ChromeDriverService service = ChromeDriverService.CreateDefaultService(System.Environment.CurrentDirectory);
        service.HideCommandPromptWindow = true;
        driver = new ChromeDriver(service, options, TimeSpan.FromSeconds(120));

        ////session.Page.AddScriptToEvaluateOnNewDocument(new OpenQA.Selenium.DevTools.Page.AddScriptToEvaluateOnNewDocumentCommandSettings()
        ////{
        ////  Source = @"Object.defineProperty(navigator, 'webdriver', { get: () => undefined })"
        ////}
        //// );

所以，如果网站通过js代码获取这个参数，返回值为undefined说明是正常的浏览器，返回true说明用的是Selenium模拟浏览器。

解决办法

那么对于这种情况，在爬虫开发的过程中如何防止这个参数告诉网站你在模拟浏览器呢？执行对应的js,改掉它的值。

 IJavaScriptExecutor js = (IJavaScriptExecutor)driver;
 string returnjs = (string)js.ExecuteScript("Object.defineProperties(navigator, {webdriver:{get:()=>undefined}});");

运行效果

完美，达到预期效果。

以上就是c# Selenium爬取数据时防止webdriver封爬虫的方法的详细内容，更多关于c# 防止webdriver封爬虫的资料请关注其它相关文章！

推荐阅读

程序员
如何修复“找不到GLEW（丢失：GLEW_INCLUDE_DIR GLEW_LIBRARY）”

如何解决《如何修复“找不到GLEW（丢失：GLEW_INCLUDE_DIRGLEW_LIBRARY）”》经验，为你挑选了1个好方法。 ... [详细]
程序员
VideoView不在RecyclerView中播放视频或音频

如何解决《VideoView不在RecyclerView中播放视频或音频》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用C++ strtk导致xutility错误C4996

如何解决《使用C++strtk导致xutility错误C4996》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何跳过if语句转到下一个if语句

如何解决《如何跳过if语句转到下一个if语句》经验，为你挑选了1个好方法。 ... [详细]
程序员
Gradle依赖树,(*)是什么意思？

如何解决《Gradle依赖树,(*)是什么意思？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将时间戳与描述分组

如何解决《将时间戳与描述分组》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么不应该将PostGIS安装在PostgreSQL数据库“ postgres”中？

如何解决《为什么不应该将PostGIS安装在PostgreSQL数据库“postgres”中？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将Excel行读取为数组:PHPExcel是否具有fgetcsv()等效项？

如何解决《将Excel行读取为数组:PHPExcel是否具有fgetcsv()等效项？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在python中对一个2d numpy数组进行下采样

如何解决《在python中对一个2dnumpy数组进行下采样》经验，为你挑选了1个好方法。 ... [详细]
程序员
传递一个数组

如何解决《传递一个数组》经验，为你挑选了2个好方法。 ... [详细]
程序员
D3.js时间刻度刻度线-仅年份和月份-自定义时间格式

如何解决《D3.js时间刻度刻度线-仅年份和月份-自定义时间格式》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在rxjs中使用节点的变换流？

如何解决《如何在rxjs中使用节点的变换流？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Visual Studio 2015 Community Edition是否具有MVC模板？

如何解决《VisualStudio2015CommunityEdition是否具有MVC模板？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将Django Rest Framework的默认URL更改为自定义

如何解决《如何将DjangoRestFramework的默认URL更改为自定义》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spring中的单元测试:将依赖项注入正在测试的组件中

如何解决《Spring中的单元测试:将依赖项注入正在测试的组件中》经验，为你挑选了1个好方法。 ... [详细]
程序员
我应该使用printf("\n")还是putchar('\n')在C中打印换行符？

如何解决《我应该使用printf("\n")还是putchar('\n')在C中打印换行符？》经验，为你挑选了3个好方法。 ... [详细]
程序员
ES6课程不适用于Chrome 47

如何解决《ES6课程不适用于Chrome47》经验，为你挑选了1个好方法。 ... [详细]
程序员
将列表复制到其他列表中

如何解决《将列表复制到其他列表中》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spring websocket @messagemapping反序列化问题java.lang.ClassCastException:java.util.LinkedHashMap无法强制转换

如何解决《Springwebsocket@messagemapping反序列化问题java.lang.ClassCastException:java.util.LinkedHashMap无法强制转换》经验，为你挑选了0个好方法。 ... [详细]
程序员
PostgreSQL 9.4可以在单个插入语句中插入的行数限制是多少？

如何解决《PostgreSQL9.4可以在单个插入语句中插入的行数限制是多少？》经验，为你挑选了0个好方法。 ... [详细]

重庆制造漫画社

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章