16赞

网页抓取工具如何处理javascript

作者：罗文彬2502852027 | 2023-08-15 08:32

如何解决《网页抓取工具如何处理javascript》经验，为你挑选了2个好方法。

今天,Internet上的很多内容都是使用JavaScript(特别是后台AJAX调用)生成的.我想知道像Google这样的网络抓取工具如何处理它们.他们是否了解JavaScript？他们有内置的JavaScript引擎吗？或者他们是否简单地忽略了页面中所有JavaScript生成的内容(我猜不太可能).人们是否使用特定的技术来获取索引的内容,否则这些内容可以通过后台AJAX请求提供给普通的互联网用户？

1> McKay..：

JavaScript由Bing和Google抓取工具处理.Yahoo使用Bing抓取工具数据,因此也应该进行处理.我没有关注其他搜索引擎,所以如果你关心它们,你应该查找它们.

Bing在2014年3月发布了有关如何创建与其爬虫(主要与之相关pushState)的基于JavaScript的网站的指导,这些网站通常是良好的做法:

避免创建断开的链接 pushState

避免创建链接到相同内容的两个不同链接 pushState

避免遮盖.(这是Bing发表的一篇关于2007年隐形检测的文章)

支持无法处理的浏览器(和爬虫)pushState.

Google后来在2014年5月发布了有关如何创建与其抓取工具一起使用的基于JavaScript的网站的指南,并建议他们提出建议:

不要阻止robots.txt文件中的JavaScript(和CSS).

确保您可以处理爬虫的负载.

支持无法处理的浏览器和抓取工具(或不允许使用JavaScript的用户和组织)是个好主意

依赖于语言的神秘或特定功能的棘手JavaScript可能无法与爬虫一起使用.

如果您的JavaScript从页面中删除了内容,则可能无法编入索引.周围.

2> Ben S..：

他们中的大多数都没有以任何方式处理Javascript.(至少,所有主要搜索引擎的抓取工具都没有.)

这就是为什么让您的网站在没有Javascript的情况下优雅地处理导航仍然很重要的原因.

推荐阅读

程序员
"范围''引用的'System.Boolean'类型的"变量",但未在Expression中定义

如何解决《"范围''引用的'System.Boolean'类型的"变量",但未在Expression中定义》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何配置WildFly 8.2.0日志记录以在调试级别上显示应用程序

如何解决《如何配置WildFly8.2.0日志记录以在调试级别上显示应用程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将v8 :: String转换为const char*

如何解决《如何将v8::String转换为constchar*》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法启动skydns

如何解决《无法启动skydns》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spring:在CrudRepository中覆盖save方法

如何解决《Spring:在CrudRepository中覆盖save方法》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在COBOL中编写SQLite回调

如何解决《如何在COBOL中编写SQLite回调》经验，为你挑选了0个好方法。 ... [详细]
程序员
正确管理大于GPU可用内存的结果数组？

如何解决《正确管理大于GPU可用内存的结果数组？》经验，为你挑选了0个好方法。 ... [详细]
程序员
3D无限亚军游戏平台生成给出了例外

如何解决《3D无限亚军游戏平台生成给出了例外》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python设置切片复杂性

如何解决《Python设置切片复杂性》经验，为你挑选了1个好方法。 ... [详细]
程序员
nativeLibraryDirectories = [/ vendor / lib64，/ system / lib64]]]找不到“ libvideoeditor_jni.so”

如何解决《nativeLibraryDirectories=[/vendor/lib64，/system/lib64]]]找不到“libvideoeditor_jni.so”》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Jenkins工作流程脚本中使用Log Parser插件

如何解决《如何在Jenkins工作流程脚本中使用LogParser插件》经验，为你挑选了1个好方法。 ... [详细]
程序员
错误设置证书验证位置：CAfile ca-bundle.crt CApath：无

如何解决《错误设置证书验证位置：CAfileca-bundle.crtCApath：无》经验，为你挑选了0个好方法。 ... [详细]
程序员
Tensorflow图像读空

如何解决《Tensorflow图像读空》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在u-boot中禁用串行控制台(非内核)

如何解决《如何在u-boot中禁用串行控制台(非内核)》经验，为你挑选了1个好方法。 ... [详细]
程序员
DynamoDB updateItem失败

如何解决《DynamoDBupdateItem失败》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过宏传递宏参数

如何解决《通过宏传递宏参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
React.js无法使用Plunker

如何解决《React.js无法使用Plunker》经验，为你挑选了1个好方法。 ... [详细]
程序员
工具栏在滚动时不会完全隐藏

如何解决《工具栏在滚动时不会完全隐藏》经验，为你挑选了1个好方法。 ... [详细]
程序员
Javafx Task-从方法更新进度

如何解决《JavafxTask-从方法更新进度》经验，为你挑选了1个好方法。 ... [详细]
程序员
用空格替换%20

如何解决《用空格替换%20》经验，为你挑选了1个好方法。 ... [详细]

罗文彬2502852027

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章