12赞

抓取工具的HTML快照 - 了解其工作原理

作者：小妖694_807 | 2023-06-27 20:57

如何解决《抓取工具的HTML快照-了解其工作原理》经验，为你挑选了1个好方法。

我今天正在读这篇文章.说实话,我真的很喜欢"2.你的大部分内容是由服务器端技术(如PHP或ASP.NET)创建的".

如果我明白了,我想要明白:)

我创建了php脚本(gethtmlsnapshot.php),其中我包含服务器端的ajax页面(getdata.php)和我转义(为了安全)参数.然后我在html静态页面的末尾添加它(index-movies.html).对？现在...

1 - 我把gethtmlsnapshot.php放在哪里？换句话说,我需要调用(或更好地,爬虫需要)该页面.但是如果我在主页面上没有链接,则爬虫无法调用它:O爬虫如何使用_escaped_fragment_参数调用该页面？如果我不在某处特定的话,它无法知道它们:)

2 - 船员如何使用参数调用该页面？和以前一样,我需要使用参数链接到该脚本,因此,工作人员浏览每个页面并保存dinamic结果的内容.

你能帮助我吗？你怎么看待这种技术？如果爬虫的开发者以其他方式做自己的机器人,那会不会更好？:)

让我知道你的想法.干杯

1> The Surrican..：

我认为你出了点问题所以我会试着解释一下这里发生了什么,包括背景和替代方案.因为这确实是一个非常重要的话题,我们大多数人偶尔偶然发现(或至少是类似的东西).

使用AJAX或者说异步增量页面更新(因为大多数页面实际上不使用XML而是JSON),丰富了Web并提供了出色的用户体验.

然而它也付出了代价.

主要问题是客户端根本不支持xmlhttpget对象或JavaScript.在开始时,您必须提供向后兼容性.这通常通过提供链接并捕获onclick事件并触发AJAX调用而不是重新加载页面(如果客户端支持它)来完成.

今天几乎每个客户都支持必要的功能.

所以今天的问题是搜索引擎.因为他们没有.嗯,这不完全正确,因为他们部分(尤其是谷歌),但出于其他目的.Google评估某些JavaScript代码以防止Blackhat SEO(例如指向某个地方的链接,但使用JavaScript打开一些完全不同的网页...或者客户端看不到的html关键字代码,因为它们被JavaScript删除或反之亦然).

但要保持简单,最好考虑一个没有CSS或JS支持的非常基本的浏览器的搜索引擎爬虫(它与CSS相同,其特殊原因解析了它的一方).

因此,如果您的网站上有"AJAX链接",并且Webcrawler不支持使用JavaScript跟踪它们,那么它们就不会被抓取.或者他们呢？那么答案就是JavaScript链接(比如document.location).谷歌通常足够聪明地猜测目标.但是没有制作ajax电话.这很简单,因为它们返回部分内容,并且由于上下文未知而且唯一URI不代表内容的位置,因此无法从中构造有意义的整页.

所以基本上有3种策略可以解决这个问题.

在具有正常href属性的链接上有一个onclick事件作为后备(imo是最好的选项,因为它解决了客户端和搜索引擎的问题)

通过您的站点地图提交内容网站,以便它们被编入索引,但完全与您的站点链接分开(通常页面提供这个URL的固定链接,以便外部页面链接它们以用于pagerank)

ajax爬行方案

我们的想法是让您的JavaScript xmlhttpget请求与相应的href属性纠缠在一起,如下所示: www.example.com/ajax.php#!key=value

所以链接看起来像:

go to my imprint

该函数handleajax可以评估该document.location变量以触发增量异步页面更新.它也可以通过id或url或其他任何东西.

然而,爬虫会识别ajax爬行方案格式并自动提取,http://www.example.com/ajax.php.php?%23!page=imprint而不是http://www.example.com/ajax.php#!page=imprint 查询字符串,然后使用html片段来描述哪些部分内容已更新.所以你必须确保http://www.example.com/ajax.php.php?%23!page=imprint返回一个完整的网站,看起来网站应该在xmlhttpget更新后向用户查找已经成了.

一个非常优雅的解决方案也是将一个对象本身传递给处理函数,然后处理函数获取与爬虫使用ajax但使用其他参数获取的相同的URL.然后,您的服务器端脚本决定是传递整个页面还是仅传递部分内容.

这确实是一种非常有创意的方法,这是我的个人意见分析:

亲们:

部分更新页面接收唯一标识符,此时它们是语义Web中的完全限定资源

部分更新的网站接收可由搜索引擎呈现的唯一标识符

CON:

它只是搜索引擎的后备解决方案,而不是没有JavaScript的客户端

它为黑帽SEO提供了机会.因此,谷歌肯定不会完全采用它,或者通过对内容进行适当的验证来对这种技术进行高排名.

结论:

只是常规链接与后备遗留工作href属性,但onclick处理程序是一种更好的方法,因为它们为旧浏览器提供功能.

ajax爬行方案的主要优点是部分更新的网站获得了唯一的URI,您不必创建以某种方式充当可索引和可链接对应的重复内容.

你可以说ajax爬行方案实现更一致,更容易实现.我认为这是您的应用程序设计的问题.

推荐阅读

程序员
是否可以从React App访问NFC功能

如何解决《是否可以从ReactApp访问NFC功能》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何知道FrameworkElement何时被完全呈现？

如何解决《如何知道FrameworkElement何时被完全呈现？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以在javascript代码中使用刀片中的数据吗？

如何解决《我可以在javascript代码中使用刀片中的数据吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在`knitr` Rnw chunk figure标题中引用先前定义的对象

如何解决《在`knitr`Rnwchunkfigure标题中引用先前定义的对象》经验，为你挑选了0个好方法。 ... [详细]
程序员
SQL Server:如果未满足条件,如何将1行作为默认值返回

如何解决《SQLServer:如果未满足条件,如何将1行作为默认值返回》经验，为你挑选了2个好方法。 ... [详细]
程序员
丑化JavaScript - 进一步优化

如何解决《丑化JavaScript-进一步优化》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何同时拥有IN和NOT IN

如何解决《如何同时拥有IN和NOTIN》经验，为你挑选了2个好方法。 ... [详细]
程序员
仅在文本部分用jsoup替换字符串

如何解决《仅在文本部分用jsoup替换字符串》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何以编程方式更改复选框选中的颜色

如何解决《如何以编程方式更改复选框选中的颜色》经验，为你挑选了2个好方法。 ... [详细]
程序员
在django-rest-framework中解析multipart/form-data

如何解决《在django-rest-framework中解析multipart/form-data》经验，为你挑选了0个好方法。 ... [详细]
程序员
500内部服务器错误Ajax Laravel

如何解决《500内部服务器错误AjaxLaravel》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以从CDN获取Bootstrap Glyphicons吗？

如何解决《我可以从CDN获取BootstrapGlyphicons吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
从Swagger文档生成Yaml或Json文件

如何解决《从Swagger文档生成Yaml或Json文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
我的IIS Express站点的物理目录位于何处？

如何解决《我的IISExpress站点的物理目录位于何处？》经验，为你挑选了1个好方法。 ... [详细]
程序员
转换为数字的问题

如何解决《转换为数字的问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用NSURLSession处理丢失的Internet连接？

如何解决《如何使用NSURLSession处理丢失的Internet连接？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么根据不透明度改变位置

如何解决《为什么根据不透明度改变位置》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何从包类名字符串中获取Kotlin KClass？

如何解决《如何从包类名字符串中获取KotlinKClass？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用链接linux编译GLFW应用程序问题

如何解决《使用链接linux编译GLFW应用程序问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何合并2个std :: maps,并将结果输出到第3个映射中

如何解决《如何合并2个std::maps,并将结果输出到第3个映射中》经验，为你挑选了1个好方法。 ... [详细]

小妖694_807

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章