12赞

屏幕抓取:正则表达式还是XQuery表达式？

作者：sx-March23 | 2023-08-29 13:28

如何解决《屏幕抓取:正则表达式还是XQuery表达式？》经验，为你挑选了0个好方法。

我正在回答一些面试的测验问题,问题是如何进行屏幕抓取.也就是说,假设您没有更好的结构化方式直接查询信息(例如Web服务),从网页中挑选内容.

我的解决方案是使用XQuery表达式.表达式相当长,因为我需要的内容在HTML层次结构中非常深入.在找到具有id属性的元素之前,我必须以一种公平的方式搜索祖先.例如,抓取Product Dimensions的Amazon.com页面如下所示:

//a[@id="productDetails"]
/following-sibling::table
//h2[contains(child::text(), "Product Details")]
/following-sibling::div
//li
/b[contains(child::text(), "Product Dimensions:")]
/following-sibling::text()

这是一个非常讨厌的表达,但这就是亚马逊提供Web服务API的原因.无论如何,这只是一个例子.问题不在于亚马逊,而在于屏幕刮擦.

面试官不喜欢我的解决方案.他认为它很脆弱,因为亚马逊改变页面设计可能需要重写XQuery表达式.调试与它所应用的页面中的任何内容都不匹配的XQuery表达式很难.

我并不反对他的陈述,但我认为他的解决方案没有任何改进:他认为最好使用正则表达式,并在运输重量附近搜索内容和标记.例如,使用Perl:

$html =~ m{\s*\s*Product Dimensions:\s*\s*(.*?)}s;

我的反驳是,这也很容易让亚马逊改变他们的HTML代码.他们可能会给在首都(HTML标签

),或者添加CSS属性或更改到或更改标签"产品尺寸:"到"尺寸:"或其他许多种变化.我的观点是正则表达式无法解决他在XQuery解决方案中提到的弱点.

但此外,正则表达式可以找到误报,除非您为表达式添加了足够的上下文.它还可能无意中匹配恰好位于注释,属性字符串或CDATA部分内的内容.

我的问题是,你用什么技术来进行屏幕抓取？你为什么选择这个解决方案？是否有一些令人信服的理由使用它？或者从不使用另一个？除了上面展示的那些之外,还有第三种选择吗？

PS:假设为了论证,没有Web服务API或其他更直接的方式来获取所需内容.

推荐阅读

程序员
我如何找到谷歌bigquery数据集大小,而不是表大小

如何解决《我如何找到谷歌bigquery数据集大小,而不是表大小》经验，为你挑选了1个好方法。 ... [详细]

程序员
基于Python中的键的多个词典中的平均值？

如何解决《基于Python中的键的多个词典中的平均值？》经验，为你挑选了1个好方法。 ... [详细]

程序员
ggplot和png的rmarkdown错误

如何解决《ggplot和png的rmarkdown错误》经验，为你挑选了1个好方法。 ... [详细]

程序员
将远程转储还原到RDS

如何解决《将远程转储还原到RDS》经验，为你挑选了1个好方法。 ... [详细]

程序员
如何限制nohup.out日志的大小

如何解决《如何限制nohup.out日志的大小》经验，为你挑选了1个好方法。 ... [详细]

程序员
如何检查Eigen :: Matrix4f是否接近单位矩阵？

如何解决《如何检查Eigen::Matrix4f是否接近单位矩阵？》经验，为你挑选了1个好方法。 ... [详细]

程序员
React Native,TouchableOpacity包装浮动按钮什么都没得到

如何解决《ReactNative,TouchableOpacity包装浮动按钮什么都没得到》经验，为你挑选了1个好方法。 ... [详细]

程序员
C中头文件中的内联函数

如何解决《C中头文件中的内联函数》经验，为你挑选了1个好方法。 ... [详细]

程序员
反序列化非标准字符串

如何解决《反序列化非标准字符串》经验，为你挑选了1个好方法。 ... [详细]

程序员
脚本返回"已杀"

如何解决《脚本返回"已杀"》经验，为你挑选了1个好方法。 ... [详细]

程序员
将非必需的字符串属性从null水合为空字符串

如何解决《将非必需的字符串属性从null水合为空字符串》经验，为你挑选了0个好方法。 ... [详细]

程序员
加载模板dom时,angular2模板/钩子中的脚本标记

如何解决《加载模板dom时,angular2模板/钩子中的脚本标记》经验，为你挑选了2个好方法。 ... [详细]

程序员
GIT推送错误 - 重复请求

如何解决《GIT推送错误-重复请求》经验，为你挑选了1个好方法。 ... [详细]

程序员
node.js可以排队多少个事件？

如何解决《node.js可以排队多少个事件？》经验，为你挑选了1个好方法。 ... [详细]

程序员
如何获得火花工作的指标？

如何解决《如何获得火花工作的指标？》经验，为你挑选了0个好方法。 ... [详细]

程序员
如何在通过Openpyxl创建的图表中显示数据标签

如何解决《如何在通过Openpyxl创建的图表中显示数据标签》经验，为你挑选了1个好方法。 ... [详细]

程序员
如何使用Ruby 2.2.3和rest-client保存文件

如何解决《如何使用Ruby2.2.3和rest-client保存文件》经验，为你挑选了1个好方法。 ... [详细]

程序员
流程中的集合执行策略

如何解决《流程中的集合执行策略》经验，为你挑选了1个好方法。 ... [详细]

程序员
如何从HDFS中删除文件？

如何解决《如何从HDFS中删除文件？》经验，为你挑选了2个好方法。 ... [详细]

程序员
Android TalkBack专注于透明层

如何解决《AndroidTalkBack专注于透明层》经验，为你挑选了1个好方法。 ... [详细]

吐了个 "CAO" !

吐个槽吧,看都看了

会员登录 | 用户注册

sx-March23

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

actionscrip

bash

c#

c++

c语言

erlang

flutter

go

golang

java

javascript

lua

node.js

perl

php

python

scala

typescript

RankList | 热门文章

1Git Branch Off A Branch

2Presto是否具有与Hive的SET命令相同的功能

3CGFloat和NSNumber之间的转换没有不必要的升级到Double

4何时使用或不在数据绑定表达式中使用带有observable的括号

5Zuul url映射与春天启动,尤里卡

6应用程序按钮打开电子邮件,但不会关闭窗口并返回应用程序

7使用RXBindings在RXjava中延迟+ distinctUntilChanged

8Oracle是否仍在开发JavaFX Scene Builder？

9xlsxwriter中的自定义数据标签

10使用React-Native运行自定义Babel变换

11将指针作为C++类中的成员字段是愚蠢的吗？

12如何使用JSoup获得隐藏的输入值？

13最小比较时间.持续时间？

14正则表达式提取字符串后的第二个"." 字符串末尾的点字符

15Safari自动"display:none!important"不会加载图片

16理解Beautiful Soup中的Find()函数

17为什么`getNumPartitions()`没有给我"repartition"指定的正确数量的分区？

18如何在页面刷新时保留Chrome DOM断点？

19Web Audio API中AudioWorkerNode的状态

20Loop没有捕获重复项并在Android(Java)中删除它们