15赞

网页抓取填写(并检索)搜索表单？

作者：臭小子 | 2023-08-22 15:53

如何解决《网页抓取填写(并检索)搜索表单？》经验，为你挑选了1个好方法。

我想知道是否有可能"自动化"输入条目以搜索表单并从结果中提取匹配项的任务.例如,我有一份期刊文章列表,我想获得DOI(数字对象标识符); 手动为此我会去期刊文章搜索页面(例如,http://pubs.acs.org/search/advanced),输入作者/标题/卷(等),然后找到它的文章返回结果列表,然后选择DOI并将其粘贴到我的参考列表中.我经常使用R和Python进行数据分析(我的灵感来自于RCurl上的一篇文章),但对网络协议知之甚少......这样的事情是否可能(例如使用类似Python的BeautifulSoup？).做任何类似于此任务的远程操作都有什么好的参考吗？我对学习网络抓取和网络抓取工具一样兴趣,就像完成这项特殊任务一样...感谢您的时间!

1> mixonic..：

美丽的汤非常适合解析网页 - 这是您想要做的事情的一半.Python,Perl和Ruby都有一个版本的Mechanize,那是另一半:

http://wwwsearch.sourceforge.net/mechanize/

机械化让你控制一个浏览器:

# Follow a link
browser.follow_link(link_node)

# Submit a form
browser.select_form(name="search")
browser["authors"] = ["author #1", "author #2"]
browser["volume"] = "any"
search_response = br.submit()

使用Mechanize和Beautiful Soup,您将有一个良好的开端.我考虑的另一个工具是Firebug,就像在这个快速红宝石刮擦指南中使用的那样:

http://www.igvita.com/2007/02/04/ruby-screen-scraper-in-60-seconds/

Firebug可以加速构建xpath以解析文档,为您节省大量时间.

祝好运!

推荐阅读

程序员
Haskell将(0/0)设置为qnan

如何解决《Haskell将(0/0)设置为qnan》经验，为你挑选了1个好方法。 ... [详细]
程序员
Webpack Sass导入URL解析

如何解决《WebpackSass导入URL解析》经验，为你挑选了1个好方法。 ... [详细]
程序员
Matlab:什么更快？是否预先定义了有用的对象？

如何解决《Matlab:什么更快？是否预先定义了有用的对象？》经验，为你挑选了1个好方法。 ... [详细]
程序员
浮动和块级元素

如何解决《浮动和块级元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
棉花糖不会出错

如何解决《棉花糖不会出错》经验，为你挑选了1个好方法。 ... [详细]
程序员
清除OpenShift上的日志文件 - RedHat

如何解决《清除OpenShift上的日志文件-RedHat》经验，为你挑选了1个好方法。 ... [详细]
程序员
覆盖率如何计算其百分比？

如何解决《覆盖率如何计算其百分比？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Spring Boot/Spring数据中为Amazon RDS Mysql启用SSL？

如何解决《如何在SpringBoot/Spring数据中为AmazonRDSMysql启用SSL？》经验，为你挑选了0个好方法。 ... [详细]
程序员
cordova通过git ssh url添加插件？

如何解决《cordova通过gitsshurl添加插件？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在不反转标点的情况下反转字符串？

如何解决《如何在不反转标点的情况下反转字符串？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用盐栈渲染和转储文件sls而不应用它

如何解决《如何使用盐栈渲染和转储文件sls而不应用它》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用python,boto3在Amazon S3中创建目录

如何解决《使用python,boto3在AmazonS3中创建目录》经验，为你挑选了2个好方法。 ... [详细]
程序员
存储JWT令牌的位置？

如何解决《存储JWT令牌的位置？》经验，为你挑选了2个好方法。 ... [详细]
程序员
stl .series中的错误不是周期性的

如何解决《stl.series中的错误不是周期性的》经验，为你挑选了1个好方法。 ... [详细]
程序员
Javascript - 将字符串作为text/html复制到剪贴板

如何解决《Javascript-将字符串作为text/html复制到剪贴板》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何处理为nodejs中的每个元素应用异步函数的大数组？

如何解决《如何处理为nodejs中的每个元素应用异步函数的大数组？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用f#时,如何在Api控制器中为每个新方法触摸我的DI容器

如何解决《使用f#时,如何在Api控制器中为每个新方法触摸我的DI容器》经验，为你挑选了1个好方法。 ... [详细]
程序员
基准测试ASP.NET并发请求效果不佳

如何解决《基准测试ASP.NET并发请求效果不佳》经验，为你挑选了0个好方法。 ... [详细]
程序员
Python:字典列表列表

如何解决《Python:字典列表列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
优化snmp库以在iphone中搜索设备的IP地址

如何解决《优化snmp库以在iphone中搜索设备的IP地址》经验，为你挑选了0个好方法。 ... [详细]

臭小子

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章