刮一个动态的网站

作者：有风吹过best | 2023-09-04 00:34

如何解决《刮一个动态的网站》经验，为你挑选了2个好方法。

什么是抓住动态网站的最佳方法,其中大部分内容是由似乎是ajax请求生成的？我之前有过使用Mechanize,BeautifulSoup和python组合的经验,但我还有新的东西.

- 编辑 - 更多细节:我正在试图刮掉CNN 主数据库.那里有大量的信息,但似乎没有api.

1> Adam Davis..：

这是一个难题,因为你要么必须在每个站点上对javascript进行逆向工程,要么实现javascript引擎并运行脚本(它有自己的困难和陷阱).

这是一个重量级的解决方案,但我看到人们使用greasemonkey脚本执行此操作 - 允许Firefox渲染所有内容并运行javascript,然后抓取元素.如果需要,您甚至可以在页面上启动用户操作.

-亚当

2> Colin Barnes..：

我发现的最佳解决方案是使用Firebug监视XmlHttpRequests,然后使用脚本重新发送它们.

推荐阅读

程序员
如何从浮点数中得到精确的小数部分作为整数？

如何解决《如何从浮点数中得到精确的小数部分作为整数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
正则表达式 - 将C#Regex转换为JavaScript Regex的量词的目标无效

如何解决《正则表达式-将C#Regex转换为JavaScriptRegex的量词的目标无效》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何将图标(Bitmap)转换为ImageSource？

如何解决《如何将图标(Bitmap)转换为ImageSource？》经验，为你挑选了2个好方法。 ... [详细]
程序员
UglifyJS选项只删除死代码

如何解决《UglifyJS选项只删除死代码》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何生成Firebase ID？

如何解决《如何生成FirebaseID？》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有一种可靠的方法来了解哪些库可以在elf二进制文件中进行dlopen()编辑？

如何解决《有没有一种可靠的方法来了解哪些库可以在elf二进制文件中进行dlopen()编辑？》经验，为你挑选了1个好方法。 ... [详细]
程序员
箭头函数与函数声明/表达式:它们是等效/可交换的吗？

如何解决《箭头函数与函数声明/表达式:它们是等效/可交换的吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Google Adwords CSP(内容安全政策)img-src

如何解决《GoogleAdwordsCSP(内容安全政策)img-src》经验，为你挑选了3个好方法。 ... [详细]
程序员
在PHP中查找并从String中提取匹配值

如何解决《在PHP中查找并从String中提取匹配值》经验，为你挑选了1个好方法。 ... [详细]
程序员
"使用未分配的局部变量"错误的原因是什么？

如何解决《"使用未分配的局部变量"错误的原因是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
声明函数并在jquery事件绑定上调用它

如何解决《声明函数并在jquery事件绑定上调用它》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何以编程方式撰写邮件？

如何解决《如何以编程方式撰写邮件？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用jQuery/Javascript将0.0099999999999909舍入到0.01？

如何解决《如何使用jQuery/Javascript将0.0099999999999909舍入到0.01？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在React组件上管理状态,该组件可以从父级或事件中的事件更改状态？

如何解决《如何在React组件上管理状态,该组件可以从父级或事件中的事件更改状态？》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法使用sequelize连接到SQL Azure数据库,但localhost上的SQL Server工作正常

如何解决《无法使用sequelize连接到SQLAzure数据库,但localhost上的SQLServer工作正常》经验，为你挑选了1个好方法。 ... [详细]
程序员
通用Windows应用商店应用关闭时如何执行代码？

如何解决《通用Windows应用商店应用关闭时如何执行代码？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何等待async void完成？

如何解决《如何等待asyncvoid完成？》经验，为你挑选了1个好方法。 ... [详细]
程序员
routes.LowercaseUrls和routes.AppendTrailingSlash在MVC中不起作用

如何解决《routes.LowercaseUrls和routes.AppendTrailingSlash在MVC中不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用swiftmailer发送多封电子邮件时如何绕过失败的电子邮件？

如何解决《使用swiftmailer发送多封电子邮件时如何绕过失败的电子邮件？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django:什么是权限代号？

如何解决《Django:什么是权限代号？》经验，为你挑选了1个好方法。 ... [详细]

有风吹过best

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章