13赞

javascript - 怎么使用CasperJs抓取网页？-php教程

作者：php | 2021-09-02 14:06

在知乎上看到有个php爬虫的思路是这样写的：pcntl_fork或者swoole_process实现多进程并发。按照每个网页抓取耗时500ms，开200个进程，可以实现每秒400个页面的抓取。curl实现页面抓取，设置cookie可以实现模拟

在知乎上看到有个php爬虫的思路是这样写的：

pcntl_fork或者swoole_process实现多进程并发。按照每个网页抓取耗时500ms，开200个进程，可以实现每秒400个页面的抓取。

curl实现页面抓取，设置cookie可以实现模拟登录 simple_html_dom 实现页面的解析和DOM处理

如果想要模拟浏览器，可以使用casperJS。用swoole扩展封装一个服务接口给PHP层调用

在多玩网这里有一套爬虫系统就是基于上述技术方案实现的，每天会抓取几千万个页面。

第1、2点可以弄，当然我不用swoole。第3点中的casperJS不太懂，怎样用啊？

回复内容：

在知乎上看到有个php爬虫的思路是这样写的：

pcntl_fork或者swoole_process实现多进程并发。按照每个网页抓取耗时500ms，开200个进程，可以实现每秒400个页面的抓取。

curl实现页面抓取，设置cookie可以实现模拟登录 simple_html_dom 实现页面的解析和DOM处理

如果想要模拟浏览器，可以使用casperJS。用swoole扩展封装一个服务接口给PHP层调用

在多玩网这里有一套爬虫系统就是基于上述技术方案实现的，每天会抓取几千万个页面。

第1、2点可以弄，当然我不用swoole。第3点中的casperJS不太懂，怎样用啊？

你可以看它的文档。这里有例子http://docs.casperjs.org/en/latest/quickstart.html

简单讲casperjs是基于phantomjs的script，模拟浏览器的意思是它不需要浏览器来渲染页面，但是也可以来navigate, 对DOM进行操作什么的

推荐阅读

程序员
如何排除在ASP.NET Core中发布的文件？

如何解决《如何排除在ASP.NETCore中发布的文件？》经验，为你挑选了1个好方法。 ... [详细]
程序员
当未定义属性时,Angularjs Filter无法正常工作

如何解决《当未定义属性时,AngularjsFilter无法正常工作》经验，为你挑选了0个好方法。 ... [详细]
程序员
android:将字节转换为dex时出错

如何解决《android:将字节转换为dex时出错》经验，为你挑选了8个好方法。 ... [详细]
程序员
R:更简单的方法将矩阵列表中的0更改为NA？

如何解决《R:更简单的方法将矩阵列表中的0更改为NA？》经验，为你挑选了1个好方法。 ... [详细]
程序员
不推荐使用的SVG pathSegList的替代方案

如何解决《不推荐使用的SVGpathSegList的替代方案》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法识别的Content-Security-Policy指令'script-src：'

如何解决《无法识别的Content-Security-Policy指令'script-src：'》经验，为你挑选了1个好方法。 ... [详细]
程序员
与DDNAME相关的PDS成员列表

如何解决《与DDNAME相关的PDS成员列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
两个索引上的MERGE JOIN仍导致SORT？

如何解决《两个索引上的MERGEJOIN仍导致SORT？》经验，为你挑选了0个好方法。 ... [详细]
程序员
为每个终端加载.bash_profile

如何解决《为每个终端加载.bash_profile》经验，为你挑选了1个好方法。 ... [详细]
程序员
Webpack:无法解析模块'file-loader'

如何解决《Webpack:无法解析模块'file-loader'》经验，为你挑选了1个好方法。 ... [详细]
程序员
问题删除NavigationView菜单项选择的颜色？

如何解决《问题删除NavigationView菜单项选择的颜色？》经验，为你挑选了4个好方法。 ... [详细]
程序员
seo工具包-robots.txt规则不允许请求

如何解决《seo工具包-robots.txt规则不允许请求》经验，为你挑选了0个好方法。 ... [详细]
程序员
交易ID设置正确,但稍后仅显示提交

如何解决《交易ID设置正确,但稍后仅显示提交》经验，为你挑选了0个好方法。 ... [详细]
程序员
用于显示/隐藏div的动态搜索功能

如何解决《用于显示/隐藏div的动态搜索功能》经验，为你挑选了0个好方法。 ... [详细]
程序员
vstest.console可以按所有匹配的特征过滤测试吗？

如何解决《vstest.console可以按所有匹配的特征过滤测试吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android：活动之间出现黑屏

如何解决《Android：活动之间出现黑屏》经验，为你挑选了0个好方法。 ... [详细]
程序员
更改MySQL存储过程'Database Collation'名称

如何解决《更改MySQL存储过程'DatabaseCollation'名称》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从C++中的protobuf执行TensorFlow图？

如何解决《如何从C++中的protobuf执行TensorFlow图？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何检查arraylist是否包含字符串

如何解决《如何检查arraylist是否包含字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
travis构建失败,因为devtools缺失

如何解决《travis构建失败,因为devtools缺失》经验，为你挑选了1个好方法。 ... [详细]

php

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章