12赞

如何用php 编写网络爬虫？

作者：喜生-Da | 2021-09-08 09:31

如何用PHP语言编写网络爬虫？1.别跟我说PHP不适合干这个，我不想为了写爬虫专门学一门新的语言，我知道它能实现2.我又一定的PHP编程基础，熟悉数据结构与算法，有一般的网络基础知识，比如TCPIP协议等概念3.能否提供具体书籍名称，网络文章名4.我可以贪心的求源码么？谢谢！

如何用PHP语言编写网络爬虫？
1.别跟我说PHP不适合干这个，我不想为了写爬虫专门学一门新的语言，我知道它能实现
2.我又一定的PHP编程基础，熟悉数据结构与算法，有一般的网络基础知识，比如TCP/IP协议等概念
3.能否提供具体书籍名称，网络文章名
4.我可以贪心的求源码么？
谢谢！

回复内容：

pcntl_fork或者swoole_process实现多进程并发。按照每个网页抓取耗时500ms，开200个进程，可以实现每秒400个页面的抓取。
curl实现页面抓取，设置cookie可以实现模拟登录
simple_html_dom 实现页面的解析和DOM处理
如果想要模拟浏览器，可以使用casperJS。用swoole扩展封装一个服务接口给PHP层调用

在多玩网这里有一套爬虫系统就是基于上述技术方案实现的，每天会抓取几千万个页面。你需要这个-Goutte, a simple PHP Web Scraper-FriendsOfPHP/Goutte · GitHub USTC Spider 这就是用PHP写的，每隔一段时间抓取一下目标网站，将数据写入本地，然后直接读取本地文件即可。 php实现内容爬虫不难，楼上说的curl，selenium已经几乎可以完成所有可能的任务了。但是，如果还想进行内容处理，最好还是能加上一个可以处理用户交互的东西，casperjs就是啦。《Webbots、Spiders和Screen Scrapers：技术解析与应用实践》下午刚写的一个通过关键词抓取符合要求的豆瓣小组的信息，很糙。也是刚开始学。
有个问题就是老被封, 还在想怎么解决...
还有就是太慢了... 单线程做的. 我看投票最多的答案还挺好的。准备继续改造改造。 php模拟登录教务系统,测试时显示登录成功但是页面没有跳转出来最简单的用正则表达式+get_file_contents即可实现爬虫

推荐阅读

程序员
Elixir中BitString的位计数或汉明重量？

如何解决《Elixir中BitString的位计数或汉明重量？》经验，为你挑选了1个好方法。 ... [详细]
程序员
copy_backward和reverse_copy之间的区别？

如何解决《copy_backward和reverse_copy之间的区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何获得Yocto中所有可用目标的列表？

如何解决《如何获得Yocto中所有可用目标的列表？》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么SBCL会像这样打印Sublis？

如何解决《为什么SBCL会像这样打印Sublis？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在ASP.NET web api中接收json？

如何解决《如何在ASP.NETwebapi中接收json？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在堆栈视图中设置容器的高度？

如何解决《如何在堆栈视图中设置容器的高度？》经验，为你挑选了1个好方法。 ... [详细]
程序员
长双没有提供所需的精度

如何解决《长双没有提供所需的精度》经验，为你挑选了1个好方法。 ... [详细]
程序员
Bootstrap popover无法在iPad Safari上运行

如何解决《Bootstrappopover无法在iPadSafari上运行》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何为每个列名添加后缀(或前缀)？

如何解决《如何为每个列名添加后缀(或前缀)？》经验，为你挑选了3个好方法。 ... [详细]
程序员
在python中找到单词结尾的索引

如何解决《在python中找到单词结尾的索引》经验，为你挑选了0个好方法。 ... [详细]
程序员
在编号中将monadic函数与纯函数混合使用

如何解决《在编号中将monadic函数与纯函数混合使用》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何重命名插件标题> Wordpress>仪表板

如何解决《如何重命名插件标题>Wordpress>仪表板》经验，为你挑选了1个好方法。 ... [详细]
程序员
Vim/Sed:仅删除单个空行

如何解决《Vim/Sed:仅删除单个空行》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用ACL"public-read"保存到s3时,带有AdministratorAccess的AWS Lambda会抛出"拒绝访问"

如何解决《使用ACL"public-read"保存到s3时,带有AdministratorAccess的AWSLambda会抛出"拒绝访问"》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Android上使用Dagger 2进行懒惰注射

如何解决《在Android上使用Dagger2进行懒惰注射》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用AJAX加载RSS提要:Google Feed API的替代方案？

如何解决《使用AJAX加载RSS提要:GoogleFeedAPI的替代方案？》经验，为你挑选了1个好方法。 ... [详细]
程序员
IE11 HTTPS AJAX XMLHttpRequest:网络错误0x2eff,由于错误00002eff无法完成操作

如何解决《IE11HTTPSAJAXXMLHttpRequest:网络错误0x2eff,由于错误00002eff无法完成操作》经验，为你挑选了2个好方法。 ... [详细]
程序员
可以通过"添加服务引用"添加RESTful WCF服务吗？

如何解决《可以通过"添加服务引用"添加RESTfulWCF服务吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
编译com.squareup.retrofit时出错:converter-simplexml:2.0.0-beta2

如何解决《编译com.squareup.retrofit时出错:converter-simplexml:2.0.0-beta2》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Babel在ES6(7？)中避免使用.bind

如何解决《使用Babel在ES6(7？)中避免使用.bind》经验，为你挑选了1个好方法。 ... [详细]

喜生-Da

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章