16赞

如何用php 编写网络爬虫？

作者：依然-狠幸福 | 2021-09-01 18:58

如何用PHP语言编写网络爬虫？1.别跟我说PHP不适合干这个，我不想为了写爬虫专门学一门新的语言，我知道它能实现2.我又一定的PHP编程基础，熟悉数据结构与算法，有一般的网络基础知识，比如TCPIP协议等概念3.能否提供具体书籍名称，网络文章名4.我可以贪心的求源码么？谢谢！

如何用PHP语言编写网络爬虫？
1.别跟我说PHP不适合干这个，我不想为了写爬虫专门学一门新的语言，我知道它能实现
2.我又一定的PHP编程基础，熟悉数据结构与算法，有一般的网络基础知识，比如TCP/IP协议等概念
3.能否提供具体书籍名称，网络文章名
4.我可以贪心的求源码么？
谢谢！

回复内容：

pcntl_fork或者swoole_process实现多进程并发。按照每个网页抓取耗时500ms，开200个进程，可以实现每秒400个页面的抓取。
curl实现页面抓取，设置cookie可以实现模拟登录
simple_html_dom 实现页面的解析和DOM处理
如果想要模拟浏览器，可以使用casperJS。用swoole扩展封装一个服务接口给PHP层调用

在多玩网这里有一套爬虫系统就是基于上述技术方案实现的，每天会抓取几千万个页面。你需要这个-Goutte, a simple PHP Web Scraper-FriendsOfPHP/Goutte · GitHub USTC Spider 这就是用PHP写的，每隔一段时间抓取一下目标网站，将数据写入本地，然后直接读取本地文件即可。 php实现内容爬虫不难，楼上说的curl，selenium已经几乎可以完成所有可能的任务了。但是，如果还想进行内容处理，最好还是能加上一个可以处理用户交互的东西，casperjs就是啦。《Webbots、Spiders和Screen Scrapers：技术解析与应用实践》下午刚写的一个通过关键词抓取符合要求的豆瓣小组的信息，很糙。也是刚开始学。
有个问题就是老被封, 还在想怎么解决...
还有就是太慢了... 单线程做的. 我看投票最多的答案还挺好的。准备继续改造改造。 php模拟登录教务系统,测试时显示登录成功但是页面没有跳转出来最简单的用正则表达式+get_file_contents即可实现爬虫

推荐阅读

程序员
在android测试上重启应用程序

如何解决《在android测试上重启应用程序》经验，为你挑选了0个好方法。 ... [详细]
程序员
VS 2015的RESTful Web服务

如何解决《VS2015的RESTfulWeb服务》经验，为你挑选了1个好方法。 ... [详细]
程序员
laravel 5中的VARCHAR max

如何解决《laravel5中的VARCHARmax》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将ICollection <T>转换为IReadOnlyCollection <T>？

如何解决《如何将ICollection<T>转换为IReadOnlyCollection<T>？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在haskell中使用ffmpeg-light查找mp4元数据？

如何解决《如何在haskell中使用ffmpeg-light查找mp4元数据？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在获取路由中将默认参数传递给laravel控制器

如何解决《如何在获取路由中将默认参数传递给laravel控制器》经验，为你挑选了1个好方法。 ... [详细]
程序员
尝试在Chrome中调试时,React Native Android崩溃

如何解决《尝试在Chrome中调试时,ReactNativeAndroid崩溃》经验，为你挑选了0个好方法。 ... [详细]
程序员
pyspark将列拆分为多个没有pandas的列

如何解决《pyspark将列拆分为多个没有pandas的列》经验，为你挑选了1个好方法。 ... [详细]
程序员
表单提交后加载模式

如何解决《表单提交后加载模式》经验，为你挑选了2个好方法。 ... [详细]
程序员
OCaml:设计文本冒险游戏的数据类型

如何解决《OCaml:设计文本冒险游戏的数据类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
在[...]中出乎意料的'''

如何解决《在[]中出乎意料的'''》经验，为你挑选了1个好方法。 ... [详细]
程序员
触发器在被同一表激发后无法读取该表

如何解决《触发器在被同一表激发后无法读取该表》经验，为你挑选了1个好方法。 ... [详细]
程序员
根据订单中的值过滤列表？

如何解决《根据订单中的值过滤列表？》经验，为你挑选了1个好方法。 ... [详细]
程序员
GoLang的结构

如何解决《GoLang的结构》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用toInt函数的字符串到int转换

如何解决《使用toInt函数的字符串到int转换》经验，为你挑选了3个好方法。 ... [详细]
程序员
在某些条件下非常奇怪的代码,包括优化

如何解决《在某些条件下非常奇怪的代码,包括优化》经验，为你挑选了1个好方法。 ... [详细]
程序员
怎么不是帮手？

如何解决《怎么不是帮手？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用AWS CLI创建AWS Lambda函数？

如何解决《如何使用AWSCLI创建AWSLambda函数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Webpack dev服务器缓慢初始加载

如何解决《Webpackdev服务器缓慢初始加载》经验，为你挑选了0个好方法。 ... [详细]
程序员
在直接声明的HTML事件标记中获取事件对象

如何解决《在直接声明的HTML事件标记中获取事件对象》经验，为你挑选了1个好方法。 ... [详细]

依然-狠幸福

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章