我正在构建一个蜘蛛,它将遍历各个站点并对其进行数据挖掘.
由于我需要单独获取每个页面,这可能需要很长时间(可能是100页).我已经将set_time_limit设置为每页2分钟,但似乎apache会在5分钟后杀死脚本,无论如何.
这通常不是问题,因为这将从cron或类似的东西运行,没有这个时间限制.但是我也希望管理员能够通过HTTP接口手动启动提取.
apache在整个持续时间内保持活动并不重要,我将使用AJAX触发一次获取,并在一段时间内使用AJAX进行检查.
我的问题是如何从PHP脚本中启动提取,而不会在调用它的脚本终止时终止提取.
也许我可以使用system('script.php&'),但我不确定它是否能解决问题.还有其他想法吗?
$cmd = "php myscript.php $params > /dev/null 2>/dev/null &"; # when we call this particular command, the rest of the script # will keep executing, not waiting for a response shell_exec($cmd);
这样做是将所有STDOUT和STDERR发送到/ dev/null,并且脚本继续执行.即使'parent'脚本在myscript.php之前完成,myscript.php也会完成执行.