所以我正在编写一个简单的网站爬虫来维护内部网站.它将遍历每个链接,在找到它们时添加新链接,记下标题和h1标签等.
有时它会复制标题和H1标签,当我手动检查它时,源中只有一个.
发生这种情况的原因是因为爬网脚本是通过cron运行的,并且它似乎是重叠的,因此处理同一页面两次.
该脚本将基本上抓取一个未被抓取的页面,然后如果http响应为200,它将标记为已爬行,并处理它需要的内容.
因此,在SELECT和UPDATE之间,脚本的另一个线程在SELECTed的同一行上运行.
有没有办法在同一个查询中使用SELECT和UPDATE,或者锁定SELECT中返回的行,这样在完成之前它不能再在另一个线程的另一个查询中返回?
看过 - http://dev.mysql.com/doc/refman/5.0/en/innodb-locking-reads.html和一般SELECT FOR UPDATE的东西,但我仍然不确定.
编辑
我正在使用这样的东西
START TRANSACTION; SELECT .. FOR UPDATE; UPDATE .... ; COMMIT;
但它不喜欢它.我在该表上使用InnoDB.我认为这可能不是前进的方式,因为它只是在提交之后推迟行的处理,当我希望它在物理上不能再次选择行时.
我已经通过执行SELECT来覆盖它,然后执行UPDATE以在处理之前将字段标记为已爬行,但事实上这不是无缝的,这似乎导致了问题.我需要一种方法来无缝地选择和更新字段,或SELECT并再次停止它被选中,直到我这样说.