我正在使用线程和队列模块在Python中编写一个简单的爬虫程序.我获取一个页面,检查链接并将它们放入队列,当某个线程完成处理页面时,它从队列中抓取下一个.我正在为我已经访问过的页面使用一个数组来过滤我添加到队列中的链接,但是如果有多个线程并且它们在不同页面上获得相同的链接,则它们会将重复的链接放入队列.那么如何才能找出某个url是否已经在队列中以避免再次将其放入队列中?
如果您不关心处理项目的顺序,我会尝试在内部Queue
使用的子类set
:
class SetQueue(Queue): def _init(self, maxsize): self.maxsize = maxsize self.queue = set() def _put(self, item): self.queue.add(item) def _get(self): return self.queue.pop()
正如Paul McGuire指出的那样,这将允许在从"待处理"集中删除并且尚未添加到"已处理"集合之后添加重复项目.要解决这个问题,您可以在Queue
实例中存储这两个集合,但由于您使用较大的集合来检查项目是否已被处理,您也可以回到queue
哪个集合将正确地订购请求.
class SetQueue(Queue): def _init(self, maxsize): Queue._init(self, maxsize) self.all_items = set() def _put(self, item): if item not in self.all_items: Queue._put(self, item) self.all_items.add(item)
与单独使用集合相反,这样做的优点是,它Queue
的方法是线程安全的,因此您不需要额外的锁定来检查另一个集合.