3赞

如何使这个递归爬行函数迭代？

作者：地之南_816 | 2023-08-28 17:49

如何解决《如何使这个递归爬行函数迭代？》经验，为你挑选了2个好方法。

出于学术和性能的考虑,鉴于这种爬行递归式网页爬行功能(仅在给定域内进行爬网),使迭代运行的最佳方法是什么？目前运行时,当它完成时,python已经攀升到使用超过1GB的内存,而这在共享环境中运行是不可接受的.

   def crawl(self, url):
    "Get all URLS from which to scrape categories."
    try:
      links = BeautifulSoup(urllib2.urlopen(url)).findAll(Crawler._match_tag)
    except urllib2.HTTPError:
      return
    for link in links:
      for attr in link.attrs:
        if Crawler._match_attr(attr):
          if Crawler._is_category(attr):
            pass
          elif attr[1] not in self._crawled:
            self._crawled.append(attr[1])
            self.crawl(attr[1])

Mehrdad Afsh.. 12

使用BFS而不是递归爬行(DFS):http://en.wikipedia.org/wiki/Breadth_first_search

您可以使用外部存储解决方案(例如数据库)来获取BFS队列以释放RAM.

算法是:

//pseudocode:
var urlsToVisit = new Queue(); // Could be a queue (BFS) or stack(DFS). (probably with a database backing or something).
var visitedUrls = new Set(); // List of visited URLs.

// initialization:
urlsToVisit.Add( rootUrl );

while(urlsToVisit.Count > 0) {
  var nextUrl = urlsToVisit.FetchAndRemoveNextUrl();
  var page = FetchPage(nextUrl);
  ProcessPage(page);
  visitedUrls.Add(nextUrl);
  var links = ParseLinks(page);
  foreach (var link in links)
     if (!visitedUrls.Contains(link))
        urlsToVisit.Add(link); 
}

Ber.. 5

您可以将新URL抓取到队列中,而不是递归.然后运行直到队列为空而不递归.如果将队列放入文件中,则几乎不使用任何内存.

1> Mehrdad Afsh..：

使用BFS而不是递归爬行(DFS):http://en.wikipedia.org/wiki/Breadth_first_search

您可以使用外部存储解决方案(例如数据库)来获取BFS队列以释放RAM.

算法是:

//pseudocode:
var urlsToVisit = new Queue(); // Could be a queue (BFS) or stack(DFS). (probably with a database backing or something).
var visitedUrls = new Set(); // List of visited URLs.

// initialization:
urlsToVisit.Add( rootUrl );

while(urlsToVisit.Count > 0) {
  var nextUrl = urlsToVisit.FetchAndRemoveNextUrl();
  var page = FetchPage(nextUrl);
  ProcessPage(page);
  visitedUrls.Add(nextUrl);
  var links = ParseLinks(page);
  foreach (var link in links)
     if (!visitedUrls.Contains(link))
        urlsToVisit.Add(link); 
}

2> Ber..：

您可以将新URL抓取到队列中,而不是递归.然后运行直到队列为空而不递归.如果将队列放入文件中,则几乎不使用任何内存.

推荐阅读

程序员
如何将此SQL语句转换为PostgreSQL？

如何解决《如何将此SQL语句转换为PostgreSQL？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在张量流中将3通道掩模应用于3通道Tensor

如何解决《在张量流中将3通道掩模应用于3通道Tensor》经验，为你挑选了1个好方法。 ... [详细]
程序员
安装自定义构建heroku并使用库路径发出问题

如何解决《安装自定义构建heroku并使用库路径发出问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
重载Extraction和Insertion << >> operator c ++

如何解决《重载Extraction和Insertion<<>>operatorc++》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何为TensorFlow变量赋值？

如何解决《如何为TensorFlow变量赋值？》经验，为你挑选了3个好方法。 ... [详细]
程序员
Flexbox调整复选框的大小(太小)

如何解决《Flexbox调整复选框的大小(太小)》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有办法在Visual Studio Code中生成JSDoc注释

如何解决《有没有办法在VisualStudioCode中生成JSDoc注释》经验，为你挑选了3个好方法。 ... [详细]
程序员
Visual Studio 2015 - 在重新启动Visual Studio之前,ASP.Net应用程序不会启动

如何解决《VisualStudio2015-在重新启动VisualStudio之前,ASP.Net应用程序不会启动》经验，为你挑选了1个好方法。 ... [详细]
程序员
模拟对象不起作用

如何解决《模拟对象不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用游标在不同的数据库中创建过程

如何解决《如何使用游标在不同的数据库中创建过程》经验，为你挑选了0个好方法。 ... [详细]
程序员
Elasticsearch搜索的结果多种多样

如何解决《Elasticsearch搜索的结果多种多样》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java字符串不可变

如何解决《Java字符串不可变》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Python和Regex提取不同格式的日期

如何解决《使用Python和Regex提取不同格式的日期》经验，为你挑选了0个好方法。 ... [详细]
程序员
用于在Python中更新共享字典的多处理模块

如何解决《用于在Python中更新共享字典的多处理模块》经验，为你挑选了0个好方法。 ... [详细]
程序员
grid.Call出错(L_textBounds,as.graphicsAnnot(x $ label),x $ x,x $ y,:找不到多边形边缘(新)

如何解决《grid.Call出错(L_textBounds,as.graphicsAnnot(x$label),x$x,x$y,:找不到多边形边缘(新)》经验，为你挑选了0个好方法。 ... [详细]
程序员
更新到Angular 2后,无法在Firefox上通过Protractor运行Selenium

如何解决《更新到Angular2后,无法在Firefox上通过Protractor运行Selenium》经验，为你挑选了1个好方法。 ... [详细]
程序员
当前网址app /与其中任何一个都不匹配

如何解决《当前网址app/与其中任何一个都不匹配》经验，为你挑选了2个好方法。 ... [详细]
程序员
从InstrumentationTestCase创建通知

如何解决《从InstrumentationTestCase创建通知》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用jquery替换多个$符号

如何解决《使用jquery替换多个$符号》经验，为你挑选了1个好方法。 ... [详细]
程序员
访问laravel供应商文件夹中的控制器的路由

如何解决《访问laravel供应商文件夹中的控制器的路由》经验，为你挑选了1个好方法。 ... [详细]

地之南_816

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章