我需要找到一种方法来抓取我们公司的一个Web应用程序,并从中创建一个静态站点,可以刻录到CD并由旅行销售人员用来演示网站.后端数据存储分布在许多系统中,因此只需在销售人员的笔记本电脑上的VM上运行该站点就行不通.在一些客户端(没有互联网,手机......原始,我知道)他们将无法访问互联网.
有没有人对爬行器有任何好的建议,可以处理链接清理,闪存,一点ajax,CSS等等?我知道赔率很小,但在我开始编写自己的工具之前,我想我会把问题抛到这里.
通过使用WebCrawler,例如以下之一:
DataparkSearch是一个在GNU通用公共许可证下发布的爬虫和搜索引擎.
GNU Wget是一个用C语言编写的命令行操作的爬虫,并在GPL下发布.它通常用于镜像Web和FTP站点.
HTTrack使用Web爬虫创建网站镜像以进行离线查看.它是用C语言编写的,并在GPL下发布.
ICDL Crawler是一个用C++编写的跨平台Web爬虫,旨在使用计算机的免费CPU资源基于网站解析模板爬网.
JSpider是一个高度可配置和可定制的Web蜘蛛引擎,由GPL发布.
Larb by Sebastien Ailleret
安德里亚斯·比德的Webtools4larbin
Methabot是一个速度优化的Web爬虫和命令行实用程序,用C语言编写,并在2条款BSD许可下发布.它具有广泛的配置系统,模块系统,并支持通过本地文件系统,HTTP或FTP进行有针对性的爬网.
Jaeksoft WebSearch是一个基于Apache Lucene构建的Web爬虫和索引器.它是根据GPL v3许可证发布的.
Nutch是一个用Java编写的爬虫,并在Apache许可下发布.它可以与Lucene文本索引包一起使用.
Pavuk是一个命令行Web镜像工具,带有可选的X11 GUI爬虫,并在GPL下发布.与wget和httrack相比,它具有许多高级功能,例如.基于正则表达式的过滤和文件创建规则.
WebVac是斯坦福WebBase项目使用的爬虫.
WebSPHINX(Miller和Bharat,1998)由实现多线程网页检索和HTML解析的Java类库以及用于设置起始URL,提取下载数据和实现基本文本的图形用户界面组成.基于搜索引擎.
WIRE - Web信息检索环境[15]是一个用C++编写并在GPL下发布的网络爬虫,包括几个用于安排页面下载的策略和一个用于在下载页面上生成报告和统计信息的模块,因此它已被用于网络表征.
LWP :: RobotUA(Langheinrich,2004)是一个Perl类,用于实现在Perl 5许可下分发的行为良好的并行Web机器人.
Web Crawler .NET的开源Web爬虫类(用C#编写).
Sherlock Holmes Sherlock Holmes在本地和网络上收集和索引文本数据(文本文件,网页......).Holmes由捷克门户网站Centrum赞助并商业使用.它也被Onet.pl使用.
YaCy是一个免费的分布式搜索引擎,建立在点对点网络的原则上(根据GPL许可).
Ruya Ruya是一款开源,高性能,广度优先,基于级别的网络爬虫.它用于以良好的方式抓取英语和日语网站.它是在GPL下发布的,完全用Python语言编写.SingleDomainDelayCrawler实现遵循带有爬网延迟的robots.txt.
通用信息爬虫快速开发的网络爬虫.抓取保存并分析数据.
代理内核(Java Kernel)爬网时用于调度,线程和存储管理的Java框架.
蜘蛛新闻,关于在perl中建立蜘蛛的信息.
Arachnode.NET是一个开源混杂的Web爬虫,用于下载,索引和存储Internet内容,包括电子邮件地址,文件,超链接,图像和网页.Arachnode.net是使用SQL Server 2005在C#中编写的,并在GPL下发布.
dine是一个多线程Java HTTP客户端/爬虫,可以用LGPL发布的JavaScript编程.
Crawljax是一个基于方法的Ajax爬虫,该方法动态构建一个"状态流图",用于对Ajax应用程序中的各种导航路径和状态进行建模.Crawljax是用Java编写的,并在BSD许可下发布.