20赞

如何将动态网站变成可以从CD演示的静态网站？

作者：无名有名我无名_593 | 2023-09-05 09:55

如何解决《如何将动态网站变成可以从CD演示的静态网站？》经验，为你挑选了1个好方法。

我需要找到一种方法来抓取我们公司的一个Web应用程序,并从中创建一个静态站点,可以刻录到CD并由旅行销售人员用来演示网站.后端数据存储分布在许多系统中,因此只需在销售人员的笔记本电脑上的VM上运行该站点就行不通.在一些客户端(没有互联网,手机......原始,我知道)他们将无法访问互联网.

有没有人对爬行器有任何好的建议,可以处理链接清理,闪存,一点ajax,CSS等等？我知道赔率很小,但在我开始编写自己的工具之前,我想我会把问题抛到这里.

1> wprl..：

通过使用WebCrawler,例如以下之一:

DataparkSearch是一个在GNU通用公共许可证下发布的爬虫和搜索引擎.

GNU Wget是一个用C语言编写的命令行操作的爬虫,并在GPL下发布.它通常用于镜像Web和FTP站点.

HTTrack使用Web爬虫创建网站镜像以进行离线查看.它是用C语言编写的,并在GPL下发布.

ICDL Crawler是一个用C++编写的跨平台Web爬虫,旨在使用计算机的免费CPU资源基于网站解析模板爬网.

JSpider是一个高度可配置和可定制的Web蜘蛛引擎,由GPL发布.

Larb by Sebastien Ailleret

安德里亚斯·比德的Webtools4larbin

Methabot是一个速度优化的Web爬虫和命令行实用程序,用C语言编写,并在2条款BSD许可下发布.它具有广泛的配置系统,模块系统,并支持通过本地文件系统,HTTP或FTP进行有针对性的爬网.

Jaeksoft WebSearch是一个基于Apache Lucene构建的Web爬虫和索引器.它是根据GPL v3许可证发布的.

Nutch是一个用Java编写的爬虫,并在Apache许可下发布.它可以与Lucene文本索引包一起使用.

Pavuk是一个命令行Web镜像工具,带有可选的X11 GUI爬虫,并在GPL下发布.与wget和httrack相比,它具有许多高级功能,例如.基于正则表达式的过滤和文件创建规则.

WebVac是斯坦福WebBase项目使用的爬虫.

WebSPHINX(Miller和Bharat,1998)由实现多线程网页检索和HTML解析的Java类库以及用于设置起始URL,提取下载数据和实现基本文本的图形用户界面组成.基于搜索引擎.

WIRE - Web信息检索环境[15]是一个用C++编写并在GPL下发布的网络爬虫,包括几个用于安排页面下载的策略和一个用于在下载页面上生成报告和统计信息的模块,因此它已被用于网络表征.

LWP :: RobotUA(Langheinrich,2004)是一个Perl类,用于实现在Perl 5许可下分发的行为良好的并行Web机器人.

Web Crawler .NET的开源Web爬虫类(用C#编写).

Sherlock Holmes Sherlock Holmes在本地和网络上收集和索引文本数据(文本文件,网页......).Holmes由捷克门户网站Centrum赞助并商业使用.它也被Onet.pl使用.

YaCy是一个免费的分布式搜索引擎,建立在点对点网络的原则上(根据GPL许可).

Ruya Ruya是一款开源,高性能,广度优先,基于级别的网络爬虫.它用于以良好的方式抓取英语和日语网站.它是在GPL下发布的,完全用Python语言编写.SingleDomainDelayCrawler实现遵循带有爬网延迟的robots.txt.

通用信息爬虫快速开发的网络爬虫.抓取保存并分析数据.

代理内核(Java Kernel)爬网时用于调度,线程和存储管理的Java框架.

蜘蛛新闻,关于在perl中建立蜘蛛的信息.

Arachnode.NET是一个开源混杂的Web爬虫,用于下载,索引和存储Internet内容,包括电子邮件地址,文件,超链接,图像和网页.Arachnode.net是使用SQL Server 2005在C#中编写的,并在GPL下发布.

dine是一个多线程Java HTTP客户端/爬虫,可以用LGPL发布的JavaScript编程.

Crawljax是一个基于方法的Ajax爬虫,该方法动态构建一个"状态流图",用于对Ajax应用程序中的各种导航路径和状态进行建模.Crawljax是用Java编写的,并在BSD许可下发布.

推荐阅读

程序员
在定义路由指令时是否可以使用隐式参数？

如何解决《在定义路由指令时是否可以使用隐式参数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在seaborn Pairgrid中绘制下三角形

如何解决《在seabornPairgrid中绘制下三角形》经验，为你挑选了2个好方法。 ... [详细]
程序员
为Android Studio创建自定义模板

如何解决《为AndroidStudio创建自定义模板》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用另一个自定义服务的服务时,没有提供商...错误

如何解决《使用另一个自定义服务的服务时,没有提供商错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用Python的Spark:将RDD输出保存到文本文件中

如何解决《使用Python的Spark:将RDD输出保存到文本文件中》经验，为你挑选了1个好方法。 ... [详细]
程序员
在chrome dev工具中加载单独的源图文件

如何解决《在chromedev工具中加载单独的源图文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
VueJS在内联模板组件中重新编译HTML

如何解决《VueJS在内联模板组件中重新编译HTML》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在laravel的刀片文件中显示最新('updated_at')记录

如何解决《如何在laravel的刀片文件中显示最新('updated_at')记录》经验，为你挑选了1个好方法。 ... [详细]
程序员
DbContext缓存

如何解决《DbContext缓存》经验，为你挑选了2个好方法。 ... [详细]
程序员
有效地处理文本文件中的数据

如何解决《有效地处理文本文件中的数据》经验，为你挑选了2个好方法。 ... [详细]
程序员
PUT的HTTP状态代码

如何解决《PUT的HTTP状态代码》经验，为你挑选了1个好方法。 ... [详细]
程序员
在rails视图中跳过迭代

如何解决《在rails视图中跳过迭代》经验，为你挑选了1个好方法。 ... [详细]
程序员
回归分析中的分类和序数特征数据表示？

如何解决《回归分析中的分类和序数特征数据表示？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Matplotlib:其bbox中的中心文本

如何解决《Matplotlib:其bbox中的中心文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Xcode中调试ios的金属内核？

如何解决《如何在Xcode中调试ios的金属内核？》经验，为你挑选了0个好方法。 ... [详细]
程序员
反应原生的TextInput焦点样式

如何解决《反应原生的TextInput焦点样式》经验，为你挑选了1个好方法。 ... [详细]
程序员
containsTheSameElementsAs如何在specs2中工作

如何解决《containsTheSameElementsAs如何在specs2中工作》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Delphi 10 Seattle上接收iOS推送通知

如何解决《在Delphi10Seattle上接收iOS推送通知》经验，为你挑选了0个好方法。 ... [详细]
程序员
在空内使用修剪

如何解决《在空内使用修剪》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何跳过Perl中while循环中的迭代步骤？

如何解决《如何跳过Perl中while循环中的迭代步骤？》经验，为你挑选了1个好方法。 ... [详细]

无名有名我无名_593

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章