我正在为客户部署替换网站,但他们不希望所有旧网页都以404结尾.保持旧的URL结构是不可能的,因为它是可怕的.
所以我正在编写一个404处理程序,它应该查找被请求的旧页面并永久重定向到新页面.问题是,我需要一个包含所有旧页面网址的列表.
我可以手动执行此操作,但我会感兴趣的是,是否有任何应用程序可以为我提供相关列表(例如:/ page/path,而不是http:/.../ page/path)页.像蜘蛛一样但不关心内容而不是寻找更深层的页面.
我不是故意回答我自己的问题,但我只想到运行一个站点地图生成器.第一个我发现http://www.xml-sitemaps.com有一个很好的文本输出.完美的满足我的需求.
做 wget -r -l0 www.oldsite.com
然后find www.oldsite.com
,我相信,只会揭示所有网址.
或者,只需在每个404请求上提供该自定义未找到的页面!也就是说,如果有人使用了错误的链接,他会得到页面,告诉我找不到页面,并对网站的内容做了一些提示.
以下是站点地图生成器列表(显然,您可以从中获取站点中的URL列表):http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators
网站地图生成器
以下是生成或维护XML Sitemaps格式文件的工具的链接,这是一种在sitemaps.org上定义并由Ask,Google,Microsoft Live Search和Yahoo!等搜索引擎支持的开放标准.站点地图文件通常包含网站上的URL集合以及这些URL的一些元数据.以下工具通常生成"Web类型"XML站点地图和URL列表文件(有些还可能支持其他格式).
请注意:Google未测试或验证本网站上列出的第三方软件的功能或安全性.请将有关软件的任何问题直接发送给软件作者.我们希望您喜欢这些工具!
服务器端程序
Enarion phpSitemapsNG(PHP)
Google Sitemap Generator(Linux/Windows,32/64bit,开源)
Outil en PHP(法语,PHP)
Perl Sitemap生成器(Perl)
Python站点地图生成器(Python)
简单站点地图(PHP)
SiteMap XML动态站点地图生成器(PHP)$
OS/2的站点地图生成器(REXX脚本)
XML Sitemap Generator(PHP)$
CMS和其他插件:
ASP.NET - Sitemaps.Net
DotClear(西班牙语)
DotClear(2)
Drupal的
电子商务模板(PHP)$
电子商务模板(PHP或ASP)$
LifeType的
MediaWiki Sitemap生成器
例如mnoGoSearch
OS Commerce
phpWebSite
Plone的
的RapidWeaver
的Textpattern
vBulletin
Wikka Wiki(PHP)
WordPress的
可下载的工具
GSiteCrawler(Windows)
GWebCrawler和Sitemap Creator(Windows)
G-Mapper(Windows)
Inspyder Sitemap Creator(Windows)$
IntelliMapper(Windows)$
Microsys A1 Sitemap Generator(Windows)$
Rage Google Sitemap Automator $(OS-X)
尖叫青蛙SEO蜘蛛和Sitemap生成器(Windows/Mac)$
站点地图专业版(Windows)$
Sitemap Writer(Windows)$
DevIntelligence发布的Sitemap生成器(Windows)
Sorrowmans站点地图工具(Windows)
TheSiteMapper(Windows)$
Vigos Gsitemap(Windows)
Visual SEO Studio(Windows)
WebDesignPros站点地图生成器(Java Webstart应用程序)
Weblight(Windows/Mac)$
WonderWebWare站点地图生成器(Windows)
在线发电机/服务
AuditMyPc.com网站地图生成器
AutoMapIt
Autositemap $
Enarion phpSitemapsNG
免费Sitemap生成器
Neuroticweb.com网站地图生成器
ROR Sitemap生成器
ScriptSocket Sitemap生成器
SeoUtility Sitemap Generator(意大利语)
SitemapDoc
Sitemapspal
SitemapSubmit
Smart-IT-Consulting Google Sitemaps XML Validator
XML Sitemap生成器
XML-Sitemaps生成器
带有集成Sitemap生成器的CMS
Concrete5
Google新闻站点地图生成器以下插件允许发布者更新Google新闻站点地图文件,这是我们在帮助中心中描述的sitemaps.org协议的一种变体.除了Sitemap文件的常规属性之外,Google新闻站点地图还允许发布者描述他们发布的内容类型,以及指定单个文章的访问级别.有关Google新闻的更多信息,请访问我们的帮助中心和帮助论坛.
WordPress谷歌新闻插件
代码片段/库
ASP脚本
Emacs Lisp脚本
Java库
Perl脚本
PHP类
PHP生成器脚本
如果您认为应该出于合法原因添加或删除工具,请在网站管理员帮助论坛中发表评论.
我发现的最好的是http://www.auditmypc.com/xml-sitemap.asp,它使用Java,对页面没有限制,甚至可以将结果导出为原始URL列表.
它还使用会话,因此如果您使用的是CMS,请确保在运行爬网之前注销.