当前位置:  开发笔记 > 编程语言 > 正文

从localhost网站上的所有页面获取<title>值列表的最快方法

如何解决《从localhost网站上的所有页面获取<title>值列表的最快方法》经验,为你挑选了1个好方法。

我本质上想要抓取我的本地站点并创建所有标题和URL的列表,如下所示:

http://localhost/mySite/Default.aspx      My Home Page
http://localhost/mySite/Preferences.aspx  My Preferences
http://localhost/mySite/Messages.aspx     Messages

我正在运行Windows.我对任何有效的东西都开放 - 一个C#控制台应用程序,PowerShell,一些现有工具等.我们可以假设标签确实存在于文档中.

注意:我需要实际捕获文件,因为标题可能是在代码而不是标记中设置的.



1> Adam Rosenfi..:

一个快速而又脏的Cygwin Bash脚本,可以完成这项工作:

#!/bin/bash
for file in $(find $WWWROOT -iname \*.aspx); do
  echo -en $file '\t'
  cat $file | tr '\n' ' ' | sed -i 's/.*\([^<]*\)<\/title>.*/\1/'
done
</pre>

<p>说明:这将查找根目录$ WWWROOT下的每个.aspx文件,用空格替换所有换行符,以便在<code><title></code>和之间没有换行符<code>,然后在这些标记之间删除文本.

推荐阅读
TXCWB_523
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有