当前位置:  开发笔记 > 编程语言 > 正文

任何人都有任何C#代码来解析robots.txt并对其进行评估

如何解决《任何人都有任何C#代码来解析robots.txt并对其进行评估》经验,为你挑选了1个好方法。

简短的问题:

有没有人有任何C#代码来解析robots.txt,然后针对它评估URLS,所以看看它们是否会被排除.

长问题:

我一直在为一个尚未发布到谷歌的新网站创建一个站点地图.站点地图有两种模式,一种是用户模式(如传统的站点地图)和一种"管理"模式.

管理员模式将显示网站上所有可能的URL,包括特定外部合作伙伴的自定义条目URL或URL,例如example.com/oprah在Oprah上看到我们网站的任何人.我想跟踪Excel电子表格以外的其他地方发布的链接.

我不得不假设有人可能会/oprah在他们的博客或某个地方发布链接.我们实际上并不希望将这个"迷你oprah网站"编入索引,因为这会导致非oprah观众能够找到特殊的Oprah优惠.

所以在我创建站点地图的同时,我还添加了URLS,/oprah以便从我们的robots.txt文件中排除.

然后(这是实际问题)我认为"能够在站点地图上显示文件是否被索引并且对机器人可见"不是很好.这很简单 - 只需解析robots.txt然后评估一个链接.

然而,这是一个"奖励功能",我当然没有时间去写它(甚至认为它可能不那么复杂) - 所以我想知道是否有人已经编写任何代码来解析robots.txt?



1> realMarkusSc..:

讨厌说,但只是谷歌"C#robots.txt解析器",然后点击第一个命中.这是一篇关于用C#实现的简单搜索引擎的CodeProject文章,称为"Searcharoo",它包含一个类Searcharoo.Indexer.RobotsTxt,描述如下:

    检查并在网站上下载并解析robots.txt文件(如果有)

    为Spider提供一个界面,以根据robots.txt规则检查每个Url


哎呀.我承认这次我没有搜索谷歌.但具有讽刺意味的是,这个问题现在是'c#robots.txt'的第一场比赛:-)我会看看我是否可以从中提取我需要的东西.谢谢
推荐阅读
php
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有