我正在考虑编写一个PHP脚本来分析CMS的页面内容(即数据库字段),然后自动生成(X)HTML META描述和关键字标签,但一如既往没有重新发明轮子所以我是想知道是否有人知道这样的野兽?
我想象的前者可能是一个相对简单的正则表达式来抓住第一句或第二句,而后者可能涉及消除对常用词词典的单词然后加权频率或类似.
您正在考虑的问题有两个:关键字提取和文档摘要之一.第一个,我明显用于关键字有一个非常简单的天真的方法:选择内容中最常用的单词,减去所有的停用词(如果你不知道这些是什么,请在维基百科中查看).还有许多更高级的方法,包括包含同义词的加权,文本或标记中的位置等等.在PHP中有一些简单的关键字提取脚本示例,您可以毫无困难地实现它们.只需Google搜索"PHP关键字提取"之类的内容,您就会找到一些.
另一方面,第二个问题稍微困难一些,仍然是许多学术工作的源头.您需要对非常详尽的元描述标记进行汇总.如果你不是在寻找一个可能仍然僵硬或不连贯的长期AI项目,那么实际上可能不值得你花时间.另一种方法是使用关键字提取的启发式:"本文是关于(第一个最常见的关键字),(第二个最常见的关键字)和(第三个最常见的关键字)." 您至少可以获得在关键字和描述中适合某些内容的好处.如果您想要动摇它,请改用同义词.有一个半功能的WordNet实现,但我' 因为大部分的工作已经为你完成了.
我想花一点时间鼓励你在这方面的研究,而忽略瓦尼卡先生的反对意见.元信息对于搜索领域中的文档分类和信息提取都很重要.没有数据是愚蠢的,事实上,为大规模内容管理系统实现自动化是值得的.祝你好运.