有哪些好的算法可以自动标记城市/地区或来源的文本?也就是说,如果博客是关于纽约的,我怎么能以编程方式讲述.是否有声称以任何确定程度这样做的包裹/文件?
我已经看过一些基于tfidf的方法,专有名词交叉点,但到目前为止,没有引人注目的成功,我很欣赏这些想法!
更一般的问题是关于为主题分配文本,给出一些主题列表.
简单/天真的方法比贝叶斯方法更完整,但我是开放的.
您正在寻找一个命名实体识别系统,或短NER.有几个 很好的 工具包可以帮助您.LingPipe特别有一个非常体面的教程.CAGEclass似乎是针对地理地名的NER而定,但我还没有使用它.
这是一个很好的博客文章,关于NER与地理名称的困难.
如果您使用Java,我建议使用LingPipe NER类.OpenNLP也有一些,但前者有更好的文档.
如果你正在寻找一些理论背景,Chavez等人.(2005)已经构建了一个有趣的参数并记录下来.