我正在尝试从Web上挖掘一些文本的应用程序,但我不确定执行文本挖掘的最佳方法是什么.
我对这个问题的要求是了解什么是最常用的技术/算法来执行文本挖掘并在文档中进行一些信息检索(而不是用于索引).
文本挖掘是一个相当广泛的术语,它大致意味着应用于文本的机器学习.常用技术包括k -means聚类,Naive Bayes和线性SVM分类,tf-idf矢量化,SVD(应用于文本时称为LSA),潜在Dirichlet分配.因此,执行"一些文本挖掘"可能意味着什么,就像做"一些信息检索"一样.
请参阅Bing Liu的书籍Web Data Mining,了解该领域的优秀介绍.