我需要你帮助确定分析行业特定句子(即电影评论)的"积极"与"消极"的最佳方法.我以前见过像OpenNLP这样的图书馆,但它太低级了 - 它只是给了我基本的句子构成; 我需要的是一个更高级别的结构: - 希望有单词列表 - 希望可以训练我的数据集
谢谢!
您正在寻找的通常被称为情感分析.通常,情绪分析无法处理微妙的细微之处,如讽刺或讽刺,但如果你扔掉大量的数据,它就会很好.
情感分析通常需要相当多的预处理.至少是标记化,句子边界检测和词性标注.有时,语法分析可能很重要.正确地完成它是计算语言学研究的一个完整分支,除非你花时间先研究这个领域,否则我不会建议你提出自己的解决方案.
OpenNLP有一些辅助情绪分析的工具,但是如果你想要更严肃的东西,你应该研究一下LingPipe工具包.它有一些内置的SA功能和一个很好的教程.你可以用你自己的数据集训练它,但不要认为它完全是微不足道的:-).
谷歌搜索该术语可能也会为您提供一些资源.如果您有任何更具体的问题,请问,我正在密切关注nlp-tag ;-)
一些情绪分析方法使用其他文本分类任务中流行的策略.最常见的是将您的电影评论转换为单词向量,并将其作为训练数据提供给分类器算法.最受欢迎的数据挖掘包可以帮助您.您可以查看本教程中的情绪分类,说明如何使用开源RapidMiner工具包进行实验.
顺便提一下,有一个很好的数据集可用于研究目的,涉及检测电影评论的意见.它基于IMDB用户评论,您可以检查该领域的许多相关研究工作以及他们如何使用数据集.
值得注意的是,这些方法的有效性只能从统计学角度来判断,所以你几乎可以假设存在错误分类和难以发现意见的情况.正如在这个帖子中已经注意到的那样,检测诸如反讽和讽刺之类的事情确实非常困难.