作为我的最后一年项目,我正在使用"AUTOMATIC TEXT SUMMARIZER(语言学方法)".我收集了足够多的研究论文并完成了它们.我仍然不太清楚'如何去做'的事情.基本上我发现"AUTOMATIC TEXT SUMMARIZER(基于统计)"并发现与我的项目相比它更容易.我的项目指南告诉我不要选择这个(基于统计)并选择基于语言的.
任何曾经研究过甚至听过这类项目的人都会知道,总结任何文件只不过是对每个句子进行评分(通过一些涉及某些特定算法的方法),然后选择得分高于阈值分数的句子.现在,该项目最困难的部分是选择适当的评分算法并在以后实施.
我有适度的编程技巧,并希望在JAVA中编码(因为我会得到很多API,导致较少的开销).现在我想知道,对于我的项目,我应该采用什么方法和算法.还有如何实现它们.
使用词汇链进行文本摘要(Microsoft Research)
分析不同的算法:DasMartins.2007
文档中最重要的部分:
•Nenkova(2005)分析认为,没有任何系统可以超越具有统计显着性的基线
•引人注目的结果!
请注意,liguistic方法有两种不同的细微差别:
语言评级系统(这里都清楚)
语言生成(重写句子以构建摘要)