当前位置:  开发笔记 > 开放平台 > 正文

自然语言处理项目的想法?

如何解决《自然语言处理项目的想法?》经验,为你挑选了1个好方法。

我必须为我的计算语言学课做最后的项目.我们一直在使用OCaml,但我也熟悉Java.我们研究了形态学,FSM,收集解析树,CYK解析,尝试,下推自动机,正则表达式,形式语言理论,一些语义等.

以下是我提出的一些想法.你有什么想法会很酷吗?

    一个脚本扫描Facebook线程是否有令人讨厌的*评论并默默地用JS隐藏它们(这显然是在用户同意的情况下运行)

    使用语义,语法,标点符号用法和其他指标对一篇文章进行分析,试图"指纹"作者.它可用于确定两个作品是否可能由同一作者编写.或者,有人可以随着时间的推移完成一堆写作,并了解他的风格如何变化.

    聊天机器人(不太有趣/原创)

我可能被允许使用预先存在的库来执行此操作.OCaml有没有?没有库/工具包,上述三个想法可能是不可行的,除非我将其限制在一个非常具体的领域.

较低层次的想法:

    有限状态机上的操作 - 最小化,组成传感器,证明FSM处于最小可能状态.我对图论非常感兴趣,因此任何与FSM的重叠都可能是一个很好的探索场所.(我还能用FSM做什么?)

    正则表达式有点酷吗?

    CYK有什么好玩的?

还有其他人有什么好主意吗?

*令人讨厌的定义为具有典型的初中学生的某些模式.这个词的含糊不是一个问题; 为了信誉,我可以定义我想要的任何东西并将其作为目标.



1> Stompchicken..:

    令人讨厌的语言过滤 - 我认为这将减少到与垃圾邮件过滤非常相似的过程.也就是说,计算一组或多或少"令人讨厌"的词的频率.除非您还使用其他信息来源(例如,发件人和收件人之间共享的社交链接的结构,否则听起来不会让您做任何特别聪明的事情).另一方面,在线欺凌是一个非常严重的事情,你可以打赌Facebook/Myspace和其他社交网站关心解决它.

    文体分析 - 通过名称作者分析,已经以各种形式对此进行了一些工作.Shlomo Argamon在这方面做了很多工作,你可能会从他的论文中的参考资料中发现更多.描述作者的最佳方式之一是学习他们使用一组停用词(也就是功能词)的分布,例如'和','但','if'等等.我认为还有很多在这个领域做一些新的和有趣的事情 - 对互联网数据的作者分析是一个难题 - 但也有更多的失败范围.

    聊天机器人 - 你是对的,这是一个非常标准的项目.衡量成功/失败也很困难.我认为如果它是一个具有某种目的的聊天机器人,比如在有限的领域回答问题,那么该项目会更引人注目,但这是很难做得好的事情.

其余的实在是太模糊了,不能发表评论,抱歉.

我在OCaml中没有任何NLP库,它只是一种特别流行的编程语言.但是,我确实知道Ocaml中的机器学习库,名为MEGAM,由Hal Daume编写,他是一位非常优秀的NLP研究员,已用于NLP任务.然而,我觉得搞定MEGAM并使用它做一些NLP任务可能是一个太大的项目.

其他一些想法:

情感分析 - 一个非常时髦的研究领域.您可以根据需要轻松或艰难地完成此任务,将文档评分为正/负,以及提取特定主题并为每个主题生成情绪分数.

Coreference/Anaphora解决方案 - 一项艰巨的任务,但却非常重要.一些方法使用图形表示(每个提及是一个节点,如果它们共同引用它们之间具有边缘)以强制执行诸如传递性之类的事情.

文档分类 - 您可以尝试在StackOverflow数据集上学习系统,以建议给定问题的标记.这是一个相当着名的问题,有一些已建立的技术,但它是一个有趣的数据集,并具有明显和有用的现实世界的应用程序.您还可以查看是否可以找到问题的特定功能(单词选择,长度,格式,标点符号等),使其得到高度评价.

Haiku Generation - 有点傻,但我一直认为这是一个有趣的想法.可以使用CMU发音字典来完成音节计数.应该是很有趣,如果不是特别有用.

推荐阅读
路人甲
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有