当前位置:  开发笔记 > 开放平台 > 正文

如何自动确定文字质量?

如何解决《如何自动确定文字质量?》经验,为你挑选了3个好方法。

许多自然语言处理(NLP)算法和库很难处理来自网络的随机文本,通常是因为它们预先假定清晰,清晰的写作.我可以理解为什么这比解析YouTube评论更容易.

我的问题是:给定一段随机文本,是否有一个过程来确定该文本是否写得很好,并且是在NLP中使用的良好候选者?这些算法的通用名称是什么?

我希望链接到文章,算法或代码库,但我会满足于良好的搜索条件.



1> ferdystschen..:

"写得好"和"对NLP有益"可能会在一起,但不必.对于一个"对NLP有益"的文本,它可能应该包含最后一个动词和一个点的完整句子,它应该传达一些含义.对于要写得好的文本,它也应该是结构良好,有凝聚力,连贯性,正确替代代词的名词等.你需要什么取决于你的应用.

通过NLP工具正确处理句子的机会通常可以通过一些简单的启发式方法来估计:它是否太长(> 20或30个单词,取决于语言)?太短?它包含许多奇怪的字符吗?它是否包含网址或电子邮件地址?它有一个主要动词吗?它只是一个列表吗?据我所知,这方面没有通用名称,也没有任何特定的算法可用于此类过滤 - 它被称为"预处理".

关于一个写得很好的句子:已经做了一些关于自动评估可读性,凝聚力和连贯性的工作,例如Miltsakaki的文章(评估电子论文评分系统的文本连贯性和实时网络文本分类和阅读分析)难度)或希金斯(评估学生论文中连贯性的多个方面).这些方法都是基于一种或另一种话语结构理论,如中心理论.这些文章相当重要,并且对中心理论和机器学习都有所了解.尽管如此,ETS成功应用了其中一些技术来自动评分学生的论文,我认为这与你想要做的非常相似,或者至少,你可能能够适应一些想法.

所有这一切,我相信在未来几年内,NLP将不得不开发处理语言的技术,这种语言在当前标准方面并不完善.网上有大量非常有价值的数据,包括你提到的文本类型:youtube评论,聊天消息,Twitter和facebook状态消息等.所有这些都可能包含非常有趣的信息.那么,谁应该适应 - 那种方式或NLP?



2> dmcer..:

一个简单的尝试是使用n-gram语言模型对文本进行分类或不进行分类.要做到这一点,你首先要在一组写得很好的文本上训练一个语言模型.给定一段新文本,然后您可以在其上运行模型,并且只有在每个单词困惑度足够低时才会将其传递给其他下游NLP工具(即,如果它看起来与编写良好的训练文本非常相似).

为了获得最佳结果,您应该在文本上训练您的n-gram语言模型,该模型类似于用于训练您正在使用的其他NLP工具的任何内容.也就是说,如果您正在使用在newswire上训练的短语结构解析器,那么您还应该在newswire上训练您的n-gram语言模型.

对于你可以使用的软件工具包,SRILM将是一个很好的起点.

但是,另一种解决方案是尝试将您正在使用的任何NLP工具调整为您要处理的文本.这种方法的一种方法是自我训练,通过这种方法,您可以在您想要处理的数据类型上运行NLP工具,然后在自己的输出上重新训练它们.例如,McClosky等人2006使用这种技术来获取最初在华尔街日报上训练的解析器,并使其适应解析生物医学文本.



3> Shashikant K..:

我没有使用任何工具,但是我有一个主意。

一种简单的策略是获取整洁的英语文本,并找出各种词性标签的直方图,例如名词,形容词,动词,文章等。

现在,对于示例文本,找出相似的直方图。

如果此直方图足够“接近”基准,则示例文本的质量将与原始文本一样好。您可能需要定义“紧密度”参数。

语言识别通常采用类似的技术。对于一种语言,将创建一个n-gram配置文件。为示例文本创建了类似的配置文件,并比较了两个配置文件以找出示例文本成为该语言的可能性。

推荐阅读
家具销售_903
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有