当前位置:  开发笔记 > 前端 > 正文

NLP:构建(小)语料库,或"在哪里获得大量不太专业的英语文本文件?"

如何解决《NLP:构建(小)语料库,或"在哪里获得大量不太专业的英语文本文件?"》经验,为你挑选了1个好方法。

有没有人建议在哪里可以找到用于小型语料库的档案或日常英语文本集合?我一直在使用古腾堡项目的书籍作为工作原型,并希望融入更多现代语言.一个最近的答案在此间接指出了一个伟大的新闻组电影评论归档,这对我没有发生,而且非常好.对于这个特定的程序,技术usenet档案或编程邮件列表会使结果倾斜并且难以分析,但任何类型的一般博客文本,聊天记录或任何可能对其他人有用的东西都会非常有用.此外,非常感谢部分或可下载的研究语料库,其中没有太多标记,或者用于查找维基百科文章的适当子集或任何其他想法的一些启发式.

(顺便说一句,我是一个很好的公民,没有下载,使用一个故意慢的脚本,对托管这种材料的服务器没有要求,以防你认为道德风险指向我巨大的东西.)

更新:用户S0rin指出维基百科请求不爬行,而是提供此导出工具.Project Gutenberg 在这里指定了一个策略,底线,尽量不要抓取,但是如果你需要:"配置你的机器人在请求之间至少等待2秒."

更新2 维基百科转储是要走的路,这要归功于指出它们的回答者.我最终使用的是英文版本:http://download.wikimedia.org/enwiki/20090306/,西班牙文件大小只有一半.它们是一些清理工作,但非常值得,它们在链接中包含许多有用的数据.


Torsten Mare.. 8

使用Wikipedia转储

需要大量的清理工作

看看nltk-data中是否有任何帮助

语料库通常很小

在古怪的人有一些免费的语料库

标记

你可以使用他们的工具包来创建自己的语料库

Europarl是免费的,几乎是每个学术MT系统的基础

口语,翻译

在路透社语料库是免费的,但仅适用于CD

您可以随时获取自己的信息,但要注意:HTML页面通常需要大量清理,因此请限制自己使用RSS源.

如果你在商业上这样做,最不发达国家可能是一个可行的选择.



1> Torsten Mare..:

使用Wikipedia转储

需要大量的清理工作

看看nltk-data中是否有任何帮助

语料库通常很小

在古怪的人有一些免费的语料库

标记

你可以使用他们的工具包来创建自己的语料库

Europarl是免费的,几乎是每个学术MT系统的基础

口语,翻译

在路透社语料库是免费的,但仅适用于CD

您可以随时获取自己的信息,但要注意:HTML页面通常需要大量清理,因此请限制自己使用RSS源.

如果你在商业上这样做,最不发达国家可能是一个可行的选择.

推荐阅读
和谐啄木鸟
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有