当前位置:  开发笔记 > 编程语言 > 正文

非结构化文本到结构化数据

如何解决《非结构化文本到结构化数据》经验,为你挑选了1个好方法。

我正在寻找有关以类似于谷歌日历快速添加按钮的方式构建非结构化文本的参考资料(教程,书籍,学术文献).

我知道这可能属于NLP类别,但我只对从"Levi jeans size 32 A0b293"这样的过程感兴趣

到:品牌:Levi,尺寸:32,类别:牛仔裤,代码:A0b293

我想这将是词法解析和机器学习技术的某种组合.

我更倾向于语言,但如果推动它会更喜欢python,Matlab或C++引用

谢谢



1> Tal Weiss..:

您需要提供有关文本来源(网络?用户输入?),域名(它只是衣服?),潜在格式和词汇的更多信息......

假设最坏的情况你需要开始学习NLP.一本非常好的免费书籍是NLTK的文档:http://www.nltk.org/book .它也是一个非常好的Python介绍,SW是免费的(用于各种用途).警告:NLP很难.它并不总是有效.有时候这不好玩.最先进的技术不在您想象的地方附近.

假设一个更好的场景(你的文本是半结构化的) - 一个好的免费工具就是pyparsing.有一本书,很多例子,结果代码非常有吸引力.

我希望这有帮助...

推荐阅读
LEEstarmmmmm
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有