我正在寻找有关以类似于谷歌日历快速添加按钮的方式构建非结构化文本的参考资料(教程,书籍,学术文献).
我知道这可能属于NLP类别,但我只对从"Levi jeans size 32 A0b293"这样的过程感兴趣
到:品牌:Levi,尺寸:32,类别:牛仔裤,代码:A0b293
我想这将是词法解析和机器学习技术的某种组合.
我更倾向于语言,但如果推动它会更喜欢python,Matlab或C++引用
谢谢
您需要提供有关文本来源(网络?用户输入?),域名(它只是衣服?),潜在格式和词汇的更多信息......
假设最坏的情况你需要开始学习NLP.一本非常好的免费书籍是NLTK的文档:http://www.nltk.org/book .它也是一个非常好的Python介绍,SW是免费的(用于各种用途).警告:NLP很难.它并不总是有效.有时候这不好玩.最先进的技术不在您想象的地方附近.
假设一个更好的场景(你的文本是半结构化的) - 一个好的免费工具就是pyparsing.有一本书,很多例子,结果代码非常有吸引力.
我希望这有帮助...