我想对烹饪食谱进行一些自然语言处理,特别是成分(可能稍后准备).基本上我正在寻找创建我自己的POS标签集来帮助我确定配料线的含义.
例如,如果其中一种成分是:3/4杯(轻微包装)平叶欧芹叶,分开
我希望标签能够表达所列出的成分和质量,通常是一个数字,然后是一些测量单位.例如:
3\NUM-QTY /\FRACTION4\NUM-QTY杯\ N-MEAS(轻微\ ADV包装\ VD)[平叶\ ADJ欧芹\ N]\INGREDIENT离开\ N,分割\ VD
我在这里找到的标签.
我不确定一些事情:
我应该使用自定义标签,还是应该在使用预先存在的标签器后进行某种后标记处理?
如果我确实使用自定义标签,那么制作培训文本的最佳方法是通过成分列表并手动标记所有内容吗?
我觉得这种语言处理是如此具体,以至于在适用的集合上训练标记器是有益的,但我不确定如何继续.
谢谢!