自然语言处理中的二值化

作者：mylvfamily | 2023-08-30 12:07

如何解决《自然语言处理中的二值化》经验，为你挑选了0个好方法。

二值化是将实体的彩色特征转换为数字向量(通常是二进制向量)的行为,以便为分类器算法提供良好的示例.

如果我们将句子"猫吃狗"二进制化,我们可以先为每个单词分配一个ID(例如cat-1,ate-2,the-3,dog-4),然后简单地将单词替换为它的ID给出了矢量<3,1,2,3,4>.

给定这些ID,我们还可以通过给每个字四个可能的槽创建二进制向量,并将对应于特定单词的槽设置为1,给出向量<0,0,1,0,1,0,0,0 ,0,1,0,0,0,0,0,1>.据我所知,后一种方法通常被称为词袋方法.

现在,对于我的问题,一般来说,描述自然语言处理的特征,特别是基于转换的依赖解析(使用Nivres算法)时,最好的二值化方法是什么？

在这种情况下,我们不希望编码整个句子,而是编码解析的当前状态,例如堆栈中的顶部单词和输入队列中的第一个单词.由于订单具有高度相关性,因此排除了词袋方法.

有了最好的,我指的是,使数据的最可理解的分类方法,而无需使用了不必要的内存.例如,如果只有2%的双子星实际存在,我不想要一个单词bigram使用4亿个特征来获得20000个独特单词.

由于答案也取决于特定的分类器,我最感兴趣的是最大熵模型(liblinear),支持向量机(libsvm)和感知器,但是也欢迎适用于其他模型的答案.

推荐阅读

程序员
Rails - 无法找到类型为'application/javascript'的文件'jquery_ujs'

如何解决《Rails-无法找到类型为'application/javascript'的文件'jquery_ujs'》经验，为你挑选了0个好方法。 ... [详细]
程序员
ios如何添加inputAccessoryView？

如何解决《ios如何添加inputAccessoryView？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android工作室不生成签名的apk

如何解决《Android工作室不生成签名的apk》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用JSTL对HTML标签进行转义

如何解决《如何使用JSTL对HTML标签进行转义》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Redis-py中使用锁

如何解决《在Redis-py中使用锁》经验，为你挑选了0个好方法。 ... [详细]
程序员
元组解包顺序更改分配的值

如何解决《元组解包顺序更改分配的值》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何在Mac上创建立体OpenGL视图？

如何解决《如何在Mac上创建立体OpenGL视图？》经验，为你挑选了0个好方法。 ... [详细]
程序员
停止固定背景图像滚动到一定高度

如何解决《停止固定背景图像滚动到一定高度》经验，为你挑选了0个好方法。 ... [详细]
程序员
尝试应用AttributeConverter时出错

如何解决《尝试应用AttributeConverter时出错》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否在创建其继承类的新对象时创建了基类的对象？

如何解决《是否在创建其继承类的新对象时创建了基类的对象？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在我的项目中构建和重用android开源Dialer源代码

如何解决《在我的项目中构建和重用android开源Dialer源代码》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在python中查询AWS DynamoDB？

如何解决《如何在python中查询AWSDynamoDB？》经验，为你挑选了2个好方法。 ... [详细]
程序员
sha1不能使用密码加密

如何解决《sha1不能使用密码加密》经验，为你挑选了1个好方法。 ... [详细]
程序员
从python脚本返回值到shell脚本

如何解决《从python脚本返回值到shell脚本》经验，为你挑选了1个好方法。 ... [详细]
程序员
android mediaprojection截图包含黑框

如何解决《androidmediaprojection截图包含黑框》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何异步执行几次函数并得到第一个结果

如何解决《如何异步执行几次函数并得到第一个结果》经验，为你挑选了0个好方法。 ... [详细]
程序员
运行h2o.ensemble时出错

如何解决《运行h2o.ensemble时出错》经验，为你挑选了1个好方法。 ... [详细]
程序员
md-select检查md-options中重复选项的标准是什么

如何解决《md-select检查md-options中重复选项的标准是什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
C#等待所有线程完成执行

如何解决《C#等待所有线程完成执行》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Microsoft Azure Web App中部署WAR FILE

如何解决《在MicrosoftAzureWebApp中部署WARFILE》经验，为你挑选了1个好方法。 ... [详细]

mylvfamily

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章