查找特定单词的相关单词(特别是物理对象)

作者：ERIK又 | 2023-08-29 19:25

如何解决《查找特定单词的相关单词(特别是物理对象)》经验，为你挑选了2个好方法。

我试图找到与单个单词相关的单词(特别是物理对象).例如:

网球:网球拍,网球,网球鞋

斯诺克:斯诺克球杆,斯诺克球,粉笔

国际象棋:棋盘,棋子

书柜:书

我曾尝试使用WordNet,特别是meronym语义关系; 但是,这种方法并不一致,如下面的结果所示:

网球:发球,凌空,脚故障,定位,回归,优势

斯诺克:什么都没有

国际象棋:象棋移动,棋盘(其自己的缩写关系显示'方形'和'对角线')

书柜:搁置

最终将需要对术语进行加权,但现在这并不是真正的问题.

有人对如何做到这一点有任何建议吗？

只是一个更新:使用Jeff和StompChicken的答案结合起来.

从维基百科中检索到的信息质量非常好,特别是(不出所料)有如此多的相关信息(与某些语料库相比,如"博客"和"ipod"这样的术语不存在).

维基百科的结果范围是最好的部分.该软件能够匹配诸如(为简洁起见而切割的列表)等术语:

高尔夫球:[球,铁,球座,球袋,球杆]

摄影:[相机,电影,照片,艺术,图像]

钓鱼:[鱼,网,钩,陷阱,诱饵,诱饵,杆]

最大的问题是将某些词分类为物质文物; 默认WordNet不是一个可靠的资源,因为它中不存在许多术语(例如'ipod',甚至'trampolining').

1> Stompchicken..：

我认为你要求的是概念之间的语义关系的来源.为此,我可以想到许多方法:

语义相似度算法.这些算法通常对Wordnet中的关系执行树形遍历,以得出两个术语相关的实值得分.这些将受限于WordNet对您感兴趣的概念进行建模的程度 .WordNet :: Similarity(用Perl编写)非常好.

尝试使用OpenCyc作为知识库.OpenCyc是Cyc的开源版本,它是"真实世界"事实的一个非常大的知识库.它应该比WordNet有更丰富的语义版本.但是,我从未使用过OpenCyc,所以我不能说它是多么完整,或者使用它有多容易.

n-gram频率分析.正如Jeff Moser所说.一种数据驱动的方法,可以从大量数据中"发现"关系,但通常会产生噪声结果.

潜在语义分析.类似于n-gram频率分析的数据驱动方法,用于查找语义相关单词集.

[...]

从你说你想做什么来判断,我认为最后两个选项更有可能成功.如果关系不在Wordnet中,那么语义相似性将不起作用,OpenCyc似乎对斯诺克不太了解,除了它存在的事实.

我认为n-gram和LSA(或类似的东西)的组合将是一个好主意.N-gram频率将找到与您的目标概念紧密相关的概念(例如网球),LSA将找到相同句子/文档中提到的相关概念(例如net,serve).此外,如果您只对名词感兴趣,过滤输出以仅包含名词或名词短语(通过使用词性标注器)可能会改善结果.

2> Jeff Moser..：

在第一种情况下,您可能正在寻找n = 2的n-gram.您可以从Google这样的地方获取它们,或者从所有维基百科中创建自己的n-gram.

有关更多信息,请查看此相关的Stack Overflow问题.

n-gram of 2就是所有通常出现在一起的单词对.我认为海报所要求的是*语义*关系.

推荐阅读

程序员
从导航堆栈中删除页面 - xamarin.forms

如何解决《从导航堆栈中删除页面-xamarin.forms》经验，为你挑选了2个好方法。 ... [详细]
程序员
Visual Studio代码,MAC OS X,OmniSharp服务器未运行

如何解决《VisualStudio代码,MACOSX,OmniSharp服务器未运行》经验，为你挑选了2个好方法。 ... [详细]
程序员
Bootstrap Datepicker未加载

如何解决《BootstrapDatepicker未加载》经验，为你挑选了1个好方法。 ... [详细]
程序员
架构的重复符号x86_64从CocoaPods添加pod时

如何解决《架构的重复符号x86_64从CocoaPods添加pod时》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在实现接口但不扩展另一个类的Java类中引用super方法？

如何解决《如何在实现接口但不扩展另一个类的Java类中引用super方法？》经验，为你挑选了0个好方法。 ... [详细]
程序员
"git无法读取当前工作目录没有错误" - posh git(windows 10)

如何解决《"git无法读取当前工作目录没有错误"-poshgit(windows10)》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以让nodejs --debug标志等待远程连接

如何解决《我可以让nodejs--debug标志等待远程连接》经验，为你挑选了0个好方法。 ... [详细]
程序员
CakePHP 3 QueryBuilder:少数值的条件不会生成'IN'语句

如何解决《CakePHP3QueryBuilder:少数值的条件不会生成'IN'语句》经验，为你挑选了0个好方法。 ... [详细]
程序员
lxml无法解析xml(其他编码是否为utf-8)[python]

如何解决《lxml无法解析xml(其他编码是否为utf-8)[python]》经验，为你挑选了1个好方法。 ... [详细]
程序员
移动 - iOS - Safari - window.outerHeight返回0

如何解决《移动-iOS-Safari-window.outerHeight返回0》经验，为你挑选了1个好方法。 ... [详细]
程序员
将NodeJS部署到Elastic Beanstalk时出现NPM错误

如何解决《将NodeJS部署到ElasticBeanstalk时出现NPM错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
akka:如何测试一个演员被停止了

如何解决《akka:如何测试一个演员被停止了》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么java只允许动态链接？

如何解决《为什么java只允许动态链接？》经验，为你挑选了1个好方法。 ... [详细]
程序员
声纳抱怨“ SonarQube分析已经在进行中”

如何解决《声纳抱怨“SonarQube分析已经在进行中”》经验，为你挑选了1个好方法。 ... [详细]
程序员
管道操作员如何在最后一行返回结果？

如何解决《管道操作员如何在最后一行返回结果？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android:状态栏颜色更改,API级别低于21

如何解决《Android:状态栏颜色更改,API级别低于21》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以提交MVC6视图组件吗？

如何解决《我可以提交MVC6视图组件吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
扩展RepositoryRestExceptionHandler

如何解决《扩展RepositoryRestExceptionHandler》经验，为你挑选了1个好方法。 ... [详细]
程序员
MongoDB TimeZone

如何解决《MongoDBTimeZone》经验，为你挑选了1个好方法。 ... [详细]
程序员
Pandas df.describe(),是否有可能在没有移调的情况下按行进行？

如何解决《Pandasdf.describe(),是否有可能在没有移调的情况下按行进行？》经验，为你挑选了2个好方法。 ... [详细]

ERIK又

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章