8赞

求解类似数据如何搜索!

作者：手机用户2402852307 | 2021-09-08 16:32

数据格式如下"10101010001001101100100011000100100100001011100001000010010101000101010101000101"..共计256位就是除了1就是0的唯一标示符256位的跟64位的还有1024位的这种标示符目前我已经有256位的跟64位

数据格式如下
"10101010001001101100100011000100100100001011100001000010010101000101010101000101".....共计256位
就是除了1就是0的唯一标示符256位的跟64位的还有1024位的
这种标示符
目前我已经有256位的跟64位的了,目前数据我已经生成了800w条,陆续生成中

字符串1="10101101001010010111010101100001011101000101010010001000111001101010010101"...
字符串2="10101001001011010111010101000001011101000101110010001001111001101010010101"....
求这两个字符串的相似度顺序比较以下为相似度计算



$len = strlen($hash1);
for ($i = 0; $i < $len; $i++){
    if ($hash1[$i] !== $hash2[$i])
    $count++;
}
    
return  1-($i/$len);

得到相似度
搜索要求为
从数据库中读取出跟 "字符串s" 相似度>0.9的,目前数据采用mysql储存,属于个人瞎胡闹搞得东西,不会采用商业数据库储存买不起,可以采用nosql储存,memcache储存,主要程序语言PHP,javascript算是预处理,我就会这两种!

求大神解这种数据如何搜索!!!!!!

回复内容：



$len = strlen($hash1);
for ($i = 0; $i < $len; $i++){
    if ($hash1[$i] !== $hash2[$i])
    $count++;
}
    
return  1-($i/$len);

求大神解这种数据如何搜索!!!!!!

我能想到算法上的两个优化点。

第一个，是你逐位判断的代码里面，只要$count大于$len的10%就不用循环下去了，相似度必然小于0.9。

第二个，既然数据是自己生成的，那可以在生成时一并储存拆分值的十六进制数。

举个例子，比如1024位的字符串，每16位为一个单位，共拆分为64个单位，每个单位的16位二进制数转换成4位16进制数，和这个1024位的字符串一并储存起来。
每次比较时，先逐个比较这64个单位的数值是否相同，如果有58个相同，那相似度就有0.9以上。

如果只有57个相同呢？剩下不同的7个4位16进制数，一共有4*7=28位十六进制数字，然后进行逐个比较。
有a个相同，则1024位转化成256位的十六进制数的数字上的相似度等于((57*4)+a) / (64*4) ，他要大于0.9。也就是说，在逐个比较时，a大于等于0.9*64*4 - 57*4 就不用判断了，相似度大于0.9。

如果只有a-1个相同呢？把不同的28-(a-1)位转化为2进制，按上面的方法，逐个比较。
有b个一样，相似度为((57*16)+(a-1)*4+b) / 1024，他要大于0.9，即b大于等于0.9*1024 - 57*16 - (a-1)*4时，相似度大于0.9。

把上面的57和a-1换成任意的x y就是实际情况了。虽然计算量还是很大，不过相比逐个比较小了很多了。

另外，计算出每两个16位二进制数的单位的相似度的时候可以缓存起来，留给256位和64位比较时用。仔细想想量好像也很大……就不继续写了。

两个串直接做与运算，然后结果统计1的数量，与其中一个串比较，数量相近则相似

了解一下海明距离，还有cos相似度

推荐阅读

程序员
自Android 6 Marshmallow以来,javax.crypto.Cipher的工作方式不同

如何解决《自Android6Marshmallow以来,javax.crypto.Cipher的工作方式不同》经验，为你挑选了1个好方法。 ... [详细]
程序员
启动未使用Xcode 7显示的图像

如何解决《启动未使用Xcode7显示的图像》经验，为你挑选了1个好方法。 ... [详细]
程序员
app:stackFromEnd for RecyclerView无法在xml中运行？

如何解决《app:stackFromEndforRecyclerView无法在xml中运行？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Kibana中配置索引模式

如何解决《如何在Kibana中配置索引模式》经验，为你挑选了1个好方法。 ... [详细]
程序员
名称中的React native Image变量不起作用

如何解决《名称中的ReactnativeImage变量不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么使用dotenv库而不是解析ini文件？

如何解决《为什么使用dotenv库而不是解析ini文件？》经验，为你挑选了0个好方法。 ... [详细]
程序员
打印免费monad

如何解决《打印免费monad》经验，为你挑选了1个好方法。 ... [详细]
程序员
提取/读取React propTypes

如何解决《提取/读取ReactpropTypes》经验，为你挑选了1个好方法。 ... [详细]
程序员
SBT - 如何禁用特定任务的插件(例如"包")

如何解决《SBT-如何禁用特定任务的插件(例如"包")》经验，为你挑选了0个好方法。 ... [详细]
程序员
一个小游戏/测验:你看到我的价值观了吗？(解释十六进制值)

如何解决《一个小游戏/测验:你看到我的价值观了吗？(解释十六进制值)》经验，为你挑选了0个好方法。 ... [详细]
程序员
"粘性"选择Angular应用程序

如何解决《"粘性"选择Angular应用程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
Symfony2从事件中更改Form data_class

如何解决《Symfony2从事件中更改Formdata_class》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何将"dd/MM/yyyy"字符串转换为DateTime

如何解决《如何将"dd/MM/yyyy"字符串转换为DateTime》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android中的@UiThread和@MainThread注释有什么区别？

如何解决《Android中的@UiThread和@MainThread注释有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
DataTables:无法读取未定义的属性"长度"

如何解决《DataTables:无法读取未定义的属性"长度"》经验，为你挑选了4个好方法。 ... [详细]
程序员
滚动条到达面板底部时的触发事件

如何解决《滚动条到达面板底部时的触发事件》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在使用PHP上传图像之前检查/修复图像旋转

如何解决《如何在使用PHP上传图像之前检查/修复图像旋转》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ansible在角色之间共享文件

如何解决《Ansible在角色之间共享文件》经验，为你挑选了2个好方法。 ... [详细]
程序员
仅在填写所有详细信息后才能显示按钮

如何解决《仅在填写所有详细信息后才能显示按钮》经验，为你挑选了1个好方法。 ... [详细]
程序员
Grunt,Gulp.js和Bower有什么区别？为什么以及何时使用它们？

如何解决《Grunt,Gulp.js和Bower有什么区别？为什么以及何时使用它们？》经验，为你挑选了4个好方法。 ... [详细]

手机用户2402852307

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章