我有一大堆任意自然语言字符串.对于我分析它们的工具,我需要将每个字符串转换为唯一的颜色值(RGB或其他).我需要颜色对比度来依赖于字符串相似性(字符串与其他字符串不同,它们各自的颜色应该不同).如果我总是为同一个字符串获得相同的颜色值,那将是完美的.
关于如何解决这个问题的任何建议?
我可能需要将"相似性"定义为类似Levenstein的距离.不需要自然语言解析.
那是:
"I am going to the store" and "We are going to the store"
类似.
"I am going to the store" and "I am going to the store today"
类似(但略少).
"I am going to the store" and "J bn hpjoh up uif tupsf"
很不相似.
(谢谢,Welbog!)
只有当我看到程序输出时,我才可能确切地知道我需要什么距离函数.所以让我们从简单的事情开始吧.
我删除了自己的建议,将任务分成两部分 - 绝对距离计算和颜色分布.这不会很好,因为我们首先将尺寸信息减少到一个维度,然后尝试将其合成到三维.