我使用"Lexical Encoding"这个词来表示我缺少一个更好的词汇.
一句话可以说是通信的基本单位,而不是一封信.Unicode尝试为所有已知字母表的每个字母分配一个数值.什么是一种语言的信,是另一种语言的雕文.Unicode 5.1当前为这些字形分配超过100,000个值.在现代英语中使用的大约180,000个单词中,据说用大约2,000个单词的词汇表,你应该能够以一般的方式进行交谈."Lexical Encoding"会对每个Word进行编码而不是每个Letter,并将它们封装在一个句子中.
// An simplified example of a "Lexical Encoding" String sentence = "How are you today?"; int[] sentence = { 93, 22, 14, 330, QUERY };
在此示例中,String中的每个Token都被编码为Integer.这里的编码方案根据字使用的广义统计排序简单地分配了一个int值,并为问号分配了一个常量.
最终,一个词既有拼写也有意义.任何"词法编码"都会保留句子的意义和意图,而不是语言特定的.英语句子将被编码为"......意义上的语言中性原子元素......",然后可以将其重构为具有结构化句法形式和语法结构的任何语言.
"Lexical Encoding"技术的其他例子是什么?
如果您对单词使用统计信息的来源感兴趣:http:
//www.wordcount.org
这个问题对语言学的影响不仅仅是编程,而是对于高度合成的语言(由多个组合语素组成的单词),尝试"编号"所有可能的单词,而不是类似的语言,这可能是一个非常复杂的问题.英语至少在某种程度上是孤立的,或者像中文的语言是高度分析的.
也就是说,单词可能不容易被分解并根据它们在某些语言中的构成字形进行计数.
这篇关于隔离语言的维基百科文章可能有助于解释问题.