4赞

C# TrieTree介绍及实现方法

作者：爱唱歌的郭少文_ | 2022-11-04 13:11

C#TrieTree介绍及实现方法，需要的朋友可以参考一下

在自然语言处理（NLP）研究中，NGram是最基本但也是最有用的一种比对方式，这里的N是需要比对的字符串的长度，而今天我介绍的TrieTree，正是和NGram密切相关的一种数据结构，有人称之为字典树。TrieTree简单的说是一种多叉树，每个节点保存一个字符，这么做的好处是当我们要做NGram比对时，只需要直接从树的根节点开始沿着某个树叉遍历下去，就能完成比对；如果没找到，停止本次遍历。这话讲得有些抽象，我们来看一个实际的例子。

假设我们现在词库里面有以下一些词：

上海市
上海滩
上海人
上海公司
北京
北斗星
杨柳
杨浦区

如图所示：挂在根节点上的字有上、北、杨，

如果我们现在对“上海市杨浦区”这个词做3gram就有上海市、海市杨、市杨浦、杨浦区，现在我们要知道哪些词是能够被这个字典识别的，通常我们可以用NGram来做分词。有了这颗树，我们只需要依次取每个字符，从根开始进行比对，比如上海市，我们能够匹配上->海->市，这个路径，所以匹配；比如海市杨，由于没有“海”字挂在根节点上，所以停止；市杨浦也无法匹配；最终匹配杨浦区，得到杨->浦->区这个路径，匹配。

最终我们可以把“上海市杨浦区”切分为上海市|杨浦区。

尽管TrieTree要比普通字符串数组节省很多时间，但这并不是没有代价的，因为你要先根据字典构建这棵树，这个代价并不低，当然对于某个应用来说一旦TrieTree构建完成就可以重复使用，所以针对大规模比对来说，性能提升还是很客观的。

下面是TrieTree的C#实现。

复制代码代码如下:

   public class TrieTree    
   {        
   TrieNode _root = null;  
   private TrieTree()     
   {           
   _root = new TrieNode(char.MaxValue,0);  
   charCount = 0;   
   }       
   static TrieTree _instance = null; 
   public static TrieTree GetInstance()   
   {            
   if (_instance == null)        
   {             
   _instance = new TrieTree();       
   }           
   return _instance;   
   }        
   public TrieNode Root   
   {           
   get { return _root; 
   }   
   }        
   public void AddWord(char ch) 
   {           
TrieNode newnode=_root.AddChild(ch);   
newnode.IncreaseFrequency();           
newnode.WordEnded = true;      
}        int charCount;    
public void AddWord(string word)   
{          
if (word.Length == 1)     
{               
AddWord(word[0]);     
charCount++;       
}         
else    
{                 
char[] chars=word.ToCharArray();     
TrieNode node = _root;           
charCount += chars.Length;      
for (int i = 0; i < chars.Length; i++)  
{                    
TrieNode newnode=node.AddChild(chars[i]);    
newnode.IncreaseFrequency();           
node = newnode;           
}           
node.WordEnded = true;  
}       
}       
public int GetFrequency(char ch)   
{           
TrieNode matchedNode = _root.Children.FirstOrDefault(n => n.Character == ch);  
if (matchedNode == null)      
{               
return 0;        
}           
return matchedNode.Frequency;  
}       
public int GetFrequency(string word)
{        
if (word.Length == 1) 
{              
return GetFrequency(word[0]); 
}            
else      
{            
char[] chars = word.ToCharArray(); 
TrieNode node = _root;        
for (int i = 0; i < chars.Length; i++)   
{                 
if (node.Children == null)   
return 0;              
TrieNode matchednode = node.Children.FirstOrDefault(n => n.Character == chars[i]);
if (matchednode == null)          
{                      
return 0;         
}                  
node = matchednode;    
}              
if (node.WordEnded == true)        
return node.Frequency;       
else                   
return -1;           
}      
}   
}

这里我们使用了单例模式，因为TrieTree类似缓存，不需要重复创建。下面是TreeNode的实现：

复制代码代码如下:

   public class TrieNode    
   {       
   public TrieNode(char ch,int depth)
   {           
   this.Character=ch; 
   this._depth=depth;
   }       
   public char Character; 
   int _depth;        
   public int Depth   
   {            
   get{return _depth;
   }      
   }     
   TrieNode _parent=null;
   public TrieNode Parent     
   {          
   get { 
   return _parent;
   }          
   set { _parent = value;
   } 
   }       
   public bool WordEnded = false;  
   HashSet _children=null;  
   public HashSet Children 
   {           
   get { 
   return _children;
   }       
   }        
   public TrieNode GetChildNode(char ch) 
   {            
   if (_children != null)    
   return _children.FirstOrDefault(n => n.Character == ch);  
   else               
   return null;      
   }       
   public TrieNode AddChild(char ch) 
   {           
   TrieNode matchedNode=null;      
   if (_children != null)      
   {               
   matchedNode = _children.FirstOrDefault(n => n.Character == ch);  
   }           
   if (matchedNode != null)   
   //found the char in the list   
   {                
   //matchedNode.IncreaseFrequency();      
   return matchedNode;         
   }           
   else          
   {  
   //not found       
   TrieNode node = new TrieNode(ch, this.Depth + 1);     
   node.Parent = this;      
   //node.IncreaseFrequency();            
   if (_children == null)               
   _children = new HashSet();   
   _children.Add(node);              
   return node;          
   }       
   }       
   int _frequency = 0;       
   public int Frequency    
   {         
   get { return _frequency;
   }        
   }       
   public void IncreaseFrequency()      
   {          
   _frequency++;   
   }      
   public string GetWord() 
   {             
   TrieNode tmp=this;     
   string result = string.Empty;  
   while(tmp.Parent!=null) //until root node  
   {                
   result = tmp.Character + result;   
   tmp = tmp.Parent;     
   }            
   return result;     
   }        
   public override string ToString()
   {          
   return Convert.ToString(this.Character);
   }    
   }

推荐阅读

程序员
SaveTo StringHelper？

如何解决《SaveToStringHelper？》经验，为你挑选了1个好方法。 ... [详细]
程序员
CakePHP错误:在Acl中找不到类'String'

如何解决《CakePHP错误:在Acl中找不到类'String'》经验，为你挑选了1个好方法。 ... [详细]
程序员
CoordinatorLayout和AppBarLayout提升

如何解决《CoordinatorLayout和AppBarLayout提升》经验，为你挑选了2个好方法。 ... [详细]
程序员
Laravel - 防止错误显示在控制台中

如何解决《Laravel-防止错误显示在控制台中》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何随机洗牌具有比PRNG时期更多排列的列表？

如何解决《如何随机洗牌具有比PRNG时期更多排列的列表？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何创建"逐步匹配"的正则表达式？

如何解决《如何创建"逐步匹配"的正则表达式？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Aurelia aurelia-fetch-client和JSON POST

如何解决《Aureliaaurelia-fetch-client和JSONPOST》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在C#中的json中反序列化表情符号

如何解决《如何在C#中的json中反序列化表情符号》经验，为你挑选了1个好方法。 ... [详细]
程序员
用于Cordova的Azure移动服务/ VS工具 - 404

如何解决《用于Cordova的Azure移动服务/VS工具-404》经验，为你挑选了0个好方法。 ... [详细]
程序员
从列表中调用元素的析构函数

如何解决《从列表中调用元素的析构函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
GetWindowRect返回包含"不可见"边框的大小

如何解决《GetWindowRect返回包含"不可见"边框的大小》经验，为你挑选了1个好方法。 ... [详细]
程序员
给定一个数组,找到小于c的n个数字的组合

如何解决《给定一个数组,找到小于c的n个数字的组合》经验，为你挑选了0个好方法。 ... [详细]
程序员
我如何找到谷歌bigquery数据集大小,而不是表大小

如何解决《我如何找到谷歌bigquery数据集大小,而不是表大小》经验，为你挑选了1个好方法。 ... [详细]
程序员
基于Python中的键的多个词典中的平均值？

如何解决《基于Python中的键的多个词典中的平均值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
ggplot和png的rmarkdown错误

如何解决《ggplot和png的rmarkdown错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
将远程转储还原到RDS

如何解决《将远程转储还原到RDS》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何限制nohup.out日志的大小

如何解决《如何限制nohup.out日志的大小》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何检查Eigen :: Matrix4f是否接近单位矩阵？

如何解决《如何检查Eigen::Matrix4f是否接近单位矩阵？》经验，为你挑选了1个好方法。 ... [详细]
程序员
React Native,TouchableOpacity包装浮动按钮什么都没得到

如何解决《ReactNative,TouchableOpacity包装浮动按钮什么都没得到》经验，为你挑选了1个好方法。 ... [详细]
程序员
C中头文件中的内联函数

如何解决《C中头文件中的内联函数》经验，为你挑选了1个好方法。 ... [详细]

爱唱歌的郭少文_

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章