2赞

用python实现前向分词最大匹配算法的示例代码

作者：帆侮听我悄悄说星星 | 2022-02-22 08:53

这篇文章主要介绍了用python实现前向分词最大匹配算法的示例代码，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

理论介绍

分词是自然语言处理的一个基本工作，中文分词和英文不同，字词之间没有空格。中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。中文分词技术属于自然语言处理技术范畴，对于一句话，人可以通过自己的知识来明白哪些是词，哪些不是词，但如何让计算机也能理解？其处理过程就是分词算法。

可以将中文分词方法简单归纳为：

1.基于词表的分词方法
2.基于统计的分词方法
3.基于序列标记的分词方法

其中，基于词表的分词方法最为简单，根据起始匹配位置不同可以分为：

1.前向最大匹配算法
2.后向最大匹配算法
3.双向最大匹配算法

三种方法思想都很简单，今天就用python实现前向最大匹配算法。

word分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为，能自定义用户词库、自动检测词库变化、支持大规模分布式环境，能灵活指定多种分词算法，能使用refine功能灵活控制分词结果，还能使用词性标注、同义标注、反义标注、拼音标注等功能。同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。

前向最大匹配算法

前向最大匹配算法，顾名思义，就是从待分词句子的左边向右边搜索，寻找词的最大匹配。我们需要规定一个词的最大长度，每次扫描的时候寻找当前开始的这个长度的词来和字典中的词匹配，如果没有找到，就缩短长度继续寻找，直到找到字典中的词或者成为单字。

具体代码实现

获取分词函数：getSeg(text)：

def getSeg(text):
  # 句子为空
  if not text:
    return ''

  # 句子成为一个词
  if len(text) == 1:
    return text

  # 此处写了一个递归方法
  if text in word_dict:
    return text
  else:
    small = len(text) - 1
    text = text[0:small]
    return getSeg(text)

主函数：main()

def main():
  global test_str, word_dict
  test_str = test_str.strip()
  # 正向最大匹配分词测试 最大长度5
  max_len = max(len(word) for word in word_dict)
  result_str = [] # 保存分词结果
  result_len = 0
  print('input :', test_str)
  while test_str:
    tmp_str = test_str[0:max_len]
    seg_str = getSeg(tmp_str)
    seg_len = len(seg_str)
    result_len = result_len + seg_len

    if seg_str.strip():
      result_str.append(seg_str)
    test_str = test_str[seg_len:]

  print('output :', result_str)

字典：

word_dict = ['混沌', 'Logistic', '算法', '图片', '加密', '利用', '还原', 'Lena', '验证', 'Baboon', '效果']

测试句子：

test_str = '''一种基于混沌Logistic加密算法的图片加密与还原的方法，并利用Lena图和Baboon图来验证这种加密算法的加密效果。'''

分词结果

到此这篇关于用python实现前向分词最大匹配算法的示例代码的文章就介绍到这了,更多相关python 前向分词最大匹配算法内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

程序员
有没有理由为什么array [index]不返回可选项？

如何解决《有没有理由为什么array[index]不返回可选项？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在grafana中将多个系列相互划分

如何解决《在grafana中将多个系列相互划分》经验，为你挑选了0个好方法。 ... [详细]
程序员
离子与铁轨的CORS问题

如何解决《离子与铁轨的CORS问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
Xcode 7.2文档始终从Internet获取

如何解决《Xcode7.2文档始终从Internet获取》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么Convert.ToDouble将我的价值改变1000倍？

如何解决《为什么Convert.ToDouble将我的价值改变1000倍？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ansible改变剧本中的ssh端口

如何解决《Ansible改变剧本中的ssh端口》经验，为你挑选了3个好方法。 ... [详细]
程序员
在X86程序集中访问和移动字节

如何解决《在X86程序集中访问和移动字节》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Retrofit中@Query和@path有什么区别？

如何解决《在Retrofit中@Query和@path有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Paypal:计费计划+协议 - 基本Qs

如何解决《Paypal:计费计划+协议-基本Qs》经验，为你挑选了1个好方法。 ... [详细]
程序员
关于水平循环器视图中的ProperScrolling

如何解决《关于水平循环器视图中的ProperScrolling》经验，为你挑选了0个好方法。 ... [详细]
程序员
在ubuntu中的Ionic框架中添加Android平台时出错

如何解决《在ubuntu中的Ionic框架中添加Android平台时出错》经验，为你挑选了0个好方法。 ... [详细]
程序员
来自AngularJS的Django CORS API

如何解决《来自AngularJS的DjangoCORSAPI》经验，为你挑选了1个好方法。 ... [详细]
程序员
来自Cluster的HADOOP_CONF_DIR的值

如何解决《来自Cluster的HADOOP_CONF_DIR的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Android Studio消息"Paint.setShadowLayer ..图形不准确.."没有此代码

如何解决《在AndroidStudio消息"Paint.setShadowLayer..图形不准确.."没有此代码》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么我们不加延迟地调用$ timeout。

如何解决《为什么我们不加延迟地调用$timeout。》经验，为你挑选了1个好方法。 ... [详细]
程序员
Kendo DateTimePicker设置当前小时12:00 AM而不是DateTime.Now

如何解决《KendoDateTimePicker设置当前小时12:00AM而不是DateTime.Now》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用AJAX调用执行Javascript

如何解决《使用AJAX调用执行Javascript》经验，为你挑选了1个好方法。 ... [详细]
程序员
查找类中的所有属性是否相同

如何解决《查找类中的所有属性是否相同》经验，为你挑选了2个好方法。 ... [详细]
程序员
关于迦太基更新的Alamofire错误

如何解决《关于迦太基更新的Alamofire错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么HAProxy无法加载letsencrypt生成的证书？

如何解决《为什么HAProxy无法加载letsencrypt生成的证书？》经验，为你挑选了1个好方法。 ... [详细]

帆侮听我悄悄说星星

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章