pyhanlp安装介绍和简单应用

作者：爱唱歌的郭少文_ | 2022-12-27 11:22

这篇文章主要介绍了pyhanlp安装介绍和简单应用，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

1. 前言

中文分词≠自然语言处理！

Hanlp

HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

功能：中文分词词性标注命名实体识别依存句法分析关键词提取新词发现短语提取自动摘要文本分类拼音简繁

中文分词只是第一步；HanLP从中文分词开始，覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务，提供了丰富的API。

不同于一些简陋的分词类库，HanLP精心优化了内部数据结构和IO接口，做到了毫秒级的冷启动、千万字符每秒的处理速度，而内存最低仅需120MB。无论是移动设备还是大型集群，都能获得良好的体验。

不同于市面上的商业工具，HanLP提供训练模块，可以在用户的语料上训练模型并替换默认模型，以适应不同的领域。项目主页上提供了详细的文档，以及在一些开源语料上训练的模型。

HanLP希望兼顾学术界的精准与工业界的效率，在两者之间取一个平衡，真正将自然语言处理普及到生产环境中去。

我们使用的pyhanlp是用python包装了HanLp的java接口。

2. pyhanlp的安装和使用

2.1 python下安装pyhanlp

pip安装

sudo pip3 install pyhanlp

第一次import pyhanlp会下载一个比较大的数据集，需要耐心等待下，后面再import就不会有了。

from pyhanlp import *

详情请见pyhanlp官方文档

2.2 pyhanlp简单使用方法

分词使用

from pyhanlp import *
print(HanLP.segment("今天开心了吗？"))
>>> [今天/t, 开心/a, 了/ule, 吗/y, ？/w]

依存分析使用

from pyhanlp import *
print(HanLP.parseDependency("今天开心了吗？"))
>>> 1  今天 今天 nt t  _  2  状中结构  _  _
>>> 2  开心 开心 a  a  _  0  核心关系  _  _
>>> 3  了  了  e  y  _  2  右附加关系  _  _
>>> 4  吗  吗  e  y  _  2  右附加关系  _  _
>>> 5  ？  ？  wp w  _  2  标点符号  _  _

2.3 pyhanlp可视化

如果大家看不太清楚上面的输出，pyhanlp提供了一个很好的展示交付界面，只要一句命令就能启动一个web服务

hanlp serve

登录http://localhost:8765就能看下可视化界面，能看到分词结果和依存关系的结果，是不是很直观。这个网页上还有安装说明、源码链接、文档链接、常见的问题（FAQ）。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

推荐阅读

程序员
如何阻止\关闭字符串

如何解决《如何阻止\关闭字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
将vanilla对象转换为类？

如何解决《将vanilla对象转换为类？》经验，为你挑选了1个好方法。 ... [详细]
程序员
安装rJava

如何解决《安装rJava》经验，为你挑选了3个好方法。 ... [详细]
程序员
在JavaScript中使用两种方法散列JSON字符串以在URL中使用

如何解决《在JavaScript中使用两种方法散列JSON字符串以在URL中使用》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Spring Data Mongo中设置自定义转换器

如何解决《在SpringDataMongo中设置自定义转换器》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Windows上为PHP安装PDO驱动程序？

如何解决《如何在Windows上为PHP安装PDO驱动程序？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么运行时要构造决策树mnlog(n)？

如何解决《为什么运行时要构造决策树mnlog(n)？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Singleton模式的Android Volley错误

如何解决《使用Singleton模式的AndroidVolley错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有办法截断字段数据

如何解决《有没有办法截断字段数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在vim中将命令的输出打印到新窗口

如何解决《如何在vim中将命令的输出打印到新窗口》经验，为你挑选了1个好方法。 ... [详细]
程序员
'缺少PFX或证书+私钥.' 在https socket.io中

如何解决《'缺少PFX或证书+私钥.'在httpssocket.io中》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何让kestrel Web服务器监听非localhost请求？

如何解决《如何让kestrelWeb服务器监听非localhost请求？》经验，为你挑选了3个好方法。 ... [详细]
程序员
更改ui.bootrap的工具提示箭头的颜色(附带的plunker)

如何解决《更改ui.bootrap的工具提示箭头的颜色(附带的plunker)》经验，为你挑选了1个好方法。 ... [详细]
程序员
Stanford NER Tagger在NLTK

如何解决《StanfordNERTagger在NLTK》经验，为你挑选了1个好方法。 ... [详细]
程序员
Phaser:如何在预加载后加载资产？

如何解决《Phaser:如何在预加载后加载资产？》经验，为你挑选了1个好方法。 ... [详细]
程序员
键入表示非空的字符串或F#中的空格

如何解决《键入表示非空的字符串或F#中的空格》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何正确使用dataLayer.push（）更新数组中嵌套对象的值？

如何解决《如何正确使用dataLayer.push（）更新数组中嵌套对象的值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法使用bootstrap-sass与webpack一起工作

如何解决《无法使用bootstrap-sass与webpack一起工作》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django上的用户角色架构

如何解决《Django上的用户角色架构》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Multibranch Workflow清理构建

如何解决《使用MultibranchWorkflow清理构建》经验，为你挑选了2个好方法。 ... [详细]

爱唱歌的郭少文_

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章