对Python生成汉字字库文字,以及转换为文字图片的实例详解

作者：放ch养奶牛 | 2022-01-26 08:24

今天小编就为大家分享一篇对Python生成汉字字库文字,以及转换为文字图片的实例详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

笔者小白在收集印刷体汉字的深度学习训练集的时候，一开始就遇到的了一个十分棘手的问题，就是如何获取神经网络的训练集数据。通过上网搜素，笔者没有找到可用的现成的可下载的汉字的训练集，于是笔者采用了代码自建汉字的训练集数据。

这里采用的是python编写程序，需要import 的python库请提前安装。

那么，首先如何用python输出汉字字库的文字？

笔者查到在计算机中汉字编码范围是0x4E00到0x9FA5，利用unichr（）可以将十六进制的编码转成人类可读的字。

这里扩展一下在python库中什么是unichr（），以及什么是chr（）和ord（）。

chr( )函数用一个范围在range（256）内的（就是0～255）整数作参数，返回一个对应的字符。

unichr( )跟它一样，只不过返回的是Unicode字符，这个从Python 2.0才加入的unichr( )的参数范围依赖于你的Python是如何被编译的。

如果是配置为USC2的Unicode，那么它的允许范围就是range（65536）或0x0000-0xFFFF；如果配置为UCS4，那么这个值应该是range（1114112）或0x000000-0x110000。

如果提供的参数不在允许的范围内，则会报一个ValueError的异常。

ord( )函数是chr( )函数（对于8位的ASCII字符串）或unichr( )函数（对于Unicode对象）的配对函数，它以一个字符（长度为1的字符串）作为参数，返回对应的ASCII数值，或者Unicode数值，如果所给的Unicode字符超出了你的Python定义范围，则会引发一个TypeError的异常。

接下来就是把unicode编码的字写入文件呢，如果直接用open()的话，会提示UnicodeEncodeError: ‘ascii' codec can't encode character u'\u4e00' in position 0: ordinal not in range(128)

这里就是涉及到python读写文件时候的两种方式了，一种是open（），还一种是codecs.open( )。

对于open（）这个python的内置函数来说，打开文件的方式一般为：

f=open(file_name,access_mode = 'r',buffering = -1)。

file_name就是文件的路径加文件名字，不加路径则文件会存放在python程序的路径下，

access_mode就是操作文件的模式，主要有r,w,rb，wb等，细节网上一大堆,buffering = -1是用于指示访问文件所采用的缓存方式。0表示不缓存；1表示只缓存一行，n代表缓存n行。如果不提供或为负数，则代表使用系统默认的缓存机制。

>>> fr = open('test1.txt','wb')
>>> line1 = "我是谁"
>>> fr.write(line1)

打开以后就是写和读的操作。但是用open方法打开会有一些问题。open打开文件只能写入str类型,不管字符串是什么编码方式。所以对于写入文件的数据的编码不统一的时候，需要用到codecs.open（）。

这种方法可以指定一个编码打开文件，使用这个方法打开的文件读取返回的将是unicode。

写入时，如果参数是unicode，则使用open()时指定的编码进行编码后写入；如果是str，则先根据源代码文件声明的字符编码，解码成unicode后再进行前述操作。

相对内置的open()来说，这个方法比较不容易在编码上出现问题。

>>> import codecs
>>> line2 = u'我是谁'
>>> fw = codecs.open('test1.txt','wb','utf-8')
>>> fw.write(line2)

这里是将汉字字库的文字写出到文本文件中，代码如下：

import codecs
start,end = (0x4E00, 0x9FA5) #汉字编码的范围
with codecs.open("chinese.txt", "wb", encoding="utf-8") as f:
 for codepoint in range(int(start),int(end)):
 f.write(unichr(codepoint)) #写出汉字

在同目录文件下，生成汉字字库的chinese.txt文件：

Python生成汉字字库文字,以及转换为文字图片

接下来就是把汉字字库的字一个个保存成图片，这里需要pip install pygame的库。

pygame可以将文字渲染到图片上保存。

代码如下：

#encoding: utf-8
import os
import pygame

chinese_dir = 'chinese'
if not os.path.exists(chinese_dir):
 os.mkdir(chinese_dir)

pygame.init()
start,end = (0x4E00, 0x9FA5) # 汉字编码范围
for codepoint in range(int(start), int(end)):
 word = unichr(codepoint)
 font = pygame.font.Font("msyh.ttc", 64)
 # 当前目录下要有微软雅黑的字体文件msyh.ttc,或者去c:\Windows\Fonts目录下找
 # 64是生成汉字的字体大小
 rtext = font.render(word, True, (0, 0, 0), (255, 255, 255))
 pygame.image.save(rtext, os.path.join(chinese_dir, word + ".png"))

这里是在chinese文件夹里面生成的文字图片，字体是黑体，然后再在个基础上可以继续自制汉字识别的训练集了。

Python生成汉字字库文字,以及转换为文字图片

以上这篇对Python生成汉字字库文字,以及转换为文字图片的实例详解就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

推荐阅读

程序员
是否以形式公开显示x-amz凭证或任何亚马逊东西？

如何解决《是否以形式公开显示x-amz凭证或任何亚马逊东西？》经验，为你挑选了1个好方法。 ... [详细]
程序员
R ::如何从chisq.test输出中获取p值

如何解决《R::如何从chisq.test输出中获取p值》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何通过API网关使用事件调用类型调用Lambda函数？

如何解决《如何通过API网关使用事件调用类型调用Lambda函数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何禁用glimpse更新检查请求？

如何解决《如何禁用glimpse更新检查请求？》经验，为你挑选了0个好方法。 ... [详细]
程序员
NumPy:旧数据描述符和新数据描述符的大小不匹配

如何解决《NumPy:旧数据描述符和新数据描述符的大小不匹配》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用浓缩咖啡从测试中调用测试活动的方法并查看其结果

如何解决《使用浓缩咖啡从测试中调用测试活动的方法并查看其结果》经验，为你挑选了1个好方法。 ... [详细]
程序员
Perl拆分并丢弃一行中的第一个元素

如何解决《Perl拆分并丢弃一行中的第一个元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android:检查系统是否从服务中销毁活动

如何解决《Android:检查系统是否从服务中销毁活动》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在同一分区中保留2个Cassandra表

如何解决《如何在同一分区中保留2个Cassandra表》经验，为你挑选了1个好方法。 ... [详细]
程序员
参数化MySQL工作台语句:如何定义变量

如何解决《参数化MySQL工作台语句:如何定义变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
安装PHP 7后如何安装/启用intl和xsl扩展

如何解决《安装PHP7后如何安装/启用intl和xsl扩展》经验，为你挑选了3个好方法。 ... [详细]
程序员
AngularJS是否将变量保存到文件中？

如何解决《AngularJS是否将变量保存到文件中？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android:数据绑定,notifyPropertyChanged()无法正常工作？

如何解决《Android:数据绑定,notifyPropertyChanged()无法正常工作？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++标准是否指定浮点数表示的任何内容？

如何解决《C++标准是否指定浮点数表示的任何内容？》经验，为你挑选了3个好方法。 ... [详细]
程序员
立即窗口中的F#

如何解决《立即窗口中的F#》经验，为你挑选了0个好方法。 ... [详细]
程序员
不可能在Firefox中使用Twitter时间线？

如何解决《不可能在Firefox中使用Twitter时间线？》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么angular.forEach上下文？

如何解决《为什么angular.forEach上下文？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Symfony安装缺少的供应商库

如何解决《Symfony安装缺少的供应商库》经验，为你挑选了1个好方法。 ... [详细]
程序员
在python中使用递归来反转列表

如何解决《在python中使用递归来反转列表》经验，为你挑选了2个好方法。 ... [详细]
程序员
禁用在PM2中重新启动

如何解决《禁用在PM2中重新启动》经验，为你挑选了1个好方法。 ... [详细]

放ch养奶牛

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章