我正在寻找一个小型的C库来处理utf8字符串.
具体而言,基于unicode分隔符进行拆分以与词干算法一起使用.
相关帖子建议:
ICU http://www.icu-project.org/(我发现它在我的嵌入式设备上太笨重了)
UTF8-CPP:http://utfcpp.sourceforge.net/(很好,但C++不是C)
有没有人发现任何平台独立的小代码库来处理unicode字符串(不需要进行归化).
我成功使用的一个漂亮,轻便的库是utf8proc.
还有MicroUTF-8.
UTF-8是专门设计的,因此许多面向字节的字符串函数继续工作或只需要稍作修改.
strstr
例如,C的函数只要其输入都是有效的,以null结尾的UTF-8字符串,就能完美地工作.strcpy
只要其输入字符串从字符边界开始(例如返回值strstr
),就可以正常工作.
所以你甚至可能不需要一个单独的库!