1赞

将符号,重音符号转换为英文字母

作者：kikokikolove | 2023-08-24 16:39

如何解决《将符号,重音符号转换为英文字母》经验，为你挑选了7个好方法。

问题是,如你所知,Unicode图表中有数千个字符,我想将所有相似的字符转换为英文字母中的字母.

例如,这里有一些转换:

?->H
?->V
?->Y
?->O
?->C
t?? ?????y --> the Family
...

我看到有超过20个版本的字母A/a.而且我不知道如何对它们进行分类.它们看起来像大海捞针.

完整的unicode字符列表位于http://www.ssec.wisc.edu/~tomw/java/unicode.html 或http://unicode.org/charts/charindex.html.只需向下滚动即可看到字母的变化.

如何用Java转换所有这些？请帮我 :(

1> hashable..：

重新发布我的帖子如何从.NET中的字符串中删除变音符号(重音符号)？

这种方法在java中工作正常(纯粹是为了删除变音符号也称为重音).

它基本上将所有重音字符转换为deAccented对应字符,然后将它们组合成变音符号.现在你可以使用正则表达式去除变音符号.

import java.text.Normalizer;
import java.util.regex.Pattern;

public String deAccent(String str) {
    String nfdNormalizedString = Normalizer.normalize(str, Normalizer.Form.NFD); 
    Pattern pattern = Pattern.compile("\\p{InCombiningDiacriticalMarks}+");
    return pattern.matcher(nfdNormalizedString).replaceAll("");
}

它完全没有音译.它只是去除了分解的变音标记("重音符号").上一步(Form.NFD)在a'中分解á,即将重音字符分解为非重音字符加上变音符号.这会将西里尔文Ѽ转换为Ѡ但不会更远.

InCombiningDiacriticalMarks不会转换所有西里尔字母.例如,ОпштинаБогомила未受影响.如果可以将它转换为Opstina Bogomila或其他东西会很好

\ {p {IsM}似乎不适用于西班牙语口音,如áóúñééí.相反,"\\ p {InCombiningDiacriticalMarks} +正在为此做好准备

2> Ondra Žižka..：

它是Apache Commons Lang的一部分.3.0.

org.apache.commons.lang3.StringUtils.stripAccents("Añ");

回报 An

另请参阅http://www.drillio.com/en/software-development/java/removing-accents-diacritics-in-any-language/

对于ł和Ł缺少的波兰人物翻译并不完美:输入:ŚŻÓŁĄĆĘŹąółęąćńŃ输出:SZOŁACEZaołeacnN

3> Ian..：

试图"全部转换"是解决问题的错误方法.

首先,您需要了解您尝试做的事情的局限性.正如其他人所指出的,变音符号的存在是有原因的:它们本质上是该语言字母表中的独特字母,具有自己的意义/声音等.删除这些标记与替换英语单词中的随机字母相同.这是在您考虑使用西里尔语和其他基于脚本的文本(例如阿拉伯语)之前,这些文本根本无法"转换"为英语.

如果你因为某种原因必须转换字符,那么唯一合理的方法就是首先减少手头任务的范围.考虑输入的来源 - 如果您正在为"西方世界"编写应用程序(使用与任何语言一样好的短语),那么您将不太可能需要解析阿拉伯字符.类似地,Unicode字符集包含数百个数学和图形符号:用户没有(简单)方式直接输入这些符号,因此您可以假设它们可以被忽略.

通过采用这些逻辑步骤,您可以减少要解析的可能字符数,使基于字典的查找/替换操作成为可能.然后它变成了一些创建字典的轻微无聊的工作,以及执行替换的一项微不足道的任务.如果您的语言支持原生Unicode字符(如Java所做)并正确优化静态结构,则此类查找和替换往往会非常快速.

这来自于曾经允许最终用户搜索包含变音字符的书目数据所需的应用程序的经验.查询数组(就像我们的情况一样)花了大约一个人的时间来制作,以涵盖所有西欧语言的所有变音符号.

4> Joachim Saue..：

由于将"家庭"变成"tђєŦค3เℓy"的编码实际上是随机的,并且不遵循任何可以通过所涉及的Unicode码点的信息解释的算法,因此没有通用的方法来解决这种算法.

您需要将Unicode字符的映射构建为类似的拉丁字符.您可以通过一些智能机器学习表示Unicode代码点的实际字形来完成此操作.但我认为这方面的努力将大于手动构建映射.特别是如果你有大量的例子可以用来构建你的映射.

澄清一下:一些替换实际上可以通过Unicode数据解决(正如其他答案所示),但有些字母与它们类似的拉丁字符没有任何合理的关联.

例子:

"ђ"(U + 0452 CYRILLIC SMALL LETTER DJE)与"d"比"h"更相关,但用于表示"h".

"Ŧ"(U + 0166 LATIN CAPITAL LETTER T WITH STROKE)与"T"(顾名思义)有些相关,但用于表示"F".

"ค"(U + 0E04 THAI CHARACTER KHO KHWAI)完全与任何拉丁字符无关,在您的示例中用于表示"a"

5> Dayanand Gow..：

原始请求已经回答了.

但是,我正在为那些可能正在寻找通用音译代码的人发布以下答案,以便将任何字符集音译为Java中的拉丁语/英语.

音译的天真含义:它的最终形式/目标字符集中的翻译字符串听起来像是原始形式的字符串.如果我们想将任何字符集音译为拉丁语(英文字母),那么ICU4(java中的ICU4J库)就可以完成这项工作.

这是java中的代码片段:

    import com.ibm.icu.text.Transliterator; //ICU4J library import

    public static String TRANSLITERATE_ID = "NFD; Any-Latin; NFC";
    public static String NORMALIZE_ID = "NFD; [:Nonspacing Mark:] Remove; NFC";

    /**
    * Returns the transliterated string to convert any charset to latin.
    */
    public static String transliterate(String input) {
        Transliterator transliterator = Transliterator.getInstance(TRANSLITERATE_ID + "; " + NORMALIZE_ID);
        String result = transliterator.transliterate(input);
        return result;
    }

6> cactuschibre..：

经过测试的字符串:ÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖØÙÚÛÜÝß

经过测试:

Apache Commons Lang3的输出:AAAAAÆCEEEEIIIIÐNOOOOOØUUUUYß

ICU4j的输出:AAAAAÆCEEEEIIIIÐNOOOOOØUUUUYß

JUnidecode的输出:AAAAAAECEEEEIIIIDNOOOOOOUUUUUss(问题与Ý和另一个问题)

Unidecode的输出:AAAAAAECEEEEIIIIDNOOOOOOUUUUYss

最后的选择是最好的.

7> RealHowTo..：

如果需要转换"òéışöç-> oeisoc",您可以使用此作为起点:

public class AsciiUtils {
    private static final String PLAIN_ASCII =
      "AaEeIiOoUu"    // grave
    + "AaEeIiOoUuYy"  // acute
    + "AaEeIiOoUuYy"  // circumflex
    + "AaOoNn"        // tilde
    + "AaEeIiOoUuYy"  // umlaut
    + "Aa"            // ring
    + "Cc"            // cedilla
    + "OoUu"          // double acute
    ;

    private static final String UNICODE =
     "\u00C0\u00E0\u00C8\u00E8\u00CC\u00EC\u00D2\u00F2\u00D9\u00F9"             
    + "\u00C1\u00E1\u00C9\u00E9\u00CD\u00ED\u00D3\u00F3\u00DA\u00FA\u00DD\u00FD" 
    + "\u00C2\u00E2\u00CA\u00EA\u00CE\u00EE\u00D4\u00F4\u00DB\u00FB\u0176\u0177" 
    + "\u00C3\u00E3\u00D5\u00F5\u00D1\u00F1"
    + "\u00C4\u00E4\u00CB\u00EB\u00CF\u00EF\u00D6\u00F6\u00DC\u00FC\u0178\u00FF" 
    + "\u00C5\u00E5"                                                             
    + "\u00C7\u00E7" 
    + "\u0150\u0151\u0170\u0171" 
    ;

    // private constructor, can't be instanciated!
    private AsciiUtils() { }

    // remove accentued from a string and replace with ascii equivalent
    public static String convertNonAscii(String s) {
       if (s == null) return null;
       StringBuilder sb = new StringBuilder();
       int n = s.length();
       for (int i = 0; i < n; i++) {
          char c = s.charAt(i);
          int pos = UNICODE.indexOf(c);
          if (pos > -1){
              sb.append(PLAIN_ASCII.charAt(pos));
          }
          else {
              sb.append(c);
          }
       }
       return sb.toString();
    }

    public static void main(String args[]) {
       String s = 
         "The result : È,É,Ê,Ë,Û,Ù,Ï,Î,À,Â,Ô,è,é,ê,ë,û,ù,ï,î,à,â,ô,ç";
       System.out.println(AsciiUtils.convertNonAscii(s));
       // output : 
       // The result : E,E,E,E,U,U,I,I,A,A,O,e,e,e,e,u,u,i,i,a,a,o,c
    }
}

JDK 1.6提供了可用于此任务的java.text.Normalizer类.

在这里查看示例

推荐阅读

程序员
Excel VBA保存截图

如何解决《ExcelVBA保存截图》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何显示文本框重复值的警报

如何解决《如何显示文本框重复值的警报》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以在LINQ to Entities查询中使用CAST吗？

如何解决《我可以在LINQtoEntities查询中使用CAST吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
何时将配置放在file.properties或Jndi中

如何解决《何时将配置放在file.properties或Jndi中》经验，为你挑选了1个好方法。 ... [详细]
程序员
TreeView - 单击空白区域

如何解决《TreeView-单击空白区域》经验，为你挑选了1个好方法。 ... [详细]
程序员
由Python 3.5破坏的Jupyter笔记本

如何解决《由Python3.5破坏的Jupyter笔记本》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用ScalatraSuite（FunSuiteLike）进行独立sbt项目的Scalatra测试失败

如何解决《使用ScalatraSuite（FunSuiteLike）进行独立sbt项目的Scalatra测试失败》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以在AWS Cloudformation json模板的"参数"中使用"Fn :: Join"吗？

如何解决《我可以在AWSCloudformationjson模板的"参数"中使用"Fn::Join"吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
包含列表太慢,如何改进？

如何解决《包含列表太慢,如何改进？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在TFS登记之前是否执行Get Latest强制要求,以免覆盖/丢失代码？

如何解决《在TFS登记之前是否执行GetLatest强制要求,以免覆盖/丢失代码？》经验，为你挑选了2个好方法。 ... [详细]
程序员
TRUE和FALSE宏的奇怪定义

如何解决《TRUE和FALSE宏的奇怪定义》经验，为你挑选了6个好方法。 ... [详细]
程序员
神经网络:了解theano图书馆

如何解决《神经网络:了解theano图书馆》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Clang将OpenCL编译为PTX时未解决的extern？

如何解决《使用Clang将OpenCL编译为PTX时未解决的extern？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Lua表 - 具有相同键的两个条目

如何解决《Lua表-具有相同键的两个条目》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从try-catch简化return语句

如何解决《如何从try-catch简化return语句》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在UI测试期间在Swift应用程序中隐藏键盘

如何解决《如何在UI测试期间在Swift应用程序中隐藏键盘》经验，为你挑选了3个好方法。 ... [详细]
程序员
使用Feign客户端RequestInterceptor转发请求标头或安全上下文

如何解决《使用Feign客户端RequestInterceptor转发请求标头或安全上下文》经验，为你挑选了0个好方法。 ... [详细]
程序员
将Temp列的结果加入表SQL Server

如何解决《将Temp列的结果加入表SQLServer》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在同一个对象中将值从一个属性复制到另一个属性？

如何解决《如何在同一个对象中将值从一个属性复制到另一个属性？》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法检查JavaScript中的所有复选框

如何解决《无法检查JavaScript中的所有复选框》经验，为你挑选了1个好方法。 ... [详细]

kikokikolove

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章