4赞

如何查找特定字符串是否具有unicode字符(尤其是双字节字符)

作者：女女的家_747 | 2023-09-04 17:58

如何解决《如何查找特定字符串是否具有unicode字符(尤其是双字节字符)》经验，为你挑选了4个好方法。

更确切地说,我需要知道(如果可能的话)我是否可以找到给定字符串是否具有双字节字符.基本上,我需要打开一个弹出窗口来显示一个给定的文本,它可以包含双字节字符,如中文或日文.在这种情况下,我们需要调整窗口大小,而不是英文或ASCII.有人有线索吗？

1> 小智..：

我在这个问题上使用了mikesamuel的答案.但是我注意到也许是因为这种形式在它之前应该只有一个逃避斜杠u,例如\u并且不能\\u使其正常工作.

function containsNonLatinCodepoints(s) {
    return /[^\u0000-\u00ff]/.test(s);
}

适合我:)

2> pcorcoran..：

JavaScript将文本内部保存为UCS-2,它可以编码相当广泛的Unicode子集.

但这与你的问题没有密切关系.一种解决方案可能是遍历字符串并检查每个位置的字符代码:

function isDoubleByte(str) {
    for (var i = 0, n = str.length; i < n; i++) {
        if (str.charCodeAt( i ) > 255) { return true; }
    }
    return false;
}

这可能没有您想要的那么快.

3> laurent..：

我在顶部答案中对这两个函数进行了基准测试,并认为我会分享结果.这是我使用的测试代码:

const text1 = `The Chinese Wikipedia was established along with 12 other Wikipedias in May 2001. ?????????????????????????????????????1785??1850???1839??`;

const regex = /[^\u0000-\u00ff]/; // Small performance gain from pre-compiling the regex
function containsNonLatinCodepoints(s) {
    return regex.test(s);
}

function isDoubleByte(str) {
    for (var i = 0, n = str.length; i < n; i++) {
        if (str.charCodeAt( i ) > 255) { return true; }
    }
    return false;
}

function benchmark(fn, str) {
    let startTime = new Date();
    for (let i = 0; i < 10000000; i++) {
        fn(str);
    }   
    let endTime = new Date();

    return endTime.getTime() - startTime.getTime();
}

console.info('isDoubleByte => ' + benchmark(isDoubleByte, text1));
console.info('containsNonLatinCodepoints => ' + benchmark(containsNonLatinCodepoints, text1));

在运行时,我得到了:

isDoubleByte => 2421
containsNonLatinCodepoints => 868

因此对于这个特定的字符串,正则表达式解决方案的速度提高了约3倍.

但请注意,对于第一个字符为unicode的字符串,立即isDoubleByte()返回,因此比正则表达式(仍然具有正则表达式的开销)快得多.

例如对于字符串??,我得到了这些结果:

isDoubleByte => 51
containsNonLatinCodepoints => 288

为了获得两全其美,最好将两者结合起来:

var regex = /[^\u0000-\u00ff]/; // Small performance gain from pre-compiling the regex
function containsDoubleByte(str) {
    if (!str.length) return false;
    if (str.charCodeAt(0) > 255) return true;
    return regex.test(str);
}

在这种情况下,如果第一个字符是中文(这可能是整个文本是中文),该功能将很快并立即返回.如果没有,它将运行正则表达式,这仍然比单独检查每个字符更快.

4> JasonTrue..：

实际上,所有字符都是Unicode,至少从Javascript引擎的角度来看.

不幸的是,仅仅存在特定Unicode范围内的字符将不足以确定您需要更多空间.有许多字符占用的空间大致与其他具有远远高于ASCII范围的Unicode代码点的字符相同.印刷引号,带变音符号的字符,某些标点符号和各种货币符号都在低ASCII范围之外,并且分配在Unicode基本多语言平面上非常不同的位置.

通常,我所参与的项目选择为所有语言提供额外的空间,或者有时使用javascript来确定具有自动滚动条css属性的窗口是否实际上具有高度会触发滚动条的内容.

如果检测到CJK字符的存在或计数足以确定您需要一些额外的空间,则可以使用以下范围构建正则表达式:[\ u3300\u9fff\uf900-\ufaff],并使用用于提取匹配字符数的计数.(这有点过于粗糙,并且错过了所有非BMP案例,可能会排除其他一些相关范围,并且很可能包括一些不相关的字符,但这是一个起点).

同样,你只能在没有全文渲染引擎的情况下管理粗略的启发式,因为你真正想要的是类似GDI的MeasureString(或任何其他文本渲染引擎的等价物).我已经有一段时间了,但我认为最接近的HTML/DOM等价物是在div上设置宽度并请求高度(剪切和粘贴重用,如果这包含错误,请道歉):

o = document.getElementById("test");

document.defaultView.getComputedStyle(o,"").getPropertyValue("height"))

推荐阅读

程序员
弹簧数据mongodb中的2d球面索引

如何解决《弹簧数据mongodb中的2d球面索引》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何修复java中的堆栈溢出错误？

如何解决《如何修复java中的堆栈溢出错误？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在R中指定三维图表的摄像机视角？

如何解决《如何在R中指定三维图表的摄像机视角？》经验，为你挑选了1个好方法。 ... [详细]
程序员
"无法在未定义的值上调用方法'状态'"？

如何解决《"无法在未定义的值上调用方法'状态'"？》经验，为你挑选了1个好方法。 ... [详细]
程序员
根据转储成员函数的operator <<函数的通用实现

如何解决《根据转储成员函数的operator<<函数的通用实现》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Elastic Beanstalk上添加PATH

如何解决《如何在ElasticBeanstalk上添加PATH》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何通过环境变量在名称中设置带下划线的Spring Boot属性？

如何解决《如何通过环境变量在名称中设置带下划线的SpringBoot属性？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何证明返回IEnumerable的方法已被调用两次？

如何解决《如何证明返回IEnumerable的方法已被调用两次？》经验，为你挑选了2个好方法。 ... [详细]
程序员
mongo C驱动程序1.2.0中的错误处理

如何解决《mongoC驱动程序1.2.0中的错误处理》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Laravel5中调用未定义的方法Illuminate\Http\Response :: json()

如何解决《在Laravel5中调用未定义的方法Illuminate\Http\Response::json()》经验，为你挑选了2个好方法。 ... [详细]
程序员
诊断进程陷入D状态(不间断睡眠/阻塞IO)

如何解决《诊断进程陷入D状态(不间断睡眠/阻塞IO)》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用int13h从软盘加载段

如何解决《使用int13h从软盘加载段》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用if或while递归时的C差异

如何解决《使用if或while递归时的C差异》经验，为你挑选了1个好方法。 ... [详细]
程序员
Grunt,在构建时将html文件复制到脚本文件夹

如何解决《Grunt,在构建时将html文件复制到脚本文件夹》经验，为你挑选了0个好方法。 ... [详细]
程序员
Lotus Notes/LotusScript - 如何用德语而不是英语设置日期？

如何解决《LotusNotes/LotusScript-如何用德语而不是英语设置日期？》经验，为你挑选了0个好方法。 ... [详细]
程序员
找不到openssl/ssl.h但是用自制软件安装

如何解决《找不到openssl/ssl.h但是用自制软件安装》经验，为你挑选了1个好方法。 ... [详细]
程序员
IntelliJ IDEA无法解析spring数据jpa @query注释中的实体

如何解决《IntelliJIDEA无法解析spring数据jpa@query注释中的实体》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Visual Studio 2015中将WinMerge设置为差异/合并工具

如何解决《在VisualStudio2015中将WinMerge设置为差异/合并工具》经验，为你挑选了1个好方法。 ... [详细]
程序员
plt.tight_layout()与sns.clustermap

如何解决《plt.tight_layout()与sns.clustermap》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何增加MongoDB中索引引用的数组元素？

如何解决《如何增加MongoDB中索引引用的数组元素？》经验，为你挑选了0个好方法。 ... [详细]

女女的家_747

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章