8赞

c#从字节数组中检测xml编码？

作者：勤奋的瞌睡猪_715 | 2023-08-30 11:46

如何解决《c#从字节数组中检测xml编码？》经验，为你挑选了4个好方法。

好吧,我有一个字节数组,我知道它在字节数组中的xml serized对象是否有任何方法可以从中获取编码？

我不打算去除它但是我将它保存在sql server上的xml字段中......所以我需要将它转换为字符串？

1> Peter Lillev..：

类似于这个问题的解决方案可以通过在字节数组上使用Stream来解决这个问题.那么你就不必在字节级别进行操作.像这样:

Encoding encoding;
using (var stream = new MemoryStream(bytes))
{
    using (var xmlreader = new XmlTextReader(stream))
    {
        xmlreader.MoveToContent();
        encoding = xmlreader.Encoding;
    }
}

2> Jon Skeet..：

你可以看看前40个字节¹.它们应该包含文档声明(假设它有一个文档声明),它应该包含编码,或者您可以假设它是UTF-8或UTF-16,这应该从您理解该部分的方式中显而易见.(只需检查两种模式.)



实际上,你是否期望你能获得除UTF-8或UTF-16以外的任何东西？如果没有,您可以检查在这两个模式开始时获得的模式,如果不遵循任何模式,则抛出异常.或者,如果您想再次尝试,可以尝试将文档解码为UTF-8,重新编码并查看是否返回相同的字节.它并不理想,但可能会起作用.

我确信有更严格的方法可以做到这一点,但它们可能很挑剔:)



¹可能还不到这个.我认为20个字符应该足够了,这是UTF-16中的40个字节.

        

3> AnthonyWJone..：
前2或3个字节可以是字节顺序标记(BOM),它可以告诉您流是UTF-8,Unicode-LittleEndian还是Unicode-BigEndian.

UTF-8 BOM为0xEF 0xBB 0xBF Unicode-Bigendian为0xFE 0xFF Unicode-LittleEndiaon为0xFF 0xFE

如果这些都不存在,那么您可以使用ASCII进行测试(请注意,大多数现代XML生成都遵循标准,即xml声明之前不会出现空格).


ASCII被用完,直到?>你可以找到encoding =的存在并找到它的值.如果编码不存在或声明不存在,那么您可以假设UTF-8.

        

4> Ian Boyd..：
在W3C XML规范有一节关于如何确定一个字节字符串的编码.

首先检查Unicode字节顺序标记

BOM只是另一个角色; 这是:


  'ZERO WIDTH NO-BREAK SPACE'(U + FEFF)


字符U + FEFF以及文件中的每个其他字符都使用适当的编码方案进行编码:


00 00 FE FF:UCS-4,大端机(1234订购)
FF FE 00 00:UCS-4,小端机(4321订购)
00 00 FF FE:UCS-4,不寻常的八位字节顺序(2143)
FE FF 00 00:UCS-4,不寻常的八位字节顺序(3412)
FE FF ## ##:UTF-16,big-endian
FF FE ## ##:UTF-16,little-endian
EF BB BF:UTF-8


哪里## ##可以是任何东西 - 除了两者都是零

因此,首先检查任何这些签名的初始字节.如果找到其中一个,则返回该代码页标识符

UInt32 GuessEncoding(byte[] XmlString)
{
   if BytesEqual(XmlString, [00, 00, $fe, $ff]) return 12001; //"utf-32BE" - Unicode UTF-32, big endian byte order
   if BytesEqual(XmlString, [$ff, $fe, 00, 00]) return 1200;  //"utf-32" - Unicode UTF-32, little endian byte order
   if BytesEqual(XmlString, [$fe, $ff, 00, 00]) throw new Exception("Nobody supports 2143 UCS-4");
   if BytesEqual(XmlString, [$fe, $ff, 00, 00]) throw new Exception("Nobody supports 3412 UCS-4");
   if BytesEqual(XmlString, [$fe, $ff])
   {
      if (XmlString[2] <> 0) && (XmlString[3] <> 0)
         return 1201;  //"unicodeFFFE" - Unicode UTF-16, big endian byte order
   }
   if BytesEqual(XmlString, [$ff, $fe])
   {
      if (XmlString[2] <> 0) && (XmlString[3] <> 0)
         return 1200;  //"utf-16" - Unicode UTF-16, little endian byte order
   }
   if BytesEqual(XmlString, [$ef, $bb, $bf])    return 65001; //"utf-8" - Unicode (UTF-8)


或者寻找<？xml

如果XML文档没有字节顺序标记字符,那么您将继续查找每个XML文档必须具有的前五个字符:


  



了解这一点很有帮助


< 是#x0000003C
? 是#x0000003F


有了这个,我们就足以看到前四个字节了:


00 00 00 3C:UCS-4,大端机(1234订购)
3C 00 00 00:UCS-4,小端机(4321订购)
00 00 3C 00:UCS-4,不寻常的八位字节顺序(2143)
00 3C 00 00:UCS-4,不寻常的八位字节顺序(3412)
00 3C 00 3F:UTF-16,big-endian
3C 00 3F 00:UTF-16,little-endian
3C 3F 78 6D:UTF-8
4C 6F A7 94:一些EBCDIC的味道


因此,我们可以在代码中添加更多内容:

   if BytesEqual(XmlString, [00, 00, 00, $3C])    return 12001; //"utf-32BE" - Unicode UTF-32, big endian byte order
   if BytesEqual(XmlString, [$3C, 00, 00, 00])    return 1200;  //"utf-32" - Unicode UTF-32, little endian byte order
   if BytesEqual(XmlString, [00, 00, $3C, 00])    throw new Exception("Nobody supports 2143 UCS-4");
   if BytesEqual(XmlString, [00, $3C, 00, 00])    throw new Exception("Nobody supports 3412 UCS-4");
   if BytesEqual(XmlString, [00, $3C, 00, $3F])   return return 1201;  //"unicodeFFFE" - Unicode UTF-16, big endian byte order
   if BytesEqual(XmlString, [$3C, 00, $3F, 00])   return 1200;  //"utf-16" - Unicode UTF-16, little endian byte order
   if BytesEqual(XmlString, [$3C, $3F, $78, $6D]) return 65001; //"utf-8" - Unicode (UTF-8)
   if BytesEqual(XmlString, [$4C, $6F, $A7, $94])
   {
      //Some variant of EBCDIC, e.g.:
      //20273   IBM273  IBM EBCDIC Germany
      //20277   IBM277  IBM EBCDIC Denmark-Norway
      //20278   IBM278  IBM EBCDIC Finland-Sweden
      //20280   IBM280  IBM EBCDIC Italy
      //20284   IBM284  IBM EBCDIC Latin America-Spain
      //20285   IBM285  IBM EBCDIC United Kingdom
      //20290   IBM290  IBM EBCDIC Japanese Katakana Extended
      //20297   IBM297  IBM EBCDIC France
      //20420   IBM420  IBM EBCDIC Arabic
      //20423   IBM423  IBM EBCDIC Greek
      //20424   IBM424  IBM EBCDIC Hebrew
      //20833   x-EBCDIC-KoreanExtended IBM EBCDIC Korean Extended
      //20838   IBM-Thai    IBM EBCDIC Thai
      //20866   koi8-r  Russian (KOI8-R); Cyrillic (KOI8-R)
      //20871   IBM871  IBM EBCDIC Icelandic
      //20880   IBM880  IBM EBCDIC Cyrillic Russian
      //20905   IBM905  IBM EBCDIC Turkish
      //20924   IBM00924    IBM EBCDIC Latin 1/Open System (1047 + Euro symbol)
      throw new Exception("We don't support EBCDIC. Sorry");
   }

   //Otherwise assume UTF-8, and fail to decode it anyway
   return 65001; //"utf-8" - Unicode (UTF-8)

   //Any code is in the public domain. No attribution required.
}



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        C ++ JSON解串器
                    

                    
                                                
                        如何解决《C++JSON解串器》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何用CSS实现单行省略号
                    

                    
                                                
                        如何解决《如何用CSS实现单行省略号》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何让UITextView检测主题标签？
                    

                    
                                                
                        如何解决《如何让UITextView检测主题标签？》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        删除重复项而不覆盖hashCode()
                    

                    
                                                
                        如何解决《删除重复项而不覆盖hashCode()》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        为什么OpenCL工作组是三维的？
                    

                    
                                                
                        如何解决《为什么OpenCL工作组是三维的？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        BCNF分解算法说明
                    

                    
                                                
                        如何解决《BCNF分解算法说明》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何从PySpark中的map方法返回一个空(null？)项？
                    

                    
                                                
                        如何解决《如何从PySpark中的map方法返回一个空(null？)项？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何将fmt.Print和log.Print保存到Golang中的同一文件中
                    

                    
                                                
                        如何解决《如何将fmt.Print和log.Print保存到Golang中的同一文件中》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        处理开始但不显示窗口
                    

                    
                                                
                        如何解决《处理开始但不显示窗口》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Heroku Build失败:"node_modules已检入源代码管理"
                    

                    
                                                
                        如何解决《HerokuBuild失败:"node_modules已检入源代码管理"》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        删除R中一组行中的某些行
                    

                    
                                                
                        如何解决《删除R中一组行中的某些行》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        django视图从另一个应用程序渲染为模板
                    

                    
                                                
                        如何解决《django视图从另一个应用程序渲染为模板》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在Python中以未知长度的列表迭代级联格式(在for循环中)？
                    

                    
                                                
                        如何解决《如何在Python中以未知长度的列表迭代级联格式(在for循环中)？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        从Python smtplib捕获调试输出
                    

                    
                                                
                        如何解决《从Pythonsmtplib捕获调试输出》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        ColdFusion中的UTF-8标志
                    

                    
                                                
                        如何解决《ColdFusion中的UTF-8标志》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在循环中使用Jsoup connect().第一个请求总是比其他所有请求慢得多
                    

                    
                                                
                        如何解决《在循环中使用Jsoupconnect().第一个请求总是比其他所有请求慢得多》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用参数'()'和找不到关键字参数'{}来反向'login'.尝试过0种模式:[]
                    

                    
                                                
                        如何解决《使用参数'()'和找不到关键字参数'{}来反向'login'.尝试过0种模式:[]》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在Visual Studio 2015中添加SSDT BI模板
                    

                    
                                                
                        如何解决《在VisualStudio2015中添加SSDTBI模板》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在同一个php脚本中销毁两个不同的会话？
                    

                    
                                                
                        如何解决《如何在同一个php脚本中销毁两个不同的会话？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在excel vba中加入从两个不同数据源创建的两个记录集
                    

                    
                                                
                            
                        
                                                
                        如何解决《如何在excelvba中加入从两个不同数据源创建的两个记录集》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                勤奋的瞌睡猪_715            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1反应 -  material-ui appbar图标触摸事件不会触发
                
                                
                    2为什么`-1*x`比`-x`快？为什么？
                
                                
                    3在打字稿中一直使用.tsx而不是.ts是否有任何不足之处？
                
                                
                    4std :: ref和swap函数似乎不能很好地协同工作
                
                                
                    5"base.html.twig"中的symfony2("没有"cssrewrite"filter.")
                
                                
                    6显示文件名称并在JTree中的文件夹下选择它
                
                                
                    7使用React v0.14.3实现路由器
                
                                
                    8Angularjs 2.0不加载templateUrl
                
                                
                    9在OrderedDict中如何按特定属性排序？
                
                                
                    10SurfaceView中的缩放和拖动功能
                
                                
                    11Xcode中关于iOS中fenceExemptQueue的奇怪警告
                
                                
                    12来自Url的Json Parsing在Android中,不起作用
                
                                
                    13UI-Grid与自定义单元格模板中的按钮 - 如何取消行选择事件？
                
                                
                    14Laravel格式化数据库结果的DateTime
                
                                
                    15新建和删除操作符在库中覆盖
                
                                
                    16fabric.io即使在上传后也缺少dSYM
                
                                
                    17在Visual Studio中更改或添加默认编辑器
                
                                
                    18Twitter文本js,不计算包含URL的文本的长度#!
                
                                
                    19在下面的java程序中,我不了解执行流程和"this"关键字执行情况？
                
                                
                    20谷歌iframe'在底部引起额外的填充