对于2.4MB XML文件,您会推荐哪个Ruby XML库？

作者：我我檬檬我我186 | 2023-09-04 23:53

如何解决《对于2.4MBXML文件,您会推荐哪个RubyXML库？》经验，为你挑选了0个好方法。

我有一个2.4 MB的XML文件,从Microsoft Project导出(嘿,我是受害者!),我要求我提取重新呈现的某些细节.忽略请求的智能或其他方面,我应该首先从Ruby的角度尝试哪个库？

我知道以下内容(没有特别的顺序):

REXML

Chilkat Ruby XML库

hpricot XML

的libxml

我更喜欢打包成Ruby宝石的东西,我怀疑Chilkat库不是.

性能不是一个主要问题 - 我不认为每天需要运行一次以上(每周一次更有可能).我对那些与XML相关的东西一样容易使用的东西更感兴趣.

编辑:我尝试了宝石的:

hpricot是一个国家英里,最简单.例如,要在此XML中提取SaveVersion标记的内容(保存在名为'test.xml'的文件中)

采取这样的事情:

doc = Hpricot.XML(open('test.xml'))
version = (doc/:Project/:SaveVersion).first.inner_html

hpricot似乎相对不关心命名空间,在这个例子中很好:只有一个,但可能是复杂文档的问题.由于hpricot也非常慢,我宁愿想象这将是一个解决自己的问题.

libxml-ruby的速度提高了一个数量级,了解命名空间(我需要花费几个小时来计算出来)并且完全接近XML金属 - XPath查询和所有其他的东西都在那里.如果像我一样,只有在极端胁迫的情况下才能打开XML文档,这不一定是好事.帮助器模块主要用于提供有效处理默认命名空间的示例.这大致是我最终得到的结论(我不以任何方式断言它的美丽,正确性或其他价值,它就在我现在的位置):

xml_parser = XML::Parser.new
xml_parser.string = File.read(path)
doc = xml_parser.parse
@root = doc.root
@scopes = { :in_node => '', :in_root => '/', :in_doc => '//' }
@ns_prefix = 'p'
@ns = "#{@ns_prefix}:#{@root.namespace[0].href}"
version = @root.find_first(xpath_qry("Project/SaveVersion", :in_root), @ns).content.to_i

def xpath_qry(tags, scope = :in_node)
  "#{@scopes[scope]}" + tags.split(/\//).collect{ |tag| "#{@ns_prefix}:#{tag}"}.join('/')
end

我仍然在争论利弊:libxml因其额外的严谨,hpricot的纯粹的_why代码风格.

再次编辑,稍后:我发现了HappyMapper('gem install happymapper'),如果还处于早期阶段,它是非常有前途的.虽然我已经发现了一些我尚未修复的边缘情况,但它是声明性的并且大部分都有效.它可以让你做这样的事情,解析我的谷歌阅读器OPML:

module OPML
  class Outline
    include HappyMapper
    tag 'outline'
    attribute :title, String
    attribute :text, String
    attribute :type, String
    attribute :xmlUrl, String
    attribute :htmlUrl, String
    has_many :outlines, Outline
  end
end

xml_string = File.read("google-reader-subscriptions.xml")

sections = OPML::Outline.parse(xml_string)

我已经喜欢它,尽管它还不完美.

推荐阅读

程序员
熊猫替换数据框单元格值

如何解决《熊猫替换数据框单元格值》经验，为你挑选了1个好方法。 ... [详细]
程序员
Flink流媒体事件时间窗口排序

如何解决《Flink流媒体事件时间窗口排序》经验，为你挑选了1个好方法。 ... [详细]
程序员
计算重复数组中的JavaScript对象值

如何解决《计算重复数组中的JavaScript对象值》经验，为你挑选了1个好方法。 ... [详细]
程序员
yii2验证码图像不显示

如何解决《yii2验证码图像不显示》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将变量值从GULP注入到JS文件中

如何解决《如何将变量值从GULP注入到JS文件中》经验，为你挑选了1个好方法。 ... [详细]
程序员
javascript获取div内的所有输入,包括select和textarea

如何解决《javascript获取div内的所有输入,包括select和textarea》经验，为你挑选了2个好方法。 ... [详细]
程序员
Kotlin在伴侣对象中使用Apply引发意外错误

如何解决《Kotlin在伴侣对象中使用Apply引发意外错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
当我按下带有CSS3的按钮时,将文本输入设置为焦点

如何解决《当我按下带有CSS3的按钮时,将文本输入设置为焦点》经验，为你挑选了1个好方法。 ... [详细]
程序员
服务器呈现使用react-router在URL前缀后面反应应用程序

如何解决《服务器呈现使用react-router在URL前缀后面反应应用程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将所有输入设置为$ touch而不提交按钮AngularJS

如何解决《如何将所有输入设置为$touch而不提交按钮AngularJS》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Medium Editor中使用链接？

如何解决《如何在MediumEditor中使用链接？》经验，为你挑选了1个好方法。 ... [详细]
程序员
实体框架正在忽略NotMapped属性

如何解决《实体框架正在忽略NotMapped属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
我应该使用CancellationTokenSource还是CancellationToken来取消.NET中的任务

如何解决《我应该使用CancellationTokenSource还是CancellationToken来取消.NET中的任务》经验，为你挑选了0个好方法。 ... [详细]
程序员
GL_COLOR_BUFFER_BIT重新生成哪个内存？

如何解决《GL_COLOR_BUFFER_BIT重新生成哪个内存？》经验，为你挑选了1个好方法。 ... [详细]
程序员
对于什么输入和参数将perl split给出结果(""),如果有的话？

如何解决《对于什么输入和参数将perlsplit给出结果(""),如果有的话？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在UWP中的"Enter"上关闭ContentDialog

如何解决《如何在UWP中的"Enter"上关闭ContentDialog》经验，为你挑选了1个好方法。 ... [详细]
程序员
第一个自制公式,在收集依赖关系和资源后不了解安装过程

如何解决《第一个自制公式,在收集依赖关系和资源后不了解安装过程》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何将过滤器应用于*ngFor？

如何解决《如何将过滤器应用于*ngFor？》经验，为你挑选了7个好方法。 ... [详细]
程序员
Swift是否有任何原生并发和多线程支持？

如何解决《Swift是否有任何原生并发和多线程支持？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Aurelia绑定:反复调用property-getter

如何解决《Aurelia绑定:反复调用property-getter》经验，为你挑选了1个好方法。 ... [详细]

我我檬檬我我186

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章