解析每行上多个(15+)正则表达式的文本正文的最佳方法是什么？

作者：重庆制造漫画社 | 2023-09-02 17:33

如何解决《解析每行上多个(15+)正则表达式的文本正文的最佳方法是什么？》经验，为你挑选了1个好方法。

我有一个我必须扫描的文本正文,每行包含至少2个,有时是4个部分的信息.问题是每行可以是15-20个不同动作中的1个.

在ruby中,当前代码看起来有点像这样:

text.split("\n").each do |line|  #around 20 times..

..............

      expressions['actions'].each do |pat, reg| #around 20 times

.................

这显然是"问题".通过将所有regexen合并为一个,我确实设法让它更快(在C++中以50%的利润率),但这仍然不是我需要的速度 - 我需要快速解析数千个这些文件!

现在我将它们与正则表达式匹配 - 但这是无法忍受的缓慢.我开始使用ruby并跳到C++,希望我能获得速度提升而且它不会发生.

我随便读了关于PEG和基于语法的解析但看起来有点难以实现.这是我应该走的方向还是有不同的路线？

基本上我正在解析扑克手牌历史,手牌历史的每一行通常都包含我需要收集的2-3位信息:玩家是谁,多少钱或者动作需要什么牌......等等.

需要解析的示例文本:

buriedtens posts $5
The button is in seat #4
*** HOLE CARDS ***
Dealt to Mayhem 31337 [8s Ad]
Sherwin7 folds
OneMiKeee folds
syhg99 calls $5
buriedtens raises to $10

收集此信息后,每个操作都会转换为xml节点.

现在我的ruby实现比我的C++快得多,但这是可能的.只是因为我没有用c代码写了超过4 - 5年

更新: 我不想在这里发布所有代码,但到目前为止我的手/秒看起来如下:

588 hands/second -- boost::spirit in c++
60 hands/second -- 1 very long and complicated regex in c++ (all the regexen put together)
33 hands/second -- normal regex style in ruby

我正在测试antlr,看看我们是否可以继续进行,但是现在我对精神的结果非常满意.

相关问题:针对多个正则表达式有效查询一个字符串.

1> call me Stev..：

我会建议

提升精神或

如果语法很复杂,那就是Antlr ;

如果它更简单一点,那就是Xpressive

Tokenizer和手工编写的代码,如果它是微不足道的.

祝好运

推荐阅读

程序员
如何在Typescript中实现JS函数指针

如何解决《如何在Typescript中实现JS函数指针》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Dropwizard读取JSON请求体

如何解决《如何使用Dropwizard读取JSON请求体》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python .csv编写器留空行

如何解决《Python.csv编写器留空行》经验，为你挑选了1个好方法。 ... [详细]
程序员
用cefsharp winforms下载文件

如何解决《用cefsharpwinforms下载文件》经验，为你挑选了3个好方法。 ... [详细]
程序员
使用正则表达式提取括号中的数字

如何解决《使用正则表达式提取括号中的数字》经验，为你挑选了0个好方法。 ... [详细]
程序员
Python更改数组中的元素

如何解决《Python更改数组中的元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么在DOMContentLoaded之前发生First Paint

如何解决《为什么在DOMContentLoaded之前发生FirstPaint》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么我的three.js场景中的聚光灯仍然在相机视角中居中,但仅限于Chrome for Android？

如何解决《为什么我的three.js场景中的聚光灯仍然在相机视角中居中,但仅限于ChromeforAndroid？》经验，为你挑选了1个好方法。 ... [详细]
程序员
有两种颜色的文字

如何解决《有两种颜色的文字》经验，为你挑选了5个好方法。 ... [详细]
程序员
使用JQuery检查父节中是否存在具有特定数据属性的子div

如何解决《使用JQuery检查父节中是否存在具有特定数据属性的子div》经验，为你挑选了1个好方法。 ... [详细]
程序员
端口"COM11"不存在.指定的端口未打开

如何解决《端口"COM11"不存在.指定的端口未打开》经验，为你挑选了1个好方法。 ... [详细]
程序员
加快Chrome应用开发流程

如何解决《加快Chrome应用开发流程》经验，为你挑选了1个好方法。 ... [详细]
程序员
Angular 2 - 相当于路由器解析新路由器的数据

如何解决《Angular2-相当于路由器解析新路由器的数据》经验，为你挑选了2个好方法。 ... [详细]
程序员
自动将Amazon AWS从micro升级到Medium

如何解决《自动将AmazonAWS从micro升级到Medium》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何以特定格式将日期和时间插入SQL Server数据库？

如何解决《如何以特定格式将日期和时间插入SQLServer数据库？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将哈希密码插入数据库？

如何解决《如何将哈希密码插入数据库？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Class.getConstructors()在Java中返回的数组顺序如何

如何解决《Class.getConstructors()在Java中返回的数组顺序如何》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用bootstrap使图像响应而不占用整个分区的宽度？

如何解决《如何使用bootstrap使图像响应而不占用整个分区的宽度？》经验，为你挑选了1个好方法。 ... [详细]
程序员
从运算符T&()中推导出const

如何解决《从运算符T&()中推导出const》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么CSS绝对不能用于静态父级？

如何解决《为什么CSS绝对不能用于静态父级？》经验，为你挑选了2个好方法。 ... [详细]

重庆制造漫画社

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章