3赞

在数据表中分割长度可变的字符串

作者：低调pasta_730 | 2023-09-07 15:29

如何解决《在数据表中分割长度可变的字符串》经验，为你挑选了1个好方法。

我想根据另一列中的一部分字符串创建一个列。

参考列遵循以下通用格式：GB / 12月31日

在这种情况下，我想提取单词“ Ling”，并且长度不一。

到目前为止，我的方法是：

library(data.table)
d1 <- data.table(MENU_HINT = 
                 c("GB / Ling 31st Dec", "GB / Taun 30th Dec", 
                   "GB / Ayr 19th Dec", "GB / Ayr 9th Nov", 
                   "GB / ChelmC 29th Sep"), 
             Track = c("Ling", "Taun", "Ayr", "Ayr", "ChelmC"))

#remove all the spaces
d1[, Track2 := gsub("[[:space:]]", "", MENU_HINT)]

# get the position of the first digit
d1[, x := as.numeric(regexpr("[[:digit:]]", Track2)[[1]])]

# get the position of the '/'
d1[, y := as.numeric(regexpr("/", Track2))[[1]]]

# use above to extract the Track
d1[, Track2 := substr(Track2, y + 1, x - 1)]

Track是我期望得到的，Track2是我从上面的代码中得到的。

这似乎很麻烦，而且似乎也不起作用，因为x和y值在整个列中都相同。

1> David Arenbu..：

我不会为此使用正则表达式-对于大数据集来说效率不高。您所寻找的词似乎总是位于第二个空格之后。一个非常简单有效的解决方案是

d1[, Track2 := tstrsplit(MENU_HINT, " ", fixed = TRUE)[[3]]]

基准测试

bigDT <- data.table(MENU_HINT = sample(d1$MENU_HINT, 1e6, replace = TRUE))
microbenchmark::microbenchmark("sub: " = sub("\\S+[[:punct:] ]+(\\S+).*", "\\1", bigDT$MENU_HINT),
                               "gsub: " = gsub("^[^/]+/\\s*|\\s+.*$", "", bigDT$MENU_HINT),
                               "tstrsplit: " = tstrsplit(bigDT$MENU_HINT, " ", fixed = TRUE)[[3]])
# Unit: milliseconds
#        expr       min        lq      mean    median        uq      max neval
#       sub:   982.1185  998.6264 1058.1576 1025.8775 1083.1613 1405.051   100
#      gsub:  1236.9453 1262.6014 1320.4436 1305.6711 1339.2879 1766.027   100
# tstrsplit:   385.4785  452.6476  498.8681  470.8281  537.5499 1044.691   100

推荐阅读

程序员
逻辑错误,在Tic Tac Toe中检查获胜者

如何解决《逻辑错误,在TicTacToe中检查获胜者》经验，为你挑选了0个好方法。 ... [详细]
程序员
逐行打印python列表中的列表

如何解决《逐行打印python列表中的列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
在GameScene中显示UIAlertController(SpriteKit/Swift)

如何解决《在GameScene中显示UIAlertController(SpriteKit/Swift)》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Aurelia中将自定义元素替换为模板本身(而不是将其包含在自定义元素中)？

如何解决《在Aurelia中将自定义元素替换为模板本身(而不是将其包含在自定义元素中)？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spring Boot @autowired不起作用,类在不同的包中

如何解决《SpringBoot@autowired不起作用,类在不同的包中》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在C++中实现指向成员函数的指针？

如何解决《如何在C++中实现指向成员函数的指针？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java得到一个double的前2个十进制数字

如何解决《Java得到一个double的前2个十进制数字》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么jquery-ajax多次提交表单？

如何解决《为什么jquery-ajax多次提交表单？》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么我可以在不写可选标记的情况下声明变量？

如何解决《为什么我可以在不写可选标记的情况下声明变量？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用CMAKE构建GLFW3应用程序 - GLFW_LIBRARIES没有设置

如何解决《使用CMAKE构建GLFW3应用程序-GLFW_LIBRARIES没有设置》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android - 尝试添加图像时会创建一个空白图像

如何解决《Android-尝试添加图像时会创建一个空白图像》经验，为你挑选了1个好方法。 ... [详细]
程序员
Fb.api('/我在哪里可以找到可用参数列表

如何解决《Fb.api('/我在哪里可以找到可用参数列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
当目标与数组聚合时,完美转发失败

如何解决《当目标与数组聚合时,完美转发失败》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么EnumSet不是SortedSet

如何解决《为什么EnumSet不是SortedSet》经验，为你挑选了0个好方法。 ... [详细]
程序员
PHP中的array_replace和array_merge之间的差异

如何解决《PHP中的array_replace和array_merge之间的差异》经验，为你挑选了2个好方法。 ... [详细]
程序员
Python-获取调用函数的完整文件路径？

如何解决《Python-获取调用函数的完整文件路径？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何回滚JPA中的一系列persistent语句？

如何解决《如何回滚JPA中的一系列persistent语句？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Rails:在JavaScript中捕获错误消息

如何解决《Rails:在JavaScript中捕获错误消息》经验，为你挑选了1个好方法。 ... [详细]
程序员
将numpy二维数组转换为列表

如何解决《将numpy二维数组转换为列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
还有另一个地方可以获得google-services.json吗？

如何解决《还有另一个地方可以获得google-services.json吗？》经验，为你挑选了2个好方法。 ... [详细]

低调pasta_730

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章