文本挖掘 - 如果内容位于另一个单元格中,则删除内容

作者：谢谢巷议 | 2023-09-07 08:08

如何解决《文本挖掘-如果内容位于另一个单元格中,则删除内容》经验，为你挑选了1个好方法。

我有一个包含单元格中文本的大型数据集.有些文本只是之前的附加单元格,除非日期不同,否则我不想在我的分析中包含它.这是它的样子的一个例子:

10-01-17 | 你好你好吗？

10-01-17 | 你好你好吗？哦,我很好.

11-01-17 | 你好你好吗？哦,我很好.今天天气很好.

如果1在2中,如果日期相同,我想删除1.如果2在3中,则仅在日期相同时删除2.我想要保留的唯一内容是两个和三个.

1> alistaire..：

您可以grepl在整个列上使用每个观察作为模式.如果得到的布尔向量的总和大于1,则该行匹配的比自身多,并且是重复的.

df[mapply(function(d, t) {
    sum(grepl(t, df$text, fixed = TRUE) & d == df$date) == 1
}, df$date, df$text), ]

##       date                                                            text
## 2 10-01-17                             Hi, how are you? Oh, I'm just fine.
## 3 11-01-17  Hi, how are you? Oh, I'm just fine. The weather is nice today.

或者在dplyr中,

library(dplyr)

df %>% rowwise() %>% filter(sum(grepl(text, .$text, fixed = TRUE) & date == .$date) == 1)

## Source: local data frame [2 x 2]
## Groups: 
## 
## # A tibble: 2 × 2
##       date                                                            text
##                                                                 
## 1 10-01-17                             Hi, how are you? Oh, I'm just fine.
## 2 11-01-17  Hi, how are you? Oh, I'm just fine. The weather is nice today.

数据

df <- structure(list(date = c("10-01-17", "10-01-17", "11-01-17"
    ), text = c("Hi, how are you?", "Hi, how are you? Oh, I'm just fine.", 
    "Hi, how are you? Oh, I'm just fine. The weather is nice today."
    )), class = "data.frame", row.names = c(NA, -3L), .Names = c("date", "text"))

推荐阅读

程序员
使用less.js获取更少的变量列表

如何解决《使用less.js获取更少的变量列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
Tomcat 8上的AntiResourceLocking

如何解决《Tomcat8上的AntiResourceLocking》经验，为你挑选了1个好方法。 ... [详细]
程序员
我的SQL SELECT查询有什么问题？

如何解决《我的SQLSELECT查询有什么问题？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Oracle从类型号数组中获取distict值

如何解决《Oracle从类型号数组中获取distict值》经验，为你挑选了1个好方法。 ... [详细]
程序员
每次符号在值列表中更改时计算差异

如何解决《每次符号在值列表中更改时计算差异》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Javascript中使用reduce来对空数组和非空数组求和

如何解决《在Javascript中使用reduce来对空数组和非空数组求和》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么preg_match会返回一些空元素？

如何解决《为什么preg_match会返回一些空元素？》经验，为你挑选了0个好方法。 ... [详细]
程序员
不幸的是,相机已停止

如何解决《不幸的是,相机已停止》经验，为你挑选了1个好方法。 ... [详细]
程序员
展开/折叠动画:小滞后|| MeasureSpec返回错误的值

如何解决《展开/折叠动画:小滞后||MeasureSpec返回错误的值》经验，为你挑选了0个好方法。 ... [详细]
程序员
转换为十进制并执行OrderBy

如何解决《转换为十进制并执行OrderBy》经验，为你挑选了0个好方法。 ... [详细]
程序员
在c#中捕获鼠标单击事件

如何解决《在c#中捕获鼠标单击事件》经验，为你挑选了1个好方法。 ... [详细]
程序员
Exchange FindItem使用一组商品ID和多个商品ID的不同属性集进行响应

如何解决《ExchangeFindItem使用一组商品ID和多个商品ID的不同属性集进行响应》经验，为你挑选了0个好方法。 ... [详细]
程序员
在整个应用程序中禁用UITextField的自动更正

如何解决《在整个应用程序中禁用UITextField的自动更正》经验，为你挑选了0个好方法。 ... [详细]
程序员
终端&&非终端递归调用

如何解决《终端&&非终端递归调用》经验，为你挑选了1个好方法。 ... [详细]
程序员
WebGL中多个绘制缓冲区上的readPixels

如何解决《WebGL中多个绘制缓冲区上的readPixels》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在我的函数场景中使用标签Cucumber.js？

如何解决《如何在我的函数场景中使用标签Cucumber.js？》经验，为你挑选了0个好方法。 ... [详细]
程序员
重新排序列表以最大化相邻元素的差异

如何解决《重新排序列表以最大化相邻元素的差异》经验，为你挑选了0个好方法。 ... [详细]
程序员
Flexbox和溢出隐藏不正常

如何解决《Flexbox和溢出隐藏不正常》经验，为你挑选了1个好方法。 ... [详细]
程序员
Bootstrap 3.x:点击模态触发器后如何更改网址？

如何解决《Bootstrap3.x:点击模态触发器后如何更改网址？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Salesforce中获取{“ error”：“ invalid_grant”，“ error_description”：“身份验证失败”}？

如何解决《在Salesforce中获取{“error”：“invalid_grant”，“error_description”：“身份验证失败”}？》经验，为你挑选了1个好方法。 ... [详细]

谢谢巷议

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章