removeWords无效

作者：mylvfamily | 2023-09-11 14:09

如何解决《removeWords无效》经验，为你挑选了1个好方法。

我想在这里找到一个危险数据集的wordcloud:https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

我的代码如下:

library(tm)
library(SnowballC)
library(wordcloud)

jeopQ <- read.csv('JEOPARDY_CSV.csv', stringsAsFactors = FALSE)

jeopCorpus <- Corpus(VectorSource(jeopQ$Question))
jeopCorpus <- tm_map(jeopCorpus, PlainTextDocument)
jeopCorpus <- tm_map(jeopCorpus, removePunctuation)
jeopCorpus <- tm_map(jeopCorpus, removeWords, c('the', 'this', stopwords('english')))
jeopCorpus <- tm_map(jeopCorpus, stemDocument)

wordcloud(jeopCorpus, max.words = 100, random.order = FALSE)

单词'the'和'this'仍出现在wordcloud中.为什么会发生这种情况,我该如何解决？

1> phiver..：

问题在于您没有执行小写操作.很多问题都以"The"开头.停用词都是小写的,例如"the"和"this".由于"The"!="the","The"它不会从语料库中删除

如果您使用下面的代码,它应该正常工作:

jeopCorpus <- tm_map(jeopCorpus, content_transformer(tolower))
jeopCorpus <- tm_map(jeopCorpus, removeWords, stopwords('english'))
jeopCorpus <- tm_map(jeopCorpus, removePunctuation)
jeopCorpus <- tm_map(jeopCorpus, PlainTextDocument)
jeopCorpus <- tm_map(jeopCorpus, stemDocument)

wordcloud(jeopCorpus, max.words = 100, random.order = FALSE)

推荐阅读

程序员
滚动条不适用于JPane内的JScrollPanel

如何解决《滚动条不适用于JPane内的JScrollPanel》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何计算给定排列的词典排名

如何解决《如何计算给定排列的词典排名》经验，为你挑选了1个好方法。 ... [详细]
程序员
具有相同表数据的实体

如何解决《具有相同表数据的实体》经验，为你挑选了1个好方法。 ... [详细]
程序员
Aurelia插件和功能有什么区别？

如何解决《Aurelia插件和功能有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android:Realm + Retrofit 2 + Gson

如何解决《Android:Realm+Retrofit2+Gson》经验，为你挑选了1个好方法。 ... [详细]
程序员
将Enum.GetName(...)合并到Linq Query中

如何解决《将Enum.GetName()合并到LinqQuery中》经验，为你挑选了1个好方法。 ... [详细]
程序员
Google Cloud Messaging Group行为

如何解决《GoogleCloudMessagingGroup行为》经验，为你挑选了0个好方法。 ... [详细]
程序员
在TensorFlow中显示图表的图像？

如何解决《在TensorFlow中显示图表的图像？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Python 3.5类型提示动态生成的实例属性

如何解决《Python3.5类型提示动态生成的实例属性》经验，为你挑选了0个好方法。 ... [详细]
程序员
隐藏Python脚本中的登录凭据

如何解决《隐藏Python脚本中的登录凭据》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用r package xlsx删除Excel中的工作表

如何解决《使用rpackagexlsx删除Excel中的工作表》经验，为你挑选了1个好方法。 ... [详细]
程序员
用ggplot2中的geom_smooth绘制虚线回归线

如何解决《用ggplot2中的geom_smooth绘制虚线回归线》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有办法在symfony2中向多个路径添加违规？

如何解决《有没有办法在symfony2中向多个路径添加违规？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何将IEnumerable <？>转换为IEnumerable <string>？

如何解决《如何将IEnumerable<？>转换为IEnumerable<string>？》经验，为你挑选了1个好方法。 ... [详细]
程序员
查找具有格式不佳的结束标记的特定HTML标记

如何解决《查找具有格式不佳的结束标记的特定HTML标记》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何修复“找不到GLEW（丢失：GLEW_INCLUDE_DIR GLEW_LIBRARY）”

如何解决《如何修复“找不到GLEW（丢失：GLEW_INCLUDE_DIRGLEW_LIBRARY）”》经验，为你挑选了1个好方法。 ... [详细]
程序员
VideoView不在RecyclerView中播放视频或音频

如何解决《VideoView不在RecyclerView中播放视频或音频》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用C++ strtk导致xutility错误C4996

如何解决《使用C++strtk导致xutility错误C4996》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何跳过if语句转到下一个if语句

如何解决《如何跳过if语句转到下一个if语句》经验，为你挑选了1个好方法。 ... [详细]
程序员
Gradle依赖树,(*)是什么意思？

如何解决《Gradle依赖树,(*)是什么意思？》经验，为你挑选了1个好方法。 ... [详细]

mylvfamily

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章