16赞

需要帮助使用map Hadoop MapReduce实现此算法

作者：大大炮 | 2023-07-08 14:28

如何解决《需要帮助使用mapHadoopMapReduce实现此算法》经验，为你挑选了0个好方法。

我有算法,将通过一个大型数据集读取一些文本文件,并搜索这些行中的特定术语.我用Java实现它,但我不想发布代码,所以它看起来我不是在寻找有人为我实现它,但它确实需要很多帮助!这不是我的项目计划,但数据集是巨大的,所以老师告诉我,我必须这样做.

编辑(我没有澄清我的previos版本)我的数据集是在Hadoop集群上,我应该使其MapReduce实现

我正在阅读有关MapReduce的内容,并且认为我首先执行标准实现,然后使用mapreduce执行此操作会更容易/更简单.但是没有发生,因为算法非常愚蠢而且没什么特别的,而且地图缩小了......我无法将它包裹起来.

所以这里是我算法的伪代码

LIST termList   (there is method that creates this list from lucene index)
FOLDER topFolder

INPUT topFolder
IF it is folder and not empty
    list files (there are 30 sub folders inside)
    FOR EACH sub folder
        GET file "CheckedFile.txt"
        analyze(CheckedFile)
    ENDFOR
END IF


Method ANALYZE(CheckedFile)

read CheckedFile
WHILE CheckedFile has next line
    GET line
    FOR(loops through termList)
            GET third word from line
          IF third word = term from list
        append whole line to string buffer
    ENDIF
ENDFOR
END WHILE
OUTPUT string buffer to file

另外,正如您所看到的,每次调用"analyze"时,都必须创建新文件,我知道map reduce很难写入多个输出???

我理解mapreduce直觉,我的例子似乎非常适合mapreduce,但是当谈到这样做时,显然我不够了,我很生气!

请帮忙.

推荐阅读

程序员
在MongoDB中查找具有字符串ID数组的文档

如何解决《在MongoDB中查找具有字符串ID数组的文档》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Jackson序列化UUID集

如何解决《使用Jackson序列化UUID集》经验，为你挑选了1个好方法。 ... [详细]
程序员
错误:[$ compile:nonassign]与指令'uibTab'一起使用的表达式是不可赋值的

如何解决《错误:[$compile:nonassign]与指令'uibTab'一起使用的表达式是不可赋值的》经验，为你挑选了1个好方法。 ... [详细]
程序员
GCC没有工作,但G ++确实如此

如何解决《GCC没有工作,但G++确实如此》经验，为你挑选了0个好方法。 ... [详细]
程序员
在TensorFlow中使用矩阵乘法函数

如何解决《在TensorFlow中使用矩阵乘法函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
Pycharm Community Edition:"无法显示帧变量"

如何解决《PycharmCommunityEdition:"无法显示帧变量"》经验，为你挑选了0个好方法。 ... [详细]
程序员
搜索2d阵列中最大的空间

如何解决《搜索2d阵列中最大的空间》经验，为你挑选了1个好方法。 ... [详细]
程序员
css3列和溢出隐藏

如何解决《css3列和溢出隐藏》经验，为你挑选了0个好方法。 ... [详细]
程序员
水平UICollectionView单行布局

如何解决《水平UICollectionView单行布局》经验，为你挑选了0个好方法。 ... [详细]
程序员
SQL:选择具有相同单词的字符串

如何解决《SQL:选择具有相同单词的字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Action Listener获取JButton的文本

如何解决《使用ActionListener获取JButton的文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
将变量传递给嵌套的Handlebars模板/部分

如何解决《将变量传递给嵌套的Handlebars模板/部分》经验，为你挑选了1个好方法。 ... [详细]
程序员
SBT插件在非托管jar文件中

如何解决《SBT插件在非托管jar文件中》经验，为你挑选了1个好方法。 ... [详细]
程序员
设置onSeekBarChangeListener会导致null对象异常

如何解决《设置onSeekBarChangeListener会导致null对象异常》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Lisp中格式化REPL输出的数字精度？

如何解决《如何在Lisp中格式化REPL输出的数字精度？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在python中读取/写出字典到csv文件

如何解决《在python中读取/写出字典到csv文件》经验，为你挑选了2个好方法。 ... [详细]
程序员
Ngnix - FastCGI在stderr中发送:"PHP消息:PHP注意:未定义的变量

如何解决《Ngnix-FastCGI在stderr中发送:"PHP消息:PHP注意:未定义的变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
用枚举编写JSON键

如何解决《用枚举编写JSON键》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有办法如何在"prestart"npm脚本中自动运行"nvm use"？

如何解决《有没有办法如何在"prestart"npm脚本中自动运行"nvmuse"？》经验，为你挑选了1个好方法。 ... [详细]
程序员
格式化perl正则表达式捕获组

如何解决《格式化perl正则表达式捕获组》经验，为你挑选了1个好方法。 ... [详细]

大大炮

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章