14赞

大规模机器学习

作者：小妖694_807 | 2023-07-05 18:26

如何解决《大规模机器学习》经验，为你挑选了2个好方法。

我需要在一个大数据集(10-100亿条记录)上运行各种机器学习技术.问题主要是文本挖掘/信息提取,包括各种内核技术但不限于它们(我们使用一些贝叶斯方法,自举,渐变提升,回归树 - 许多不同的问题和解决方法)

什么是最好的实施？我在ML方面经验丰富,但是对于大型数据集没有多少经验.是否有任何可扩展和可定制的机器学习库利用MapReduce基础设施强烈偏好c ++,但Java和python是可以的亚马逊Azure或自己的数据中心(我们可以买得起)？

1> Joel Hoff..：

除非您尝试学习的分类状态空间非常大,否则我认为在以文本挖掘为重点的数据集中存在大量冗余,其中包含10-100亿条记录或训练样本.粗略猜测一下,我怀疑是否需要比1-2%随机样本子集更多的东西来学习可靠的分类器,这些分类器在交叉验证测试中能够很好地保留.

快速文献检索提出了以下相关论文.Tsang论文声称n 个训练样本的时间复杂度为O(n),并且有与之相关的软件可用作LibCVM工具包.Wolfe论文描述了一种基于MapReduce的分布式EM方法.

最后,在NIPS 2009大会上有一个大型机器学习研讨会,看起来有很多有趣和相关的演示.

参考

Ivor W. Tsang,James T. Kwok,Pak-Ming Cheung(2005)." 核心矢量机:超大型数据集上的快速SVM训练 ",机器学习研究期刊,第6卷,第363-392页.

J Wolfe,A Haghighi,D Klein(2008)." 全分布式EM为大型数据集 ",机器学习,第1184至1191年的第25届国际会议论文集.

Olivier Camp,Joaquim BL Filipe,Slimane Hammoudi和Mario Piattini(2005)." 使用支持向量机算法挖掘非常大的数据集 ",企业信息系统V,Springer Netherlands,第177-184页.

2> Mikos..：

Apache Mahout是您正在寻找的.

推荐阅读

程序员
如何使用放大/缩小sigma.js添加背景图像

如何解决《如何使用放大/缩小sigma.js添加背景图像》经验，为你挑选了0个好方法。 ... [详细]
程序员
html,css - 如何使用display:inline-block

如何解决《html,css-如何使用display:inline-block》经验，为你挑选了1个好方法。 ... [详细]
程序员
将PDF转换为PDF / A3或PDF / A-1转换为PDF / A-3

如何解决《将PDF转换为PDF/A3或PDF/A-1转换为PDF/A-3》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Intellij 15.02中设置线路断点不起作用

如何解决《在Intellij15.02中设置线路断点不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
在悬停时更改列表项目项目符号/数字颜色

如何解决《在悬停时更改列表项目项目符号/数字颜色》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何配置pm2以运行hexo？

如何解决《如何配置pm2以运行hexo？》经验，为你挑选了0个好方法。 ... [详细]
程序员
PL/SQL转换特殊字符

如何解决《PL/SQL转换特殊字符》经验，为你挑选了0个好方法。 ... [详细]
程序员
封装和封闭有什么区别？

如何解决《封装和封闭有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
python - 将字符串与布尔值进行比较

如何解决《python-将字符串与布尔值进行比较》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何更改redshift列编码？

如何解决《如何更改redshift列编码？》经验，为你挑选了2个好方法。 ... [详细]
程序员
将时间转换为秒字符串问题

如何解决《将时间转换为秒字符串问题》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用"npm install"安装jquery-ui

如何解决《使用"npminstall"安装jquery-ui》经验，为你挑选了2个好方法。 ... [详细]
程序员
字符串数组上的Java 8流

如何解决《字符串数组上的Java8流》经验，为你挑选了2个好方法。 ... [详细]
程序员
makefile中%和*之间的区别是什么

如何解决《makefile中%和*之间的区别是什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将参数传递给静态类构造函数？

如何解决《如何将参数传递给静态类构造函数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
构造函数java中的final double

如何解决《构造函数java中的finaldouble》经验，为你挑选了1个好方法。 ... [详细]
程序员
Angular2如何获取所有选中的复选框

如何解决《Angular2如何获取所有选中的复选框》经验，为你挑选了1个好方法。 ... [详细]
程序员
合并两个列表c ++

如何解决《合并两个列表c++》经验，为你挑选了2个好方法。 ... [详细]
程序员
如果字段顺序不同,则Struct具有不同的大小

如何解决《如果字段顺序不同,则Struct具有不同的大小》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从golang中的sql解析*time.Time？

如何解决《如何从golang中的sql解析*time.Time？》经验，为你挑选了1个好方法。 ... [详细]

小妖694_807

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章