10赞

尝试开始使用doParallel和foreach但没有改进

作者：k78283381 | 2023-09-11 15:07

如何解决《尝试开始使用doParallel和foreach但没有改进》经验，为你挑选了1个好方法。

我正在尝试使用doParallel和foreach包,但是我使用此处CRANpage中的指南中的bootstrapping示例来降低性能.

library(doParallel)
library(foreach)
registerDoParallel(3)
x <- iris[which(iris[,5] != "setosa"), c(1,5)]
trials <- 10000
ptime <- system.time({
  r <- foreach(icount(trials), .combine=cbind) %dopar% {
    ind <- sample(100, 100, replace=TRUE)
    result1 <- glm(x[ind,2]~x[ind,1], family=binomial(logit))
    coefficients(result1)
    }
  })[3]
ptime

此示例返回56.87.

当我将doparto 更改为仅do按顺序而不是并行运行时,它将返回36.65.

如果我这样做registerDoParallel(6)会将并行时间缩短到42.11但仍然比顺序慢. registerDoParallel(8)变得40.31比连续更糟糕.

如果我增加到trials100,000,那么顺序运行需要417.16和3个工作程序的并行运行597.31.它需要6名工人425.85.

我的系统是

戴尔Optiplex 990

Windows 7专业版64位

16GB RAM

英特尔i-7-2600 3.6GHz四核,具有超线程功能

我在这里做错了吗？如果我做了我能想到的最人为的事情(用计算代码替换Sys.sleep(1)),那么我得到的实际减少量与工人数量成正比.我想知道为什么指南中的例子会降低我的表现,而对他们来说它会加快速度？

1> Steve Weston..：

根本问题是为PSOCK集群的工作者doParallel执行attach每个任务执行,以便将导出的变量添加到包搜索路径.这解决了各种范围问题,但可能会严重影响性能,尤其是对于持续时间较短的任务和大量导出的数据.这种情况在Linux和Mac OS X上不会发生在您的示例中,因为它们将使用mclapply而不是clusterApplyLB,但如果您明确注册PSOCK群集,它将在所有平台上发生.

我相信我已经找到了如何解决在不影响性能不同的方式任务范围界定问题,我与革命分析工作得到修复进入的下一个版本doParallel和doSNOW,其中也有同样的问题.

您可以使用任务分块解决此问题:

ptime2 <- system.time({
  chunks <- getDoParWorkers()
  r <- foreach(n=idiv(trials, chunks=chunks), .combine='cbind') %dopar% {
    y <- lapply(seq_len(n), function(i) {
      ind <- sample(100, 100, replace=TRUE)
      result1 <- glm(x[ind,2]~x[ind,1], family=binomial(logit))
      coefficients(result1)
    })
    do.call('cbind', y)
  }
})[3]

这导致每个工作只有一个任务,因此每个工作只执行attach一次,而不是执行一次trials / 3.它还导致更少但更大的套接字操作,这可以在大多数系统上更有效地执行,但在这种情况下,关键问题是attach.

@DeanMacGregor别担心:我已经联系了他们,特别是因为我发现了真正的潜在问题,并相信我已经解决了这个问题.我现在正在与Revolution合作,在doSNOW和doParallel的下一个版本中修复它.

推荐阅读

程序员
添加动态侦听器数量(Spring JMS)

如何解决《添加动态侦听器数量(SpringJMS)》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在用作函数结果的闭包内应用trait

如何解决《如何在用作函数结果的闭包内应用trait》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Spring MVC中使用Jackson将Map序列化为一对夫妇

如何解决《在SpringMVC中使用Jackson将Map序列化为一对夫妇》经验，为你挑选了1个好方法。 ... [详细]
程序员
jQuery文件上传Basic Plus Ui和i18n

如何解决《jQuery文件上传BasicPlusUi和i18n》经验，为你挑选了1个好方法。 ... [详细]
程序员
从加密方法解密

如何解决《从加密方法解密》经验，为你挑选了1个好方法。 ... [详细]
程序员
InvalidValueError:不是HTMLInputElement的实例

如何解决《InvalidValueError:不是HTMLInputElement的实例》经验，为你挑选了3个好方法。 ... [详细]
程序员
在Android上安装/更新Cordova应用程序时出现错误-505

如何解决《在Android上安装/更新Cordova应用程序时出现错误-505》经验，为你挑选了1个好方法。 ... [详细]
程序员
纯CSS3不断移动滑块

如何解决《纯CSS3不断移动滑块》经验，为你挑选了1个好方法。 ... [详细]
程序员
Xcode:如何导出开发人员配置文件以便在另一台Mac上导入它

如何解决《Xcode:如何导出开发人员配置文件以便在另一台Mac上导入它》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用SQLite.swift批量插入,性能如何？

如何解决《使用SQLite.swift批量插入,性能如何？》经验，为你挑选了0个好方法。 ... [详细]
程序员
某些字段上的PHP Codeigniter批量更新失败

如何解决《某些字段上的PHPCodeigniter批量更新失败》经验，为你挑选了0个好方法。 ... [详细]
程序员
AngularJS NgMessages不隐藏消息

如何解决《AngularJSNgMessages不隐藏消息》经验，为你挑选了1个好方法。 ... [详细]
程序员
gen_server中的错误也会终止调用进程？

如何解决《gen_server中的错误也会终止调用进程？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++在函数参数上传递std :: unique_ptr对象作为引用的正确方法

如何解决《C++在函数参数上传递std::unique_ptr对象作为引用的正确方法》经验，为你挑选了2个好方法。 ... [详细]
程序员
Java：双重打印-println或printf

如何解决《Java：双重打印-println或printf》经验，为你挑选了1个好方法。 ... [详细]
程序员
C# - 是否可以检查哪个可选的正则表达式组匹配？

如何解决《C#-是否可以检查哪个可选的正则表达式组匹配？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将大量索引项转换为流的最简单方法

如何解决《将大量索引项转换为流的最简单方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在UIStackView中具有多个子视图的宽度和高度

如何解决《如何在UIStackView中具有多个子视图的宽度和高度》经验，为你挑选了1个好方法。 ... [详细]
程序员
加载多个YAML文件（使用@ConfigurationProperties吗？）

如何解决《加载多个YAML文件（使用@ConfigurationProperties吗？）》经验，为你挑选了0个好方法。 ... [详细]
程序员
MSBuild在_CopyOutOfDateSourceItemsToOutputDirectory期间复制依赖项目文件

如何解决《MSBuild在_CopyOutOfDateSourceItemsToOutputDirectory期间复制依赖项目文件》经验，为你挑选了0个好方法。 ... [详细]

k78283381

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章