8赞

使用class.ind()从整数因子中溢出整数？

作者：无名有名我无名_593 | 2023-09-09 18:05

如何解决《使用class.ind()从整数因子中溢出整数？》经验，为你挑选了1个好方法。

我试图将一个"大"因子转换为R中的一组指标(即虚拟,二元,标志)变量:

FLN <- data.frame(nnet::class.ind(FinelineNumber))

这里FinelineNumber是从Kaggle.com目前沃尔玛大赛5000级因子(该数据是公开的,如果你想重现此错误).

我一直得到这个看起来很有意思的警告:

In n * (unclass(cl) - 1L) : NAs produced by integer overflow

系统可用的内存基本上是无限的.我不确定问题是什么.

1> Ben Bolker..：

源代码nnet::class.ind是:

function (cl)     {
    n <- length(cl)
    cl <- as.factor(cl)
    x <- matrix(0, n, length(levels(cl)))
    x[(1L:n) + n * (unclass(cl) - 1L)] <- 1
    dimnames(x) <- list(names(cl), levels(cl))
    x
}

.Machine$integer.max是2147483647.如果n*(nlevels - 1L)大于此值,则应产生错误.解决n:

imax <- .Machine$integer.max
nlevels <- 5000
imax/(nlevels-1L)
## [1] 429582.6

如果您有429583或更多行(对于数据挖掘上下文而言不是特别大),您将遇到此问题.如上评论,你会做很多更好Matrix::sparse.model.matrix(或Matrix::fac2sparse),如果你的建模框架可以处理稀疏矩阵.或者,你必须重写class.ind以避免这个瓶颈(即按行和列而不是绝对位置进行索引)[@joran注释上面的R通过双精度值索引大向量,所以你可能能够逃脱只是黑客攻击

x[(1:n) + n * (unclass(cl) - 1)] <- 1

可能在as.numeric()这里或那里明确地强迫强制加倍...]

即使您能够完成此步骤,您最终也会获得5000*650000矩阵 - 看起来这将是12Gb.

 print(650*object.size(matrix(1L,5000,1000)),units="Gb")

我想如果你有100Gb免费可以没问题......

非常感谢; 好答案.我认为@ user20650指的是`Matrix`中的`fac2sparse`函数,所以我尝试了它而不是`sparse.model.matrix`,它也运行得很好.

推荐阅读

程序员
IOS发布图像 - 让我发疯

如何解决《IOS发布图像-让我发疯》经验，为你挑选了5个好方法。 ... [详细]
程序员
iOS,ld:框架找不到架构arm64的GoogleMaps

如何解决《iOS,ld:框架找不到架构arm64的GoogleMaps》经验，为你挑选了0个好方法。 ... [详细]
程序员
Swift数组和字典性能,removeAll()vs新实例

如何解决《Swift数组和字典性能,removeAll()vs新实例》经验，为你挑选了1个好方法。 ... [详细]
程序员
GDB进入断点时抛出错误

如何解决《GDB进入断点时抛出错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
在模拟方法(Moq)中更改参考参数的值

如何解决《在模拟方法(Moq)中更改参考参数的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ionic:模拟器:错误:这个AVD的配置缺少一个内核文件!模拟器:错误:ANDROID_SDK_ROOT未定义

如何解决《Ionic:模拟器:错误:这个AVD的配置缺少一个内核文件!模拟器:错误:ANDROID_SDK_ROOT未定义》经验，为你挑选了1个好方法。 ... [详细]
程序员
Kotlin flatMap - 地图

如何解决《KotlinflatMap-地图》经验，为你挑选了0个好方法。 ... [详细]
程序员
Phoenix Ecto如何处理NoResultsError

如何解决《PhoenixEcto如何处理NoResultsError》经验，为你挑选了1个好方法。 ... [详细]
程序员
删除列表中第一项的函数(Python)

如何解决《删除列表中第一项的函数(Python)》经验，为你挑选了1个好方法。 ... [详细]
程序员
凤凰在哪里defimpl Plug.Exception

如何解决《凤凰在哪里defimplPlug.Exception》经验，为你挑选了1个好方法。 ... [详细]
程序员
numpy轮廓：TypeError：输入z必须是2D数组

如何解决《numpy轮廓：TypeError：输入z必须是2D数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Jest测试React componentWillUnmount

如何解决《使用Jest测试ReactcomponentWillUnmount》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何使用Jasmine监视通过ES6默认导出导入的函数？

如何解决《如何使用Jasmine监视通过ES6默认导出导入的函数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Windows上安装igraph for python

如何解决《如何在Windows上安装igraphforpython》经验，为你挑选了1个好方法。 ... [详细]
程序员
试图将R中的岩石,纸张,剪刀游戏随机化

如何解决《试图将R中的岩石,纸张,剪刀游戏随机化》经验，为你挑选了3个好方法。 ... [详细]
程序员
Ramda.js:要列出的参数

如何解决《Ramda.js:要列出的参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
防止在OS X中启动时出现iCloud打开文件对话框

如何解决《防止在OSX中启动时出现iCloud打开文件对话框》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Swift中使用Map来更改自定义结构属性

如何解决《在Swift中使用Map来更改自定义结构属性》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何从npm运行的bash脚本中打印$ 2 BEFORE？

如何解决《如何从npm运行的bash脚本中打印$2BEFORE？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Kubernetes kubelet原木在哪里？

如何解决《Kuberneteskubelet原木在哪里？》经验，为你挑选了2个好方法。 ... [详细]

无名有名我无名_593

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章