考虑一个基于两个步骤的MPI应用程序,我们称之为load和globalReduce.为了简单起见,软件正在被描述,但还有很多事情要发生,所以它不仅仅是一个Map/Reduce问题.
在加载步骤期间,每个给定节点中的所有排队都排队,以便只有一个排名对该节点的所有内存具有完全访问权限.这种设计的原因在于,在加载阶段,有一组大的IO块被读取,并且它们都需要在可以进行局部缩减之前加载到存储器中.我们将这个局部缩减的结果称为命名变量myRankVector.一旦myRankVector 获得变量,则IO块被释放.变量myRankVector本身使用的内存很少,因此在创建过程中节点可以使用所有内存,完成后排名只需要使用2-3 GB来保存myRankVector.
在节点的globalReduce阶段,预计节点中的所有等级都加载了相应的globalReduce.
所以这是我的问题,虽然我已经确保绝对没有任何内存泄漏(我使用共享指针编程,我用Valgrind进行了双重检查等),我很肯定即使在所有析构函数发布之后堆也会保持扩展IO块.当队列中的下一个排名来完成它的工作时,它开始要求大量内存,就像之前的排名一样,当然程序得到Linux杀死产生"Out of memory:Kill process xxx(xxxxxxxx)得分xxxx或者牺牲孩子".很清楚为什么会出现这种情况,队列中的第二个等级想要使用所有内存,但第一个等级仍然是大堆.
因此,在设置此问题的上下文之后:有没有办法手动减少C++中的堆大小以真正释放未使用的内存?
谢谢.