共享GPU上的Tensorflow:如何自动选择未使用的GPU

作者：和谐啄木鸟 | 2023-09-07 13:06

如何解决《共享GPU上的Tensorflow:如何自动选择未使用的GPU》经验，为你挑选了2个好方法。

我可以通过ssh访问n个集群的GPU.Tensorflow自动给它们命名为gpu:0,...,gpu:(n-1).

其他人也可以访问,有时他们会随机访问gpus.我没有任何tf.device()明确的说明,因为这很麻烦,即使我选择了gpu编号j,并且有人已经在gpu编号j上会有问题.

我想通过gpus使用,找到第一个未使用的,只使用这个.我猜有人可以nvidia-smi用bash 解析输出并获得变量i并将该变量i作为要使用的gpu的数量提供给tensorflow脚本.

我从未见过这样的例子.我想这是一个非常普遍的问题.最简单的方法是什么？是一个纯粹的张量流可用吗？

1> Yaroslav Bul..：

我不知道纯TensorFlow解决方案.问题是TensorFlow配置的现有位置是会话配置.但是,对于GPU内存,GPU内存池是为进程内的所有TensorFlow会话共享的,因此Session配置将是添加它的错误位置,并且没有进程全局配置的机制(但是应该也是如此)能够配置进程全局特征线程池).因此,您需要使用CUDA_VISIBLE_DEVICES环境变量在进程级别上进行操作.

像这样的东西:

import subprocess, re

# Nvidia-smi GPU memory parsing.
# Tested on nvidia-smi 370.23

def run_command(cmd):
    """Run command, return output as string."""
    output = subprocess.Popen(cmd, stdout=subprocess.PIPE, shell=True).communicate()[0]
    return output.decode("ascii")

def list_available_gpus():
    """Returns list of available GPU ids."""
    output = run_command("nvidia-smi -L")
    # lines of the form GPU 0: TITAN X
    gpu_regex = re.compile(r"GPU (?P\d+):")
    result = []
    for line in output.strip().split("\n"):
        m = gpu_regex.match(line)
        assert m, "Couldnt parse "+line
        result.append(int(m.group("gpu_id")))
    return result

def gpu_memory_map():
    """Returns map of GPU id to memory allocated on that GPU."""

    output = run_command("nvidia-smi")
    gpu_output = output[output.find("GPU Memory"):]
    # lines of the form
    # |    0      8734    C   python                                       11705MiB |
    memory_regex = re.compile(r"[|]\s+?(?P\d+)\D+?(?P\d+).+[ ](?P\d+)MiB")
    rows = gpu_output.split("\n")
    result = {gpu_id: 0 for gpu_id in list_available_gpus()}
    for row in gpu_output.split("\n"):
        m = memory_regex.search(row)
        if not m:
            continue
        gpu_id = int(m.group("gpu_id"))
        gpu_memory = int(m.group("gpu_memory"))
        result[gpu_id] += gpu_memory
    return result

def pick_gpu_lowest_memory():
    """Returns GPU with the least allocated memory"""

    memory_gpu_map = [(memory, gpu_id) for (gpu_id, memory) in gpu_memory_map().items()]
    best_memory, best_gpu = sorted(memory_gpu_map)[0]
    return best_gpu

然后,您可以utils.py在首次tensorflow导入之前将其放入TensorFlow脚本中并设置GPU .IE

import utils
import os
os.environ["CUDA_VISIBLE_DEVICES"] = str(utils.pick_gpu_lowest_memory())
import tensorflow

因此，显然，“ nvidia-smi”可以在某些情况下提供不匹配的设备编号，看来您必须将其“ lspci”组合起来才能获得正确的编号，如[152]中所述（https://github.com/tensorflow/ tensorflow /问题/ 152＃issuecomment-273555972）

2> Trisolorians..：

可以在https://github.com/bamos/setGPU上获得与Yaroslav Bulatov解决方案类似的实现。

推荐阅读

程序员
与填充的传单边界

如何解决《与填充的传单边界》经验，为你挑选了1个好方法。 ... [详细]
程序员
EMV离线批准/拒绝

如何解决《EMV离线批准/拒绝》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何测试ViewController的Deinit

如何解决《如何测试ViewController的Deinit》经验，为你挑选了0个好方法。 ... [详细]
程序员
Logicify jQuery位置选择器插件 - 以编程方式设置位置

如何解决《LogicifyjQuery位置选择器插件-以编程方式设置位置》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何让inputAccessoryView锚定在UITabBar之上？

如何解决《如何让inputAccessoryView锚定在UITabBar之上？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在bash脚本中从grep打印输出会产生损坏的字符串

如何解决《在bash脚本中从grep打印输出会产生损坏的字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
在使用redux构建React应用程序时,何处存储WebRTC流

如何解决《在使用redux构建React应用程序时,何处存储WebRTC流》经验，为你挑选了1个好方法。 ... [详细]
程序员
"在arraylist构造函数中没有为add(java.lang.String)找到合适的方法吗？

如何解决《"在arraylist构造函数中没有为add(java.lang.String)找到合适的方法吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
rails link_to使用get而不是post

如何解决《railslink_to使用get而不是post》经验，为你挑选了1个好方法。 ... [详细]
程序员
Rmarkdown - 在文档中运行代码并显示错误

如何解决《Rmarkdown-在文档中运行代码并显示错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Ubuntu 15.04上使用Mono导入库错误

如何解决《在Ubuntu15.04上使用Mono导入库错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
传递属于self的函数是否会在不在闭包中时导致保留周期？

如何解决《传递属于self的函数是否会在不在闭包中时导致保留周期？》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用python Bokeh分组条形图更改条形宽度？

如何解决《使用pythonBokeh分组条形图更改条形宽度？》经验，为你挑选了1个好方法。 ... [详细]
程序员
ggplotting时,有序数据帧的顺序不同

如何解决《ggplotting时,有序数据帧的顺序不同》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用类中的函数初始化变量

如何解决《使用类中的函数初始化变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在flexbox中以不同方式对齐特定的<div>？

如何解决《如何在flexbox中以不同方式对齐特定的<div>？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何等待任务完成Task.WhenAll？

如何解决《如何等待任务完成Task.WhenAll？》经验，为你挑选了1个好方法。 ... [详细]
程序员
获取创建日期超过14天的行

如何解决《获取创建日期超过14天的行》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在visual studio 2015中使用roslyn c#编译器？

如何解决《如何在visualstudio2015中使用roslync#编译器？》经验，为你挑选了2个好方法。 ... [详细]
程序员
从Redux Reducer发出事件

如何解决《从ReduxReducer发出事件》经验，为你挑选了0个好方法。 ... [详细]

和谐啄木鸟

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章