kubernetes集成GPU原理 - 小白QAQ555 - JOYK Joy of Geek, Geek News, Link all geek

这里以Nvidia GPU设备如何在Kubernetes中管理调度为例研究，工作流程分为以下两个方面：

如何在容器中使用GPU
Kubernetes 如何调度GPU

容器中使用GPU

想要在容器中的应用可以操作GPU，需要实两个目标：

容器中可以查看GPU设备
容器中运行的应用，可以通过Nvidia驱动操作GPU显卡

在应用程序中使用 GPU，由于需要安装 nvidia driver， Docker 引擎并没有原生支持。因此也就无法直接在容器中访问 GPU 资源。

为了解决容器中无法访问 GPU 资源的问题，有以下方案：

1、无nvidia-docker
在早期的时候，没有nvidia-docker，可以通过在容器内再部署一遍nvidia GPU驱动解决。同理，其他设备如果想在容器里使用，也可以采用在容器里重新安装一遍驱动解决。
2、nvidia-docker1.0
nvidia-docker是英伟达公司专门用来为docker容器使用nvidia GPU而设计的，设计方案就是把宿主机的GPU驱动文件映射到容器内部使用，可以通过tensorflow生成GPU驱动文件夹。
3、nvidia-docker2.0
nvidia-docker2.0对nvidia-docker1.0进行了很大的优化，不用再映射宿主机GPU驱动了，直接把宿主机的GPU运行时映射到容器即可。启动方式示例：

nvidia-docker run -d -e NVIDIA_VISIBLE_DEVICES=all --name nvidia_docker_test  nvidia/cuda:10.0-base /bin/sh -c "while true; do echo hello world; sleep 1; done"

4、安装docker19.03及以上版本，已经内置了nvidia-docker，无需再单独部署nvidia-docker了。安装方式如下：

安装docker：
yum install -y yum-utils
yum-config-manager     --add-repo     https://download.docker.com/linux/centos/docker-ce.repo
yum-config-manager --enable docker-ce-nightly
yum-config-manager --enable docker-ce-test
yum install docker-ce docker-ce-cli containerd.io
systemctl start docker

安装nvidia-container-toolkit
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | sudo tee /etc/yum.repos.d/nvidia-docker.repo
sudo yum install -y nvidia-container-toolkit
sudo systemctl restart docker

启动容器：
docker run --gpus all nvidia/cuda:10.0-base /bin/sh -c "while true; do echo hello world; sleep 1; done"
进入容器并输入nvidia-smi验证。

在容器中重新安装 nvidia driver，容器启动的时候将 nvidia gpu 作为符号设备传递进来。这种方案的问题在于宿主机和容器内安装的 nvidia driver 版本可能不一致，因此 docker image 无法在多机间共享。这就丧失了 docker 的主要优势。

因此，为了在保持 docker image 迁移性的同时可以方便的使用 gpu，nvidia 提出了 nvidia docker 的方案。

参考文献：https://developer.nvidia.com/blog/gpu-containers-runtime/

容器启动流程大致为：docker --> dockerd --> docker-containerd-shim --> nvidia-container-runtime-hook --> libnvidia-container--> nvidia-driver。

docker客户端将创建容器的请求发送给dockerd, 当dockerd收到请求任务之后将请求发送给docker-containerd-shim，nvidia-container-runtime创建容器时，先执行nvidia-container-runtime-hook这个hook去检查容器是否需要使用GPU(通过环境变量NVIDIA_VISIBLE_DEVICES来判断)。如果需要则调用libnvidia-container来暴露GPU给容器使用。否则则走默认的runc逻辑。

Nvidia-docker

项目地址：https://github.com/NVIDIA/nvidia-docker

Nvidia提供Nvidia-docker项目，它是通过修改Docker的Runtime为nvidia runtime工作，当我们执行 nvidia-docker create 或者 nvidia-docker run 时，它会默认加上 --runtime=nvidia 参数。将runtime指定为nvidia。

nvidia-docker是在docker的基础上做了一层封装，通过 nvidia-docker-plugin把硬件设备在docker的启动命令上添加必要的参数。

gpu-containers-runtime

gpu-containers-runtime 是一个NVIDIA维护的容器 Runtime，它在runc的基础上，维护了一份 Patch，在容器启动前，注入一个 prestart 的hook 到容器的Spec中（hook的定义可以查看 OCI规范）。这个hook 的执行时机是在容器启动后（Namespace已创建完成），容器自定义命令(Entrypoint)启动前。

gpu-containers-runtime-hook

gpu-containers-runtime-hook 是一个简单的二进制包，定义在Nvidia container runtime的hook中执行。目的是将当前容器中的信息收集并处理，转换为参数调用 nvidia-container-cli 。主要处理以下参数：

根据环境变量 NVIDIA_VISIBLE_DEVICES 判断是否会分配GPU设备，以及挂载的设备ID。如果是未指定或者是 void ，则认为是非GPU容器，不做任何处理。否则调用 nvidia-container-cli ， GPU设备作为 --devices 参数传入
环境环境变量 NVIDIA_DRIVER_CAPABILITIES 判断容器需要被映射的 Nvidia 驱动库。
环境变量 NVIDIA_REQUIRE_* 判断GPU的约束条件。例如 cuda>=9.0 等。作为 --require= 参数传入
传入容器进程的Pid

gpu-containers-runtime-hook 做的事情，就是将必要的信息整理为参数，传给 nvidia-container-cli configure 并执行。

nvidia-container-cli

项目地址：https://github.com/NVIDIA/libnvidia-container，基于c语言

nvidia-container-cli 是一个命令行工具，用于配置Linux容器对GPU 硬件的使用。支持

list: 打印 nvidia 驱动库及路径
info: 打印所有Nvidia GPU设备
configure：进入给定进程的命名空间，执行必要操作保证容器内可以使用被指定的GPU以及对应能力（指定 Nvidia 驱动库）。 configure是我们使用到的主要命令，它将Nvidia 驱动库的so文件和 GPU设备信息，通过文件挂载的方式映射到容器中。

docker 19.03之后，默认支持NVIDIA GPU。

参考文献：https://collabnix.com/introducing-new-docker-cli-api-support-for-nvidia-gpus-under-docker-engine-19-03-0-beta-release/

kubernetes中使用GPU

参考资源：https://kubernetes.io/zh/docs/tasks/manage-gpus/scheduling-gpus/#deploying-amd-gpu-device-plugin

Kubernetes 提供了Device Plugin 的机制，用于异构设备的管理场景。原理是会为每个特殊节点上启动一个针对某个设备的DevicePlugin pod，这个pod需要启动grpc服务，给kubelet提供一系列接口。

整个 Device Plugin 的工作流程可以分成两个部分：

一个是启动时刻的资源上报；
另一个是用户使用时刻的调度和运行。

Device Plugin 的开发主要包括最关注与最核心的两个事件方法：

其中 ListAndWatch 对应资源的上报，同时还提供健康检查的机制。当设备不健康的时候，可以上报给 Kubernetes 不健康设备的 ID，让 Device Plugin Framework 将这个设备从可调度设备中移除；
而 Allocate 会被 Device Plugin 在部署容器时调用，传入的参数核心就是容器会使用的设备 ID，返回的参数是容器启动时，需要的设备、数据卷以及环境变量。

Nvidia GPU Device Plugin

为了能够在Kubernetes中管理和调度GPU， Nvidia提供了Nvidia GPU的Device Plugin。

项目地址：https://github.com/NVIDIA/k8s-device-plugin

主要功能如下：

支持ListAndWatch 接口，上报节点上的GPU数量。
支持Allocate接口，支持分配GPU的行为。

整个Kubernetes调度GPU的过程如下：

GPU Device plugin 部署到GPU节点上，通过 ListAndWatch 接口，上报注册节点的GPU信息和对应的DeviceID。
当有声明 nvidia.com/gpu 的GPU Pod创建出现，调度器会综合考虑GPU设备的空闲情况，将Pod调度到有充足GPU设备的节点上。
节点上的kubelet 启动Pod时，根据request中的声明调用各个Device plugin 的 allocate接口，由于容器声明了GPU。 kubelet 根据之前 ListAndWatch接口收到的Device信息，选取合适的设备，DeviceID 作为参数，调用GPU DevicePlugin的 Allocate 接口。
GPU DevicePlugin ，接收到调用，将DeviceID 转换为 NVIDIA_VISIBLE_DEVICES 环境变量，返回kubelet。
kubelet将环境变量注入到Pod，启动容器。
容器启动时， gpu-container-runtime 调用 gpu-containers-runtime-hook。
gpu-containers-runtime-hook 根据容器的 NVIDIA_VISIBLE_DEVICES 环境变量，转换为 --devices 参数，调用 nvidia-container-cli prestart。
nvidia-container-cli 根据 --devices ，将GPU设备映射到容器中。并且将宿主机的Nvidia Driver Lib 的so文件也映射到容器中。此时容器可以通过这些so文件，调用宿主机的Nvidia Driver。

在k8s中启用GPU支持

必要条件：

NVIDIA 驱动程序 ~= 384.81
nvidia-docker 版本 > 2.0
docker 配置为 nvidia 作为默认运行时。
Kubernetes 版本 >= 1.10

$ kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.11.0/nvidia-device-plugin.yml

运行GPU作业

部署守护程序后，可以使用nvidia.com/gpu资源类型请求 NVIDIA GPU：

apiVersion: v1
kind: Pod
metadata:
  name: gpu-pod
spec:
  containers:
    - name: cuda-container
      image: nvcr.io/nvidia/cuda:9.0-devel
      resources:
        limits:
          nvidia.com/gpu: 2 # requesting 2 GPUs
    - name: digits-container
      image: nvcr.io/nvidia/digits:20.12-tensorflow-py3
      resources:
        limits:
          nvidia.com/gpu: 2 # requesting 2 GPUs

AMD GPU Device Plugin

项目地址：https://github.com/RadeonOpenCompute/k8s-device-plugin

在k8s中启用GPU支持

必要条件：

支持 ROCm 的机器
ROCm 内核（安装指南）或最新的 AMD GPU Linux 驱动程序（安装指南）
--allow-privileged=true对于 kube-apiserver 和 kubelet（仅当设备插件通过 DaemonSet 部署时才需要，因为设备插件容器需要特权安全上下文才能访问/dev/kfd设备健康检查）

部署 AMD 设备插件：

kubectl create -f https://raw.githubusercontent.com/RadeonOpenCompute/k8s-device-plugin/r1.10/k8s-ds-amdgpu-dp.yaml

k8s 共享GPU方案

在kubernetes中运行GPU程序，通常都是将一个GPU卡分配给一个容器。这可以实现比较好的隔离性，确保使用GPU的应用不会被其他应用影响；对于深度学习模型训练的场景非常适合；

但是如果对于模型开发和模型预测的场景就会比较浪费。很多诉求是能够让更多的预测服务共享同一个GPU卡上，进而提高集群中Nvidia GPU的利用率。

阿里云开源了一个gpushare项目，实现多个pod共享同一块gpu卡。

核心模块：

GPU Share Scheduler Extender: 利用Kubernetes的调度器扩展机制，负责在全局调度器Filter和Bind的时候判断节点上单个GPU卡是否能够提供足够的GPU Mem，并且在Bind的时刻将GPU的分配结果通过annotation记录到Pod Spec以供后续Filter检查分配结果。
GPU Share Device Plugin: 利用Device Plugin机制，在节点上被Kubelet调用负责GPU卡的分配，依赖scheduler Extender分配结果执行。

工作流程（gpushare）：
1）GPU Share Device Plugin利用nvml库查询到GPU卡的数量和每张GPU卡的显存，通过ListAndWatch()将节点的GPU总显存（数量 *显存）作为另外Extended Resource汇报给Kubelet； Kubelet进一步汇报给Kubernetes API Server。
2）Kubernetes默认调度器在进行完所有过滤(filter)行为后会通过http方式调用GPU Share Scheduler Extender的filter方法，找出单卡满足调度条件的节点和卡。
3）当调度器找到满足条件的节点，就会委托GPU Share Scheduler Extender的bind方法进行节点和Pod的绑定。
4）当Pod和节点绑定的事件被Kubelet接收到后，Kubelet就会在节点上创建真正的Pod实体，在这个过程中, Kubelet会调用GPU Share Device Plugin的Allocate方法, Allocate方法的参数是Pod申请的gpu-mem。

kubernetes集成GPU原理 - 小白QAQ555

容器中使用GPU

kubernetes中使用GPU

Nvidia GPU Device Plugin

在k8s中启用GPU支持

运行GPU作业

AMD GPU Device Plugin

在k8s中启用GPU支持

k8s 共享GPU方案

Recommend

Samsung Galaxy A54 and A34 listed on Austrian retailer with pricing and specs

产业时代，智能汽车产品如何创新

[VVEX] 使用 Flutter 开发的第二好看的 V2 客户端 🤪

5999元起！iPhone 14黄色版正式开售是你的菜吗？

Why did SVB collapse? Inside the tech bank's 48-hour unravelling

采用全新NT架构：新Windows端QQ首个版本将于24日发布

10 Apple TV 4K Features That Will Change The Way You Use Your Streaming Box

2023 Lexus RZ 450e First Drive: Electric SUV Offers More Than Just A Clever Yoke

General - QPR3 Beta 1 coming March 13, 2023? - Pixel 7 Pro [Cheetah] - [thread a...

Facebook 和 Instagram 将放弃支持 NFT

About Joyk