共享GPU技术

发表于2024-08-24|更新于2026-04-07

|总字数:14|阅读时长:1分钟|浏览量:

资料

https://developer.nvidia.com/zh-cn/blog/improving-gpu-utilization-in-kubernetes/

文章作者: so2bin

文章链接: https://so2bin.github.io/2024/08/24/AI-Infer/gpu-shares/index/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 so2bin！

相关推荐

Readiness, Liveness, StartupProbe执行原理均支持三种检测探针：TCP, HTTP, Exec Shell 探针的执行均由kubelet组件执行； Exec探针执行由kubelet组件调用CRI接口的ExecSync接口，在对应的容器内执对应的cmd命令，获取其返回值； func (pb *prober) runProbe(p *v1.Probe, pod *v1.Pod, status v1.PodStatus, container v1.Container, containerID kubecontainer.ContainerID) (probe.Result, string, error) { ... command := kubecontainer.ExpandContainerCommandOnlyStatic(p.Exec.Command, container.Env) return pb.exec.Probe(pb.newExecInContainer(container, conta...

k8s device-plugin

k8s device-plugin机制docker运行GPU容器 nvidia的GPU容器镜像原理是：NVIDIA驱动相对更稳定，因此容器中使用容器封装的CUDA/SDK库，共用宿主机的NVIDIA驱动； docker运行GPU容器时，需要将NVIDIA驱动映射到容器内：# 以下的命令与nvidia-docker同样的作用原理docker run --it --volume=navidia_driver_xxx.xx:/usr/local/nvidia:ro \ --device=/dev/nvidiactl \ --device=/dev/nvidia-uvm \ --device=/dev/nvidia-uvm-tools \ --device=/dev/nvidia0 \ nvidia/cuda nvidia-smi k8s 运行GPU容器安装NVIDIA驱动；安装NVIDIA Dcoker：nvidia-docker2 部署NVIDIA Device Plugin：device-nvidia-plugin k8s GPU资源...

kubeadm初始化k8s

init节点环境准备关闭swap# 查看sudo swapon --show# 关闭sudo swapoff -a 配置其它：# sudo vim /etc/sysctl.d/k8s.conf# 添加： net.ipv4.ip_forward = 1# 导出配置containerd config default > /etc/containerd/config.toml# 修改配置[plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc] ... [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc.options] SystemdCgroup = true# 执行命令sudo modprobe br_netfiltersudo systemctl restart containerd 按正常流程安装完docker, containerd组件默认安装 kubeadm初始化# 以co...

资料 https://flashinfer.ai/ https://flashinfer.ai/2024/02/02/introduce-flashinfer.html https://flashinfer.ai/2024/02/02/cascade-inference Flash-Decode: https://crfm.stanford.edu/2023/10/12/flashdecoding.html 介绍该项目重点关注的是self-attention的计算效率，集成了当前最前沿的优化技术；其将self-attention分为了三步：prefill, decode, append；同时分析了单个请求和批量请求的场景下的性能瓶颈；开源项目地址：https://github.com/flashinfer-ai/flashinfer/ 优势 Comprehensive Attention Kernels: attention kernel集成了前沿的高性能优化技术，覆盖了single, batch下的：prefill, decode, append kernels，包...

01 向量加 nvcc compiler识别kernel call: add<<<N, 1>>>(); // N block parallel， 1 thread each block 组织：grid, block, thread: block代表一组worker，可以完成一块任务； __global__关键字，会向compiler提示这是一个kernel函数，需要在GPU上运行： __global__ void add(int *a, int *b, int *c) { c[blockIdx.x] = a[blockIdx.x] + b[blockIdx.x]} block的下一级为thread，如下所示为thread parallel： addVec<<<1, N>>>(); // 1 block, N thread parallel each block__global__ void add(int *a, int *b, int *c) { c[th...

调研文档【金山文档 | WPS云文档】 Tritonserver_TensorRT-LLM调研 https://365.kdocs.cn/l/cqu1Q0RUtYog 【金山文档 | WPS云文档】 TRTLLM LLaMa 7B 4090测试数据 https://365.kdocs.cn/l/cqAXum4uoqmf in-flight batching in-flight batching在业内也被称为continuous batching, iteration-level batchingTRTLLM triton backend inflight batching使用：https://github.com/triton-inference-server/tensorrtllm_backend/blob/main/inflight_batcher_llm/README.md TRTLLM Batch Manager资料 https://nvidia.github.io/TensorRT-LLM/advanced/batch-manager.html#the-batch-m...