avatar
文章
54
标签
57
分类
6
首页
归档
标签
分类
关于
so2bin共享GPU技术 返回首页
首页
归档
标签
分类
关于

共享GPU技术

发表于2024-08-24|更新于2026-04-07
|总字数:14|阅读时长:1分钟|浏览量:

资料

  • https://developer.nvidia.com/zh-cn/blog/improving-gpu-utilization-in-kubernetes/
文章作者: so2bin
文章链接: https://so2bin.github.io/2024/08/24/AI-Infer/gpu-shares/index/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 so2bin!
GPUk8s
上一篇
Tritonserver 源码阅读
tritonserver 推理接口入口:server/src/http_server.cc HTTPAPIServer::HandleInfer函数https://github.com/triton-inference-server/server/blob/363bcdcd03cddcd00979c7fd3315557328221c6d/src/http_server.cc#L3578;
下一篇
karmada-scheduler
流程总览 如下为scheduler的流程总览:
相关推荐
2024-02-20
probe
Readiness, Liveness, StartupProbe执行原理 均支持三种检测探针:TCP, HTTP, Exec Shell 探针的执行均由kubelet组件执行; Exec探针执行 由kubelet组件调用CRI接口的ExecSync接口,在对应的容器内执对应的cmd命令,获取其返回值; func (pb *prober) runProbe(p *v1.Probe, pod *v1.Pod, status v1.PodStatus, container v1.Container, containerID kubecontainer.ContainerID) (probe.Result, string, error) { ... command := kubecontainer.ExpandContainerCommandOnlyStatic(p.Exec.Command, container.Env) return pb.exec.Probe(pb.newExecInContainer(container, conta...
2024-03-02
k8s device-plugin
k8s device-plugin机制docker运行GPU容器 nvidia的GPU容器镜像原理是:NVIDIA驱动相对更稳定,因此容器中使用容器封装的CUDA/SDK库,共用宿主机的NVIDIA驱动; docker运行GPU容器时,需要将NVIDIA驱动映射到容器内:# 以下的命令与nvidia-docker同样的作用原理docker run --it --volume=navidia_driver_xxx.xx:/usr/local/nvidia:ro \ --device=/dev/nvidiactl \ --device=/dev/nvidia-uvm \ --device=/dev/nvidia-uvm-tools \ --device=/dev/nvidia0 \ nvidia/cuda nvidia-smi k8s 运行GPU容器 安装NVIDIA驱动; 安装NVIDIA Dcoker:nvidia-docker2 部署NVIDIA Device Plugin:device-nvidia-plugin k8s GPU资源...
2024-01-24
kubeadm初始化k8s
init节点环境准备 关闭swap# 查看sudo swapon --show# 关闭sudo swapoff -a 配置其它:# sudo vim /etc/sysctl.d/k8s.conf# 添加: net.ipv4.ip_forward = 1# 导出配置containerd config default > /etc/containerd/config.toml# 修改配置[plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc] ... [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc.options] SystemdCgroup = true# 执行命令sudo modprobe br_netfiltersudo systemctl restart containerd 按正常流程安装完docker, containerd组件 默认安装 kubeadm初始化# 以co...
2024-08-08
flashinfer
资料 https://flashinfer.ai/ https://flashinfer.ai/2024/02/02/introduce-flashinfer.html https://flashinfer.ai/2024/02/02/cascade-inference Flash-Decode: https://crfm.stanford.edu/2023/10/12/flashdecoding.html 介绍 该项目重点关注的是self-attention的计算效率,集成了当前最前沿的优化技术; 其将self-attention分为了三步:prefill, decode, append; 同时分析了单个请求和批量请求的场景下的性能瓶颈; 开源项目地址:https://github.com/flashinfer-ai/flashinfer/ 优势 Comprehensive Attention Kernels: attention kernel集成了前沿的高性能优化技术,覆盖了single, batch下的:prefill, decode, append kernels,包...
2024-03-03
CUDA Learn
01 向量加 nvcc compiler识别kernel call: add<<<N, 1>>>(); // N block parallel, 1 thread each block 组织:grid, block, thread: block代表一组worker,可以完成一块任务; __global__关键字,会向compiler提示这是一个kernel函数,需要在GPU上运行: __global__ void add(int *a, int *b, int *c) { c[blockIdx.x] = a[blockIdx.x] + b[blockIdx.x]} block的下一级为thread,如下所示为thread parallel: addVec<<<1, N>>>(); // 1 block, N thread parallel each block__global__ void add(int *a, int *b, int *c) { c[th...
2024-03-03
Tritonserver
调研文档【金山文档 | WPS云文档】 Tritonserver_TensorRT-LLM调研 https://365.kdocs.cn/l/cqu1Q0RUtYog 【金山文档 | WPS云文档】 TRTLLM LLaMa 7B 4090测试数据 https://365.kdocs.cn/l/cqAXum4uoqmf in-flight batching in-flight batching在业内也被称为continuous batching, iteration-level batchingTRTLLM triton backend inflight batching使用:https://github.com/triton-inference-server/tensorrtllm_backend/blob/main/inflight_batcher_llm/README.md TRTLLM Batch Manager资料 https://nvidia.github.io/TensorRT-LLM/advanced/batch-manager.html#the-batch-m...
avatar
so2bin
专注于AI框架、平台、架构、k8s、Go、Python领域
文章
54
标签
57
分类
6
Follow Me
目录
  1. 1. 资料
最新文章
Claude Code OpenTelemetry 可观测性体系深度分析2026-04-07
Hexo Tag Plugins 写法速查2026-04-07
nano banana 技术风格2026-01-05
架构治理2025-10-22
OPA2025-04-25
© 2023 - 2026 By so2bin