avatar
文章
54
标签
57
分类
6
首页
归档
标签
分类
关于
so2binTritonserver 源码阅读 返回首页
首页
归档
标签
分类
关于

Tritonserver 源码阅读

发表于2024-09-13|更新于2026-04-07|AI-Infer
|总字数:27|阅读时长:1分钟|浏览量:

tritonserver

  • 推理接口入口:server/src/http_server.cc HTTPAPIServer::HandleInfer函数https://github.com/triton-inference-server/server/blob/363bcdcd03cddcd00979c7fd3315557328221c6d/src/http_server.cc#L3578;
文章作者: so2bin
文章链接: https://so2bin.github.io/2024/09/12/AI-Infer/tritonserver-read/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 so2bin!
tritonserverAI推理
上一篇
LLM Quant
资料 SmoothQuant: https://juejin.cn/post/7330079146515611687 SmoothQuant: https://arxiv.org/pdf/2211.10438
下一篇
共享GPU技术
资料 https://developer.nvidia.com/zh-cn/blog/improving-gpu-utilization-in-kubernetes/
相关推荐
2024-05-18
Tritonserver架构
模型调度类型Stateless模型 常见的如CV领域的模型 调度模式:默认的均衡调度,dynamic batch调度 Stateful模型 常见如NLP,语音模型 调度模式: Sequence batch Direct:不打batch,顺序不乱 Oldest:可以做batch,顺序可能打乱 sequence batcher内部通过correlation ID来将语音的序列请求发送到合适的模型实例中 Ensemble模型 模型pipeline 每个模型有自己的调度器 model analyzer 模型分析工具,可提供多模型的部署优化报告 通过throughput, latency, GPU内存等指标来决定如何优化模型配置 提供了两种benchmark分析工具: Performance Analysis: 测量吞吐,延迟指标 Memory Analysis:内存分析 backendcustom backendexample 官方demo:https://github.com/NVIDIA/DeepLearningExamples model repositry...
avatar
so2bin
专注于AI框架、平台、架构、k8s、Go、Python领域
文章
54
标签
57
分类
6
Follow Me
目录
  1. 1. tritonserver
最新文章
Claude Code OpenTelemetry 可观测性体系深度分析2026-04-07
Hexo Tag Plugins 写法速查2026-04-07
nano banana 技术风格2026-01-05
架构治理2025-10-22
OPA2025-04-25
© 2023 - 2026 By so2bin