Tritonserver 源码阅读

发表于2024-09-13|更新于2026-04-07|AI-Infer

|总字数:27|阅读时长:1分钟|浏览量:

tritonserver

推理接口入口:server/src/http_server.cc HTTPAPIServer::HandleInfer函数https://github.com/triton-inference-server/server/blob/363bcdcd03cddcd00979c7fd3315557328221c6d/src/http_server.cc#L3578;

文章作者: so2bin

文章链接: https://so2bin.github.io/2024/09/12/AI-Infer/tritonserver-read/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 so2bin！

tritonserver AI推理

相关推荐

Tritonserver架构

模型调度类型Stateless模型常见的如CV领域的模型调度模式：默认的均衡调度，dynamic batch调度 Stateful模型常见如NLP，语音模型调度模式： Sequence batch Direct：不打batch，顺序不乱 Oldest：可以做batch，顺序可能打乱 sequence batcher内部通过correlation ID来将语音的序列请求发送到合适的模型实例中 Ensemble模型模型pipeline 每个模型有自己的调度器 model analyzer 模型分析工具，可提供多模型的部署优化报告通过throughput, latency, GPU内存等指标来决定如何优化模型配置提供了两种benchmark分析工具： Performance Analysis: 测量吞吐，延迟指标 Memory Analysis：内存分析 backendcustom backendexample 官方demo：https://github.com/NVIDIA/DeepLearningExamples model repositry...