当前位置: 首页 > backend >正文

Triton推理服务器部署YOLOv8(onnxruntime后端和TensorRT后端)

文章目录

    • 一、Trition推理服务器基础知识
      • 1)推理服务器设计概述
      • 2)Trition推理服务器quickstart
        • (1)创建模型仓库(Create a model Repository)
        • (2)启动Triton (launching triton)并验证是否正常运行
        • (3)发送推理请求(send a inference request)
      • 3)Trition推理服务器架构
      • 4)Trition推理服务器模型配置(最小、最大模型配置,最大批处理次数,模型维度形状,数据类型)
    • 二、YOLOv8安装
      • 1)安装网络环境
      • 2)安装pytorch
      • 3)安装和克隆YOLOv8
    • 三、TensorRT补充
      • 1)简介
      • 2)TRT引擎构建
      • 3)TRT API基本用法
      • 4)plugin加速推理
    • 四、onnx补充
      • 1)onnx概述+模型网络结构+数据结构
      • 2)onnx模型搭建+dump信息+推理
      • 3)onnx_graphsurgeon
      • 4)onnx_Simplifier
    • 五、Trion推理服务器部署(onnxruntime后端)
      • 1)安装docker和NVIDIA Container toolkit
        • (1)安装docker
        • (2)安装NVIDIA Container toolkit
      • 2)导出onnx模型
      • 3)组织模型仓库布局文件
      • 4)构建Triton推理docker容器
      • 5)运行和测试Triton服务器
    • 六、Trion推理服务器部署(TensorRT后端)
      • 1)构建TensorRT引擎
      • 2)组织模型仓库布局
      • 3)构建Triton推理的docker容器
      • 4)运行和测试Triton服务器
      • 5)前处理说明

一、Trition推理服务器基础知识

1)推理服务器设计概述

在这里插入图片描述

  • 设计思想和特点
    1、支持多种机器学习框架
    在这里插入图片描述
    2、支持多种部署场景

在这里插入图片描述
3、高性能推理
在这里插入图片描述
4、灵活的模型管理
在这里插入图片描述
5、可扩展性
在这里插入图片描述
6、强大的客户端支持
在这里插入图片描述

2)Trition推理服务器quickstart

(1)创建模型仓库(Create a model Repository)

在这里插入图片描述

(2)启动Triton (launching triton)并验证是否正常运行

cpu运行

$ docker run --rm -p8000:8000 -p8001:8001 -p8002:8002 -v/full/path/to/docs/examples/model_repository:/models nvcr.io/nvidia/tritonserver:<xx.yy>-py3 tritonserver --model-repository=/models

在这里插入图片描述
GPU运行
在这里插入图片描述
命令

$ docker run --gpus=1 --rm -p8000:8000 -p8001:8001 -p8002:8002 -v/full/path/to/docs/examples/model_repository:/models nvcr.io/nvidia/tritonserver:<xx.yy>-py3 tritonserver --model-repository=/models

输出

+----------------------+---------+--------+
| Model                | Version | Status |
+----------------------+---------+--------+
| <model_name>         | <v>     | READY  |
| ..                   | .       | ..     |
| ..                   | .       | ..     |
+----------------------+---------+--------+
...
...
...
I1002 21:58:57.891440 62 grpc_server.cc:3914] Started GRPCInferenceService at 0.0.0.0:8001
I1002 21:58:57.893177 62 http_server.cc:2717] Started HTTPService at 0.0.0.0:8000
I1002 21:58:57.935518 62 http_server.cc:2736] Started Metrics Service at 0.0.0.0:8002

在这里插入图片描述

  • 验证是否正常运行
    在这里插入图片描述
$ curl -v localhost:8000/v2/health/ready
...
< HTTP/1.1 200 OK
< Content-Length: 
http://www.xdnf.cn/news/9756.html

相关文章:

  • C++哈希
  • GitHub Copilot 使用手册与原理解析
  • 80x86CPU入栈与出栈操作
  • C++:lambda匿名函数
  • 【VSCode-Qt】Docker远程连接的项目UI文件在 VSCode 上无法预览
  • STM32F407VET6学习笔记8:UART5串口接收中断的Cubemx配置
  • Spring 面经
  • PnP(Perspective-n-Point)算法 | 用于求解已知n个3D点及其对应2D投影点的相机位姿
  • 5.LoadBalancer负载均衡服务调用
  • 【测试】Bug和用例
  • 视觉分析开发范例:Puppeteer截图+计算机视觉动态定位
  • 国内连接速度较快的常用 Yum 源及其具体配置方法
  • mysql一主多从 k8s部署实际案例
  • 【C++项目】:仿 muduo 库 One-Thread-One-Loop 式并发服务器
  • 什么是VR全景相机?如何选择VR全景相机?
  • http传输协议的加密
  • 黑马点评项目02——商户查询缓存(缓存穿透、缓存雪崩、缓存击穿)以及细节
  • 有关于常量的一节知识
  • JAVA学习 DAY1 初识JAVA
  • 生成式引擎的认知霸权:为什么传统内容失效?
  • 【AI非常道】二零二五年三月,AI非常道
  • 黑马程序员C++核心编程笔记--1 程序的内存模型
  • AniGS - 基于单张图像的动态高斯化身重建
  • 62、【OS】【Nuttx】编码规范解读(十)
  • 电缆中性点概念
  • webstrorm 提示(This file does not belong to the project)此文件不属于该项目
  • 深度学习-模型训练的相关概念
  • 【spring】spring中的retry重试机制; resilience4j熔断限流教程;springboot整合retry+resilience4j教程
  • java中自定义注解
  • WildDoc:拍照场景下的文档理解——数据真香