当前位置: 首页 > java >正文

在tensorrt engine中提高推理性能小记

定位性能瓶颈

trtexec --loadEngine=IFNetxx.trt --dumpProfile

–dumpProfile会定位出每一层的执行时间(总耗时、平均耗时、占比)

重写算子

经过第一部分的定位性能瓶颈,发现算子GridSample(计算光流)的耗时占比为40%,而且这个GridSample并不是官方的算子,因此需要重写
具体步骤

理解GridSample

编写Plugin C++/CUDA核心代码

C++文件结构示例:
GridSamplePlugin.h
GridSamplePlugin.cpp
GridSampleKernel.cu
GridSampleCreator.cpp
CMakeLists.txt

实现TensorRT plugin 接口

编译.so并注册

替换ONNX中节点(可选)

构建TensorRT引擎

验证精度&性能

http://www.xdnf.cn/news/14193.html

相关文章:

  • 互联网大厂Java求职面试:云原生架构与微服务设计中的复杂挑战
  • Flask文件上传与异常处理完全指南
  • create_react_agent + MCP tools
  • TDengine 如何从 2.x 迁移到 3.0
  • Java并发编程实战 Day 22:高性能无锁编程技术
  • JAVA关键字-final
  • Semaphore入门案例
  • Java线程池ThreadPoolExecutor的状态
  • ERROR 1396 (HY000): Operation ALTER USER failed for ‘root‘@‘%‘
  • 基于 C 语言的图书管理系统开发详解​
  • 基于YOLOv11+PP-OCRv5深度学习的智能车牌检测与识别系统python源码+pytorch模型+评估指标曲线+精美GUI界面
  • 【SpringMVC 入门介绍】
  • 零基础RT-thread第二节:按键控制
  • Redux 原理深度剖析
  • 备忘录模式:文本编辑器撤销功能实现
  • 2025年渗透测试面试题总结-字节跳动[实习]安全研究员(题目+回答)
  • 浏览器 报502 网关错误,解决方法2
  • 论文精读Lami-Detr:Open-Vocabulary Detection with Language Model Instruction
  • 芯片的起点——从硅到晶圆制造
  • 用Python写一个可视化大屏
  • 简说ping、telnet、netcat
  • 论文阅读-单目视觉惯性系统时间标定
  • MySQL 锁学习笔记
  • 计算机网络-自顶向下—第二章应用层-重点复习笔记
  • 在C++中的封装(Encapsulation)
  • Linux学习笔记:PCIe内核篇(1):初始化与枚举流程
  • 第1章 C# 和 .NET 框架 笔记
  • MCP简介和应用
  • 第十七章 Linux之大数据定制篇——Shell编程
  • ES知识合集(四):高级篇