当前位置: 首页 > news >正文

香橙派 RK3588 部署千问大模型 Qwen2-VL-2B 推理视频

演示视频

香橙派RK3588部署千问大模型Qwen2-VL-2B推理视频

一、场景假设

视频输入为一条网络流,利用大模型对视频中的图像帧进行推理。由于大模型推理耗时长,无法对每帧都进行推理,因此采用跳帧推理的方式:当推理完一帧后,期间会跳过若干帧,然后立即推理最新的一帧。

二、处理流程

1. 拉流

  • 使用 ffmpeg 拉取 rtsp 流,进行解封装得到 h264。

  • 为保证传输稳定,配置为 rtsp over tcp。

2. 视频解码

通过 mpp 解码 h264,得到 nv12 图像。

3. 图像转换

利用 rga 将 nv12 图像进行放缩和转 rgb 操作,此过程采用 letterbox 方式,主要目的是保持宽高等比放缩。

4. 图像编码

使用 rknn 将 rgb 图像编码成大模型能够理解图像所用的图像向量。

5. 推理

借助 rknn 将提示词和图像向量输入大模型进行推理,推理结果直接打印出来。

6. 渲染

将用于推理的图像(即图像编码前的图像),通过 qt 适配 qwidget 和 opengles 的方式进行渲染。

三、使用模型

  • Qwen2-VL-2B_llm_w8a8_rk3588.rkllm

  • Qwen2-VL-2B_vision_rk3588.rknn

四、主要耗时

  • 图像编码模型加载:5s

  • 大模型加载:7s

  • 图像编码:3s

  • 大模型推理:5s

注意:模型加载仅在程序开始时进行一次即可。

五、资源占用

  • CPU:145%(满载 800%)

  • 内存:5GB

  • NPU:50%~99%

  • 温度:69℃
    在这里插入图片描述

http://www.xdnf.cn/news/1267831.html

相关文章:

  • 2025华数杯数学建模C题:可调控生物节律LED光源全解析
  • 2025华数杯B题一等奖方案:网络切片无线资源管理全解析(附Python/MATLAB代码)
  • 机器学习(西瓜书)学习——绪论
  • LeetCode 面试经典 150_数组/字符串_分发糖果(15_135_C++_困难)(贪心算法)
  • 【Redis7.x】docker配置主从+sentinel监控遇到的问题与解决
  • GPT-5:数字大脑的进化史
  • 1393. 与7无关的数?
  • 【Linux】Tomcat
  • 八、Linux Shell 脚本:变量与字符串
  • jupyter服务器创建账户加映射对外账户地址
  • 2025-08-09 李沐深度学习12——卷积神经网络基础
  • Zabbix自动注册:轻松实现大规模监控
  • Vue3环境搭建+Mybatis-plus的使用
  • 【ref、toRef、toRefs、reactive】ai
  • 具体数学:和式(四)求和的一般方法
  • 【linux基础】Linux目录和Windows目录的区别
  • Openlayers基础教程|从前端框架到GIS开发系列课程(19)地图控件和矢量图形绘制
  • SimBA算法实现过程
  • GitHub第三方登录全解析:OAuth 2.0流程详解(适合初学者)
  • 华为实验: 单区域/多区域OSPF
  • 华为实验-VLAN基础
  • ComfyUI——舒服地让大模型为我所用
  • 微信原生小程序 Timeline 组件实现
  • AI大语言模型在生活场景中的应用日益广泛,主要包括四大类需求:文本处理、信息获取、决策支持和创意生成。
  • python学智能算法(三十六)|SVM-拉格朗日函数求解(中)-软边界
  • 算法题(183):质量检测
  • Java异常:认识异常、异常的作用、自定义异常
  • 扣证件照要点
  • 全栈:JDBC驱动版本和SQLserver版本是否有关系?怎么选择JDBC的版本号?
  • 数据结构—二叉树及gdb的应用