当前位置: 首页 > ai >正文

首发支持! 基于昇腾MindIE玩转InternVL3多模态理解最新模型

2025年4月16日,上海人工智能实验室(上海AI实验室)升级并开源了通用多模态大模型书生·万象3.0(InternVL3)。通过采用创新的多模态预训练和后训练方法,InternVL3 多模态基础能力全面提升,在专家级基准测试、多模态性能全面测试中,10 亿~780 亿参数的全量级版本在开源模型中性能均位列第一,同时大幅提升了图形用户界面(GUI)智能体、建筑场景图纸理解、空间感知推理以及通识学科推理等方面的能力。

InternVL3系列一经发布开源,即在昇腾 MindIE 和 MindSpeed 中开箱即用。魔乐社区已上架该模型, 欢迎开发者下载体验!模型链接:

MindIE:

  • 魔乐社区https://modelers.cn/models/Models_Ecosystem/InternVL3-78B
  • 魔乐社区https://modelers.cn/models/Models_Ecosystem/InternVL3-38B
  • 魔乐社区https://modelers.cn/models/Models_Ecosystem/InternVL3-14B
  • 魔乐社区https://modelers.cn/models/Models_Ecosystem/InternVL3-8B
  • 魔乐社区https://modelers.cn/models/Models_Ecosystem/InternVL3-2B
  • 魔乐社区https://modelers.cn/models/Models_Ecosystem/InternVL3-1B

MindSpeed:

  • 魔乐社区https://modelers.cn/models/MindSpeed/InternVL3-8B

01 模型介绍 ​

基于司南OpenCompass 开源评测框架,研究团队对InternVL3 进行了全面系统的评估,包括多学科推理、文档理解、多图像 / 视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力以及以语言为中心的基准测试。评测结果显示,InternVL3 在开源多模态大模型中性能表现最优,创造了开源多模态大模型的性能新标杆,性能接近闭源模型 Gemini-2.5-Pro。

让我们快速体验一下。

图片理解体验: ​

 Prompt:简单描述一下这张图片

效果:这张图片展示了一只大熊猫。它正坐在绿色的植物和竹子之间,看起来正在吃竹子。大熊猫有黑白相间的毛皮,背景中有木头和植物,营造出自然的栖息环境。

Prompt:描述一下这张梗图并解释其中的笑点。
 

 效果:这张梗图的上半部分是一段文字,写着“最新消息 科学家发现”,下面是一张食物的图片,上面写着“吃饭能缓解饥饿”。这张图的笑点在于其讽刺和夸张的幽默。它用一种非常正式和严肃的新闻报道形式,宣布了一个极其显而易见和常识性的“发现”——吃饭能缓解饥饿。这种反差让人感到荒谬,从而产生幽默效果。它调侃了科学研究中有时会发布一些显而易见的结论。

视频理解体验: ​

给模型看一个视频并提问:

请描述这个视频

效果:

视频中展示了两只小熊猫(红熊猫)。一只小熊猫在树枝上,似乎在观察或与另一只小熊猫互动。另一只小熊猫站在地上,抬头看着树上的同伴。它们周围有竹梯和绿色的植物,环境看起来像是动物园或自然保护区。整个场景显得很自然和生动,两只小熊猫看起来非常可爱和有趣。

以下手把手带大家基于昇腾 MindIE 部署 InternVL3 模型。

02 准备环境 ​

1. 加载镜像 ​

需要使用mindie:2.0.T3及其后版本。

前往昇腾社区/开发资源或者魔乐社区/更多下载适配,下载镜像前需要申请权限,耐心等待权限申请通过后,根据指南下载对应镜像文件。

  • 魔乐社区下载链接:魔乐社区https://modelers.cn/images/MindIE/tags
  • 昇腾社区下载链接:
    https://www.hiascend.com/developer/ascendhub/detail/af85b724a7e5469ebd7ea13c3439d48f昇腾社区是基于昇腾系列处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,包括昇腾系列处理器、系列硬件、CANN异构计算架构、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链。https://www.hiascend.com/developer/ascendhub/detail/af85b724a7e5469ebd7ea13c3439d48f完成之后,请使用docker images命令确认查找具体镜像名称与标签。

docker images

2. 新建容器 ​

如果您使用的是 root 用户镜像(例如从 Ascend Hub 上取得),并且可以使用特权容器,请使用以下命令启动容器:

docker run -it -d --net=host --shm-size=1g \--privileged \--name <container-name> \--device=/dev/davinci_manager \--device=/dev/hisi_hdc \--device=/dev/devmm_svm \-v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \-v /usr/local/sbin:/usr/local/sbin:ro \-v /path-to-weights:/path-to-weights:ro \<IMAGE ID> bash

如果您希望使用自行构建的普通用户镜像,并且规避容器相关权限风险,可以使用以下命令指定用户与设备:

docker run -it -d --net=host --shm-size=1g \--name <container-name> \--device=/dev/davinci_manager \--device=/dev/hisi_hdc \--device=/dev/devmm_svm \--device=/dev/davinci0 \--device=/dev/davinci1 \--device=/dev/davinci2 \--device=/dev/davinci3 \--device=/dev/davinci4 \--device=/dev/davinci5 \--device=/dev/davinci6 \--device=/dev/davinci7 \-v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \-v /usr/local/sbin:/usr/local/sbin:ro \-v /path-to-weights:/path-to-weights:ro \<IMAGE ID> bash

3. 进入容器: ​

docker exec -it ${容器名称} bash

4. 安装python依赖 ​

cd /usr/local/Ascend/atb-models
pip install -r requirements/models/requirements_internvl.txt

03 执行推理 ​

纯模型推理 ​

运行脚本,可参考 run_pa.sh 同级目录下的 README.md。

bash /usr/local/Ascend/atb-models/examples/models/internvl/run_pa.sh --run --trust_remote_code ${权重路径} ${图片或视频所在文件夹路径}

服务化推理 ​

1. 打开配置文件 ​

vim /usr/local/Ascend/mindie/latest/mindie-service/conf/config.json
2. 更改配置文件 ​

{
...
"ServerConfig" :
{
...
"port" : 1040, #自定义
"managementPort" : 1041, #自定义
"metricsPort" : 1042, #自定义
...
"httpsEnabled" : false,
...
},"BackendConfig": {
...
"npuDeviceIds" : [[0,1,2,3,4,5,6,7]],
...
"ModelDeployConfig":
{
"maxSeqLen" : 50000,
"maxInputTokenLen" : 50000,
"truncation" : false,
"ModelConfig" : [
{
"modelInstanceType": "Standard",
"modelName" : "internvl",
"modelWeightPath" : "/model/InternVL3-1B",
"worldSize" : 8,
...
"npuMemSize" : 8, #kvcache分配,可自行调整,单位是GB,切勿设置为-1,需要给vit预留显存空间
...
"trustRemoteCode" : false #默认为false,若设为true,则信任本地代码,用户需自行承担风险
}
]
},
"ScheduleConfig" :
{
...
"maxPrefillTokens" : 50000,
"maxIterTimes": 4096,
...
}
}
}
3. 拉起服务化 ​
cd /usr/local/Ascend/mindie/latest/mindie-service/bin ./mindieservice_daemon
4. 新建窗口测试(VLLM 接口) ​

curl 127.0.0.1:1040/generate -d '{
"prompt": [
{
"type": "image_url",
"image_url": ${图片路径}
},
{"type": "text", "text": "Explain the details in the image."}
],
"max_tokens": 512,
"stream": false,
"do_sample":true,
"repetition_penalty": 1.00,
"temperature": 0.01,
"top_p": 0.001,
"top_k": 1,
"model": "internvl"
}'

服务化推理的更多信息请参考MindIE Service用户指南:

产品简介-MindIE Service开发指南-MindIE1.0.0开发文档-昇腾社区

欢迎体验 ​

欢迎大家下载体验InternVL3,也欢迎广大开发者在模型评论区留言交流!

http://www.xdnf.cn/news/9801.html

相关文章:

  • 工具识别系统Python+深度学习+人工智能+卷积神经网络算法+TensorFlow+图像识别
  • ppt一键制作:ai自动生成PPT,便捷高效超级精美!
  • 全志F1c200开发笔记——移植Debian文件系统
  • 彻底卸载安装的虚拟机VMware Workstation软件
  • 树莓派超全系列教程文档--(51)如何使用SSH登录树莓派
  • RFID综合项目实训 | 基于C#的一卡通管理系统
  • AI绘画提示词:从零开始掌握Prompt Engineering的艺术
  • 群辉(synology)NAS老机器连接出现网页端可以进入,但是本地访问输入一样的账号密码是出现错误时解决方案
  • ST MCU CAN模块--TTCAN模式浅析
  • window 显示驱动开发-转换 Direct3D 固定函数状态(一)
  • 界面开发框架DevExpress XAF实践:集成.NET Aspire后如何实现自定义遥测?
  • Odoo 打印功能架构与工作流程深度剖析
  • 什么是node.js、npm、vue
  • 洛谷 P1157:组合的输出 ← dfs
  • 简单三步FastAdmin 开源框架的安装
  • 如何将图像插入 PDF:最佳工具比较
  • 45. 跳跃游戏 II
  • Vue-05(自定义事件)
  • 汽车售后诊断数据流详细分析
  • linux 安装python
  • 性能测试工具选型指南
  • 二级域名怎么申请?二级域名申请费免费吗?
  • Android Studio 解决报错 not support JCEF 记录
  • 【C/C++】chrono简单使用场景
  • 国密SSL证书有哪些技术优势?
  • 基于qt5和stk10开发的互联调试
  • 黑马程序员C++核心编程笔记--4 类和对象--封装
  • Unity中的JsonManager
  • C++双线程交替打印奇偶数(活泼版)
  • 2024 CKA模拟系统制作 | Step-By-Step | 15、查看Pod日志