当前位置: 首页 > news >正文

显卡及相关大模型部署需求概述

显卡性能对比
在这里插入图片描述
在这里插入图片描述

FP8 和 FP16 是两种不同的浮点数表示方式,它们主要用于计算领域,特别是在深度学习和高性能计算中,用于高效地进行数值运算。

FP16 是一种 16 位的浮点数表示方式,总长度:16 比特,
内存效率高:相较于 FP32,FP16 减少了内存使用量,使得计算和数据传输快速。
适中精度: 提供足够的计算精度,适用于大多数深度学习应用
硬件支持广泛: 许多现代 GPU 包括 NVIDIA 的 Tensor Core,都支持 FP16 优化计算

1.DeepSeek R1 671B(FP16) * 2= 1342

DeepSeek R1 原生(FP8)版:使用FP8数据精度,显存需求大概在750GB以上,是DeepSeek官方最推荐的配置。

DeepSeek R1 量化版本(INT8甚至INT4精度):显存虽然变小(335G即可),但模型表现却大打折扣

96G*16卡=1536(ADP卡)

2.运行qwen2-72b, FP16(2个字节),依赖显存:72*2=140G

1).华为910B,支持FP32和FP16精度,单卡性能对标英伟达A100:
64G,3张卡

2).海光k100-ai,64G,3张卡

2).nvidia-A800-80G ,2张卡

A100, 40/80GB
H100(特供版),FP16算力高达756 TFLOPS,显存带宽达3.35 TB/s
A800
H800(特供版)
H20

http://www.xdnf.cn/news/66547.html

相关文章:

  • 靠华为脱胎换骨,但赛力斯仍需要Plan B
  • 【Linux网络编程十】网络原理之IP协议【网络层】
  • 悬空引用和之道、之禅-《分析模式》漫谈57
  • SystemWeaver详解:从入门到精通的深度实战指南
  • css3新特性第五章(web字体)
  • 极狐GitLab Git LFS 速率限制如何设置?
  • mysql的binlog,redolog,undolog的区别
  • 安卓垂直进度条
  • 学习深度学习是否要先学习机器学习?工程师的路径选择策略
  • 部署Kimi-VL-A3B-Instruct视频推理
  • AgentGPT开源程序可以在浏览器中组装、配置和部署自主人工智能代理
  • FramePack:让视频生成更高效、更实用
  • 从0到1学习X-File-Storage:一站式文件存储解决方案
  • spark基础介绍
  • C++中函数的实现写在头文件内
  • Linux系统的介绍及操作系统的基本概念
  • 赛灵思Xilinx FPGa XCKU15P‑2FFVA1156I AMD Kintex UltraScale+
  • Qt6文档阅读笔记-RESTful API Server解析
  • 从C语言变量看内存
  • BR_调制特性(RF/TRM/CA/BV-07-C [Modulation Characteristics])
  • [密码学基础]GB与GM国密标准深度解析:定位、差异与协同发展
  • 【C++】基于红黑树的map和set封装实现
  • 美信监控易:易用性卓越的智能运维管理平台
  • 详解机器学习各算法的优缺点!!
  • 算法——背包问题(分类)
  • DeepSeek与WPS的动态数据可视化图表构建
  • 2025 活体识别+人脸认证工具类【阿里云api,需要先申请试用】
  • NetApp ONTAP 9 故障磁盘更换操作指南
  • MySQL的窗口函数(Window Functions)
  • 实训Day-1 漏洞攻击实战