当前位置: 首页 > news >正文

【GPU并行计算】不同设备上的GPU性能分析

NVIDIA Gefore RTX 4080

CUDA Capability Major/Minor version number: 8.9​
设备的计算能力版本为8.9,表示支持的功能集和架构特性

​Total amount of global memory: 16057 MBytes (16836919296 bytes)​
显卡的全局内存总量为16GB

MapSMtoCores for SM 8.9 is undefined. Default to use 128 Cores/SM​
计算能力8.9的SM(流式多处理器)核心数未定义,默认每个SM有128个CUDA核心

(076) Multiprocessors, (128) CUDA Cores/MP: 9728 CUDA Cores​

  • 76个多处理器(SM)
  • 每个SM有128个CUDA核心
  • 总计:76 × 128 = 9728个CUDA核心

Warp size: 32​

线程束(Warp)大小为32,即每个Warp包含32个线程

Maximum number of threads per multiprocessor: 1536​

每个SM最多支持1536个线程(即,48个线程束)

Maximum number of threads per block: 1024​
每个线程块最多支持1024个线程

NVIDIA A100 

CUDA Capability Major/Minor version number: 8.0
设备的计算能力版本为8.0,表示支持的功能集和架构特性

​Total amount of global memory: 81053 MBytes (84990623744 bytes)​
显卡的全局内存总量为80GB

(108) Multiprocessors, (64) CUDA Cores/MP: 6912 CUDA Cores​

  • 108个多处理器(SM)
  • 每个SM有64个CUDA核心
  • 总计:108 × 64 = 6912个CUDA核心

Warp size: 32​

线程束(Warp)大小为32,即每个Warp包含32个线程

Maximum number of threads per multiprocessor: 2048​

每个SM最多支持2048个线程(即,64个线程束)

Maximum number of threads per block: 1024​
每个线程块最多支持1024个线程

Tesla T4 

CUDA Capability Major/Minor version number: 7.5
设备的计算能力版本为7.5,表示支持的功能集和架构特性

​Total amount of global memory: 14931 MBytes (15655829504 bytes)​
显卡的全局内存总量为14.9GB

(40) Multiprocessors, (64) CUDA Cores/MP: 2560 CUDA Cores​

  • 40个多处理器(SM)
  • 每个SM有64个CUDA核心
  • 总计:40 × 64 = 2560个CUDA核心

Warp size: 32​

线程束(Warp)大小为32,即每个Warp包含32个线程

Maximum number of threads per multiprocessor: 1024​

每个SM最多支持1024个线程(即,32个线程束)

Maximum number of threads per block: 1024​
每个线程块最多支持1024个线程

http://www.xdnf.cn/news/619687.html

相关文章:

  • 使用arXiv.org上的资源进行学术研究
  • 【agent】一个智能助手agent
  • PCIe学习笔记(3)链路初始化和训练
  • TCP为什么是三次握手,而不是二次?
  • JavaScript 语句标识符详解
  • 肝了三个月的Kaggle比赛学习路径,他来了。
  • 实用蓝牙耳机哪款好?先做好使用场景分析!
  • hysAnalyser特色的TS流编辑、剪辑和转存MP4功能说明
  • 系统架构设计师脑图
  • 未授权访问漏洞利用链实战总结
  • List转字符串去除[]和空格
  • Python基础知识(IO编程)
  • Python 项目中安装 OpenAI 库的详细指南
  • macOs系统M1芯片执行source ~/.zshrc报错503
  • 计算机系统结构 -第三章:指令集并行-2
  • 园区/小区执法仪部署指南:ZeroNews低成本+高带宽方案”
  • Linux入门(部分基础相关知识+常用命令+权限)
  • Baklib内容中台的AI技术支撑是什么?
  • 通过contenteditable实现仿豆包智能输入框
  • 解决PLSQL工具连接Oracle后无法使用ODBC导入器问题
  • 第三章、DQN(Deep Q-Network)
  • 【AS32X601驱动系列教程】PLIC_中断应用详解
  • PADS LAYOUT添加GND过孔
  • 小豆包api:claude-sonnet-4,Claude 最新模型
  • 卖家受益于WOOT推广的逻辑
  • 基于QuestionPicture的图片批量处理方法与实践
  • 2025 ICPC 南昌全国邀请赛暨江西省赛(8题题解)
  • 三格电子上新了——高频工业 RFID 读写器
  • 理解网卡RSS
  • 深入理解会话管理:Cookie、Session与JWT的对比与应用