AI 基础概念一:芯片类型和软硬件框架
一、芯片类型简称,通用芯片常见CPU/GPU/NPU等, 在是否可编程和专用性上,常见有FPGA和ASIC。
CPU:Central Processing Unit(中央处理器)是计算机的核心部件,负责执行计算机程序的指令,处理各种数据运算、逻辑判断、控制调度等通用计算任务,是系统的 “大脑”,广泛应用于电脑、手机、服务器等各类设备。
GPU:Graphics Processing Unit(图形处理器)最初专为处理图形渲染任务设计,擅长并行计算,能高效处理大量重复的图形数据运算。如今也被广泛用于深度学习、科学计算、 cryptocurrency 挖矿等需要大规模并行处理的场景。
NPU:Neural Processing Unit(神经处理单元)是一种专门为人工智能(AI)任务设计的处理器,尤其擅长处理神经网络相关的计算,如机器学习模型的训练和推理。其架构针对深度学习算法优化,能显著提升 AI 任务的处理效率,常见于智能手机、智能摄像头、AI 加速芯片等设备中。
FPGA Field-Programmable Gate Array(现场可编程门阵列)是一种半定制集成电路,内部包含大量可编程逻辑单元(如查找表、触发器、寄存器等)和互连资源,用户可通过硬件描述语言(如 Verilog、VHDL)对其进行编程,灵活配置电路功能。典型应用:通信设备(如路由器、交换机)、工业控制、汽车电子(自动驾驶原型验证)、航空航天、算法原型开发等。
ASIC Application-Specific Integrated Circuit(专用集成电路)为特定应用场景定制设计的集成电路,功能在芯片制造时就已固化,无法后期修改。典型应用:手机芯片(如骁龙、天玑)、数字货币挖矿芯片、智能卡芯片等。
DCU(Data Center Unit,数据中心级协处理器)是面向数据中心高性能计算和 AI 场景设计的专用加速芯片,主要用于协同 CPU 处理大规模并行计算任务(如深度学习训练 / 推理、科学计算、数据密集型处理等),是国内芯片厂商在高性能计算领域的重要布局方向
二、英伟达AI芯片(GPU)
英伟达当前主流的AI芯片包括Blackwell系列(如B200、GB200、Blackwell Ultra)、Hopper系列(如H100、H800)、Ampere系列(如A100、A800),以及面向中国市场的特供版B40/6000D,同时已预告下一代Rubin架构芯片(2026年发布)。
Blackwell架构(2024-2025年主力产品)
B200:基础款,支持大规模AI模型训练与推理,性能较Hopper提升显著。GB200:集成Grace CPU的超级芯片系统,适用于数据中心级AI负载。Blackwell Ultra:2025年升级版,计算性能较GB200提升1.5倍,内存带宽增至288GB。特供中国版B40/6000D:基于Blackwell架构调整,预计2025年7月发布。Hopper架构(2022 2023年主力产品)
H100:支持FP64/FP32高性能计算,Tensor Core性能突出。H800:针对大模型训练优化,显存带宽效率更高。Ampere架构(早期产品)
A100:全能型芯片,兼顾深度学习与通用计算。A800:显存减半,侧重轻量级AI任务。
NV的AI芯片,包含 A系列 (如 A100 )、 H系列 (如 H100 )和 Blackwell架构 芯片(如 B200 )。这些都是GPU类型。2025年7月发布的 GB200芯片系统整合了Blackwell架构GPU与 Grace CPU ,支持16TB/s显存带宽,专用于高性能AI推理任务。
三、华为昇腾芯片Ascend(NPU)
包括昇腾910和昇腾310处理器, 采用自家的达芬奇架构。 昇腾910支持全场景人工智能应用,而昇腾310主要用在边缘计算等低功耗的领域。
2019年8月23日,华为在深圳正式发布昇腾910芯片及MindSpore开源框架。昇腾910采用Chiplet方案,一共8个die, 4个HBM用于存储,1个soc die用于控制计算, 一个NIMBUS die用于通信,2个dummy die用于结构平衡。
2023年发布910B,在910的基础上主要是提高了互联能力。2024发布910C,主要是2片910B通过D2D在基板互联组成。
CloudMatrix 华为云的矩阵算力架构。CloudMatrix 384 是华为云发布的 AI 超节点,搭载 384 颗昇腾 910C AI 处理器。
四、寒武纪(ASIC)
寒武纪AI芯片更多归类为专用AI芯片。通过自研的MagicMind 工具链实现对主流深度学习框架的支持。MagicMind类似NVIDIA 的CUDA和华为的CANN框架。通过MagicMind支持上层TensorFlow、PyTorch深度学习框架。
云端芯片(思元系列)MLU370:面向大模型训练与推理,集成 32 核思元处理器,峰值算力 256TOPS(INT8),支持 HBM2e 内存,带宽达 1.2TB/s;
边缘端芯片 MLU270:主打低功耗与高性能平衡,算力 128TOPS(INT8),功耗仅 75W,适用于智能安防、自动驾驶等场景;
终端 IP(寒武纪 1M/2M/1H 等):为智能手机、IoT 设备提供 AI 加速核心,例如寒武纪 1H16 集成 16 核神经元处理器,算力达 1TOPS。
五、其他国产AI芯片提供商
地平线:征程系列芯片是其核心产品,征程 6 芯片覆盖全场景智驾需求,通过软硬协同优化能效比,在车载 AI 芯片领域具有较强竞争力。
海光信息:以 DCU 协处理器为特色,深算二号支持 FP32 精度,国产 x86 服务器渗透率提升至 25%,在高性能计算领域表现突出,其 DCU 已在科教、金融、医疗等多个领域实现规模化应用。
摩尔线程:采用 MUSA 架构 GPU,兼容 CUDA,4 代芯片迭代速度行业第一,雪浪 MindCenter 一体机适配 DeepSeek - R1 推理,具备覆盖 GPU 芯片全生命周期的自主研发能力。
平头哥:推出的含光800已在阿里云数据中心全栈部署,可将推理成本降低 50%,聚焦 AIoT 轻量化场景。
燧原科技:邃思 2.0 训练芯片 FP32 算力 40TFlops,在金融风控领域市占率较高。
景嘉微:JM9 系列 GPU 通过军用认证,在军工和民用信创领域均有不错表现。
昆仑芯:百度自研的昆仑 2 代量产超 2 万片,搜索与智能云业务自供率 100%,3 代芯片适配文心大模型,为百度自身业务及相关场景提供了强大的算力支持。
壁仞科技:BR100 芯片 FP32 算力 128TFlops,采用 7nm+Chiplet 工艺,目前在高性能计算场景中进行验证,未来发展潜力较大。
六、AI领域常见设备架构和深度学习框架
CUDA: Compute Unified Device Architecture计算统一设备架构。为了充分发挥GPU的通用计算能力,英伟达在2006年推出了CUDA平台。CUDA是一个软件平台,它为用户提供了一套完整的开发工具和库函数,让开发者能够轻松地将应用程序移植到GPU上运行,从而实现并行计算,大幅提升计算效率。CUDA的推出,标志着GPU通用计算时代的到来。越来越多的应用程序开始使用GPU进行加速,例如深度学习、高性能计算、数据分析等。CUDA平台的成功,也让英伟达在GPU领域确立了绝对的领先地位。
CANN(Compute Architecture for Neural Networks)异构计算框架。CANN 是华为专门为 AI 场景设计的异构计算架构,类似于英伟达的 CUDA。它针对的是华为自家的昇腾 AI 处理器,作用是连接上层 AI 框架(如 TensorFlow、PyTorch、MindSpore 等)和底层昇腾硬件,通过优化计算任务调度和资源管理,最大化昇腾芯片的性能。
MindSpore:为华为推出的一款开源、全场景支持的深度学习框架,旨在为开发者提供高效、灵活且易于使用的 AI 开发工具。作为昇腾 AI 计算平台的核心软件栈之一,MindSpore 深度适配昇腾芯片(如昇腾 910),同时支持 GPU、CPU 等多硬件平台,广泛应用于计算机视觉、自然语言处理、语音识别等领域。
TensorFlow:是由 Google 开发并开源的深度学习框架,被广泛应用于各类机器学习任务,包括图像识别、自然语言处理、语音识别和预测分析等。作为深度学习领域的先驱框架之一,TensorFlow 提供了从模型构建、训练到部署的全流程支持,尤其在工业级应用和大规模分布式训练中表现出色。
PyTorch 是由 Meta(原 Facebook)开发并维护的开源深度学习框架,以其动态计算图、Pythonic 设计和学术友好性著称。作为近年来增长最快的深度学习框架之一,PyTorch 广泛应用于计算机视觉、自然语言处理、语音识别等领域,尤其在学术研究和快速原型开发中占据主导地位。
NVIDIA 并未直接推出类似 TensorFlow/PyTorch 的通用深度学习框架,但开发并开源了多个在特定领域(如深度学习优化、推理部署、科学计算等)提供类似功能的框架。如TensorRT 定位高性能深度学习推理优化器与运行时库,用于模型部署(如自动驾驶、视频分析、语音助手)。
七、芯片制造常见技术术语
Chiplet 芯粒 是指将传统单一大芯片(Monolithic SoC)拆解为多个功能相对独立的小型芯片(如计算芯粒、存储芯粒、接口芯粒等),通过先进封装技术(如 3D IC、CoWoS 等)将这些芯粒互联集成,形成一个功能完整的系统级芯片(SoC)。
Die 指的是从半导体晶圆(Wafer)上切割下来的、具有完整电路功能的单个硅片单元。它是芯片未进行封装前的 “原始形态”
HBM(High Bandwidth Memory,高带宽内存) 是一种专为高性能计算(HPC)、人工智能(AI)和图形处理设计的先进存储技术,以超高带宽和能效比著称,是当前高端芯片(如 GPU、AI 加速芯片)的核心配套存储方案。
Dummy Die 通常指模拟芯片或虚拟芯片,也被称为填充芯片(Filler Die)或结构芯片(Structural Die)它是一种特殊的晶圆结构,用于模拟实际芯片在制造过程中的行为,但不具备实际芯片的全部功能,可以提供结构支撑、辅助热管理和优化工艺与提升良率。