当前位置: 首页 > news >正文

存算一体:重构AI计算的革命性技术(2)

三、存算一体领域的主要企业与产品

3.1 国际领军企业:Mythic与Graphcore

3.1.1 Mythic:模拟内存计算的先行者

Mythic是存算一体领域的先行者,成立于2012年,总部位于美国德克萨斯州奥斯汀和加利福尼亚州硅谷,由Mike Henry和Dave Fick共同创立。公司专注于开发独特的模拟内存计算技术和模拟矩阵处理器,为AI推理提供节能解决方案,特别是在物联网、机器人和消费设备等边缘应用中。

Mythic的核心产品是模拟矩阵处理器(AMP,Analog Matrix Processor),这是一种将闪存与模拟计算集成在一起的创新架构,以实现低功耗、高性能的AI推理。每个AMP模块都包含Mythic ACE(模拟计算引擎),它结合了闪存、ADC、带有32位RISC-V处理器的数字子系统、SIMD矢量引擎和高吞吐量片上网络(NoC)。这种设计使Mythic的芯片能够提供高达25 TOPS的AI性能,同时最大限度地降低功耗和热挑战。

Mythic的旗舰产品M1076是该公司的首款商业芯片,集成了76个AMP块,可存储多达80M的数据,无需任何外部存储器即可执行矩阵乘法运算。该芯片已经向洛克希德马丁公司等知名客户发货,并在YOLOv5等全高清高精度物体探测器上实现了仅33毫秒的延迟,同时系统的运营成本也被控制在了合理的范围内。

2023年,Mythic宣布完成了1300万美元的新一轮融资,用于将下一代产品M2000系列推向市场。M2000建立在M1076的基础之上,效能是普通数字解决方案的10倍,未来将广泛应用于无人机、摄像头、沉浸式AR头盔和巨型机器人等各类产品,为国防应用、企业、工业环境、智能城市、智能家居等领域开创下一个人工智能新时代。

Mythic的技术优势在于其模拟计算方法,与数字处理器相比,在性能和效率上有巨大的飞跃。据报道,Mythic的模拟内存计算技术与行业标准的AI推理数字CPU相比,价格便宜10倍,功耗低3.8倍,执行速度快2.6倍。这使得Mythic能够为边缘AI应用提供高性价比的解决方案。

3.1.2 Graphcore:IPU架构的创新者

Graphcore是另一家在存算一体领域具有重要影响力的公司,成立于2016年,总部位于英国布里斯托尔。公司专注于研发智能处理单元(IPU,Intelligence Processing Unit),为AI计算提供全新的技术架构,同时将训练和推理合二为一,兼具处理二者工作的能力。

Graphcore的IPU采用了与传统GPU完全不同的架构设计。IPU芯片没有高速的片外存储,而是把存储放到了片上。整个芯片由多个核心组成,称作Tile。每个Tile由独立的计算单元和存储单元组成,整个片上存储是分布式的。每个Tile中有624KB的SRAM,整个芯片的存储大小为624KB乘以Tile数量。例如,GC200 IPU处理器有1472个Tile,整个芯片的存储容量约为900MB。

IPU芯片采用纯分布式的架构,每个Tile有自己的存储和计算资源,采用MIMD(多指令多数据)的计算架构(与NVIDIA CUDA的SIMT不同),每个Tile可以独立地执行不同的指令,可以独立地访存。Tile和Tile之间的memory不能共享访问Tile和Tile之间的memory不能共享访问,只能访问自己Tile内部的memory(称为local memory)。因此,整个芯片的访存带宽等于单个Tile访存带宽乘以Tile数量,这使得IPU能够提供极高的内存带宽,有效缓解“存储墙”问题。

在软件支持方面,Graphcore开发了Poplar SDK,从芯片设计阶段就与硬件协同优化,支持主流机器学习框架(如TensorFlow、PyTorch),能将复杂神经网络模型高效映射到IPU架构上。其独特的编程模型无需开发者手动管理数据在不同Tile间的分配,SDK会自动完成任务拆分与数据调度,降低开发门槛。

Graphcore的IPU产品系列以IPU-M2000为代表,它基于Colossus Mk2 IPU核心,集成1 PetaFLOP的AI计算能力,拥有3.6GB处理器内内存和256GB流式内存,采用1U刀片式设计,可灵活组建IPU-POD集群(如IPU-POD256含64个IPU-M2000,算力达64 PetaFLOPS),适用于大模型训练与大规模推理场景。

不过,Graphcore的发展也面临挑战:2022财年营收270万美元(同比降46%),亏损扩大至2.046亿美元;受美国AI半导体出口管制影响,2023年其中国区大幅裁员并停止在华销售;2024年7月,Graphcore被软银以约5亿美元收购(较2020年28亿美元估值缩水82%),虽保留原有品牌运营,但市场竞争力较英伟达等头部企业仍有差距。

3.2 中国创新企业:知存科技、后摩智能与九天睿芯

3.2.1 知存科技:中国存算一体产业化先行者

知存科技成立于2018年,总部位于北京,是国内最早实现存算一体芯片量产的企业之一,核心技术聚焦基于非易失性存储器(RRAM/忆阻器)的存内计算,创始人王绍迪团队拥有多年存储芯片研发经验,技术积累覆盖从器件设计到系统集成的全链条。

公司的核心产品是WTM系列存内计算SoC芯片,其中2022年量产的WTM2101是国际首颗商用存内计算SoC,采用40nm工艺,集成180万个非易失性存储计算单元,支持8bit精度矩阵乘加运算,通过特殊电路设计抑制阈值电压漂移对精度的影响,可直接运行DNN、CNN、RNN等神经网络模型。

在性能与功耗平衡上,WTM2101表现突出:运行高算力AI算法时功耗低至微安级,免唤醒命令词识别(数百个指令)整体功耗<1mA,NN环境降噪算法功耗仅1-3mA,典型场景工作功耗达微瓦级,远低于传统数字芯片(如同等算力的MCU+NPU方案功耗通常在几十至几百毫安)。

商业化进展方面,WTM2101上市不到1年便落地可穿戴设备(智能手表健康监测)、TWS耳机(语音唤醒)、智能家居(离线语音控制)、助听辅听设备(实时降噪)等场景,合作客户包括华为、小米生态链企业及头部消费电子厂商。此外,知存科技还推出配套开发工具链,支持模型量化、编译优化与调试,降低客户集成难度。

技术路线上,知存科技选择RRAM作为核心存储介质,优势在于:与CMOS工艺兼容性好(已在台积电40nm、22nm节点验证)、掉电数据不丢失(适合低功耗待机场景)、存储密度高(支持3D堆叠扩展)。2024年,公司推出升级版WTM3000,算力提升至512 GOPS,支持16bit精度计算,可适配更复杂的边缘AI任务(如轻量化图像识别)。

3.2.2 后摩智能:端侧大模型存算一体突破者

后摩智能成立于2020年,总部位于上海,由前地平线芯片架构师吴强博士创立,核心方向是基于SRAM的存算一体芯片,主打“端侧大模型部署”场景,解决传统芯片在端侧运行百亿参数模型时“算力不足、功耗过高”的痛点。

公司的旗舰产品后摩漫界M50(2025年Q4量产)是国内首款单芯片支持百亿参数大模型的存算一体芯片,采用自研第二代IPU架构“天璇”,核心参数亮眼:

  • 算力:160 TOPS(INT8精度)、100 TFLOPS(bFP16精度);
  • 存储:最大48GB内存,内存带宽153.6 GB/s;
  • 功耗:典型功耗仅10W(相当于手机快充功率),能效比是传统GPU的5-10倍;
  • 兼容性:直接支持浮点运算(无需模型量化),可运行1.5B-70B参数模型(如Llama 2、Qwen-7B)。

为降低开发门槛,后摩智能重构了编译器“后摩大道”,采用自动优化算子技术:开发者只需输入模型Graph,编译器会自动搜索最优计算策略,无需手动调整数百个优化参数;同时支持TensorFlow/PyTorch模型直接导入,避免传统存算芯片需“模型重写”的麻烦。

基于M50的多芯互联技术,后摩智能推出多元化硬件方案:

  • 力擎LQ50 M.2卡(口香糖大小):适配AI PC、陪伴机器人,支持7B模型推理(>25 tokens/s);
  • 力谋LM5070加速卡(4颗M50芯片):算力640 TOPS,用于边缘服务器大模型推理;
  • BX50计算盒子:支持32路视频分析+本地大模型运行,适用于智能安防、工业检测。

商业化方面,后摩智能已与联想(下一代AI PC)、科大讯飞(智能语音设备)、中国移动(5G+AI边缘盒子)达成合作,聚焦消费终端、智能语音、运营商边缘计算三大场景,填补了端侧大模型高效部署的市场空白。

3.2.3 九天睿芯:感存算一体化创新者

九天睿芯2018年成立于深圳,由《麻省理工科技评论》“全球35岁以下科技创新者”刘洪杰博士创立,核心技术是“感存算一体化”——将传感器(如图像、语音传感)、存储、计算功能集成在单芯片,主打低功耗、高实时性的边缘智能场景(如机器人、工业传感)。

公司的技术突破在于模数混合存算架构:不同于纯数字或纯模拟方案,九天睿芯在芯片内集成“模拟传感前端+数字存算核心”,传感器采集的原始数据(如模拟电压信号)无需先转换为数字信号,可直接在存储单元内进行预处理(如滤波、特征提取),再通过数字存算核心完成复杂AI计算,大幅减少数据转换损耗,能效比提升10倍以上。

代表性产品ADA200视觉存算芯片(2024年量产),采用28nm工艺,集成图像传感单元、RRAM存算阵列和RISC-V控制核心,支持VGA分辨率图像实时处理(帧率30fps),功耗仅50mW,可对标苹果XR设备的R1芯片,适用于AR眼镜、机器人视觉、工业内窥镜等场景。

在技术落地中,九天睿芯采用“产学研协同”模式:与深圳清华研究院共建“存算一体联合实验室”,将高校的器件优化技术(如低噪声RRAM)转化为量产方案;与富士康、大疆等企业合作,针对工业机器人、无人机的“低延迟环境感知”需求定制芯片功能,2025年预计实现营收突破5亿元。

3.3 其他关键企业与产品

3.3.1 英特尔:近存计算探索者

作为半导体行业巨头,英特尔从2016年起布局存算一体,技术路线以“近存计算(Near-Memory Computing)”为主——在传统CPU缓存或内存控制器附近嵌入专用计算单元,而非完全将计算融入存储,兼容性更强,适合数据中心场景。

其代表性技术是至强处理器PIM模块:在至强可扩展处理器的L4缓存区域集成AI加速单元,支持矩阵乘加、卷积等基础AI运算,可加速数据库查询、推荐系统等数据密集型任务。实验数据显示,在企业级数据中心场景中,搭载PIM模块的至强处理器处理大规模结构化数据时,性能提升30%,延迟降低40%,且无需修改现有软件生态(兼容x86指令集)。

此外,英特尔还联合密歇根州立大学研发基于SRAM的“神经缓存”(2018年发布),可在缓存内直接执行加法、乘法运算,为CPU提供原生AI算力,适用于轻量级推理任务(如实时日志分析)。不过,英特尔的方案更偏向“传统架构升级”,能效比与纯存算一体芯片(如Mythic M1076)相比仍有差距,主要面向对兼容性要求高的存量数据中心市场。

3.3.2 三星:HBM-PIM技术引领者

三星作为全球存储芯片龙头,将存算一体技术与高带宽内存(HBM)结合,推出HBM-PIM(Processing-in-Memory)产品,聚焦AI训练与高性能计算(HPC)场景,解决传统HBM需频繁与GPU交互的“数据搬运瓶颈”。

三星HBM-PIM的核心设计是在HBM内存颗粒内部嵌入简单计算单元(如乘加器),支持在内存中直接完成部分矩阵运算:当GPU需要处理大规模数据时,可将部分计算任务(如中间结果累加)卸载到HBM-PIM中,减少数据在GPU与HBM间的传输量。2024年与欧洲粒子物理研究所(CERN)合作的AI气候模拟项目中,基于三星HBM-PIM的计算平台,数据处理速度提升2.5倍,能耗降低60%,原本需3个月的模拟任务缩短至1.2个月。

此外,三星还布局基于MRAM的存算一体芯片(2022年《Nature》发表成果),采用28nm工艺,通过“电阻总和”架构替代传统“电流总和”设计,在图像分类任务中准确率达98%,适合低功耗边缘场景(如物联网传感器)。目前,三星正推动HBM-PIM的标准化,计划2026年纳入JEDEC HBM3e规范,进一步扩大市场应用。

3.3.3 苹芯科技:端侧轻量场景专注者

苹芯科技成立于2021年,总部位于上海,聚焦智能可穿戴、智能家居等“小端侧”场景,避开与巨头的正面竞争,技术路线基于成熟SRAM工艺,主打“低成本、低功耗”存算一体芯片。

其核心产品S300系列(2023年量产)集成轻量级MCU核心与数字存算单元,采用55nm工艺,算力达128 GOPS(INT8),功耗仅8mW,支持语音唤醒、简单手势识别等任务。在智能手表健康监测场景中,S300可实时分析心率、血氧数据,无需依赖云端,响应延迟<100ms,相比传统“MCU+独立NPU”方案,成本降低40%,尺寸缩小60%,已进入小米、荣耀等品牌的可穿戴设备供应链。

苹芯科技的策略是“场景深耕”:针对不同端侧设备的需求定制功能(如为TWS耳机优化语音降噪算法,为智能门锁简化图像识别模型),并提供“芯片+算法+开发板”的一体化方案,帮助客户快速落地产品,2025年目标覆盖5000万台端侧设备。

http://www.xdnf.cn/news/1440883.html

相关文章:

  • “互联网 +”时代商业生态变革:以开源 AI 智能名片链动 2+1 模式 S2B2C 商城小程序为例
  • 小程序点击之数据绑定
  • 深度学习三大框架对比评测:PaddlePaddle、PyTorch 与 TensorFlow
  • 从零开始的python学习——列表
  • OpenCV的阈值处理
  • 华为云Stack Deploy安装(VMware workstation物理部署)
  • LabVIEW信号频谱分析与限测系统
  • 190页经典PPT | 某科技集团数字化转型SAP解决方案
  • 开源 + 免费!谷歌推出 Gemini CLI,Claude Code 的强劲对手
  • Java设计模式之结构型—代理模式
  • leetcode算法刷题的第二十五天
  • Python:AI开发第一语言的全面剖析
  • Springboot3+SpringSecurity6Oauth2+vue3前后端分离认证授权-客户端
  • 【机器学习入门】5.4 线性回归模型的应用——从CO₂浓度预测学透实战全流程
  • 远程的 develop 比你本地的 develop 更新,Git 拒绝直接覆盖
  • 【55页PPT】旧QC七大手法培训精选讲义(附下载方式)
  • 深入解析Flowable工作流引擎:从原理到实践
  • 2 XSS
  • 深入掌握sed:Linux文本处理的流式编辑器利器
  • PHP如何解决使用国密SM4解密Base64数据错误问题?(基于lpilp/guomi)
  • 协议分析基础
  • 以技术共享点燃全球能源变革新引擎的智慧能源开源了
  • 低代码革命遇瓶颈?这个“套娃神技“才是破局关键!
  • 在Excel和WPS表格中隔多行插入一个空白行
  • 多场景对练数据的 Excel 横向导出方案(EasyExcel 动态表头实践)
  • 【XR硬件系列】Vivo Vision 与 Apple VisionPro 深度技术对比:MR 时代的轻量化革命与生态霸权
  • 单元测试数据库回滚问题
  • Android音频学习(十六)——CreateTrack
  • 资产管理还靠Excel?深度体验系统如何让企业高效数字化升级!
  • 自然语言处理深层语义分析中公理化体系的可行性、挑战与前沿进展