科研 | 光子技术为人工智能注入新动力
译《Nature》25.4.9 发表文章《A photonic processing boost for AI》
▶
基于人工智能(artificial intelligence, AI)的系统正被越来越广泛地应用于从基因数据解码到自动驾驶的各类任务。但随着AI模型的规模和应用的扩大,性能天花板与能耗壁垒正逐渐显现。
如今计算机芯片中晶体管性能趋于稳定,但支撑AI模型所需的算力将使当今电子硬件达到极限。与此同时,AI的整体能源需求正在飙升¹,这不仅加剧了碳排放,还对数据中心周边的电网造成了压力。2023年9月,微软(Microsoft)与美国一座核电站签署独家供电协议,为其AI发展目标提供能源支持。
为实现更具可持续性的未来,基础数据处理的硬件需要一场根本性的革新。在《自然》杂志上,Hua²以及Ahmed等人³通过硅光子学(silicon photonics):一种基于光而非电的半导体芯片技术。展示了互补性突破,在提升计算性能的同时降低能耗。
他们的电子-光子计算系统(electronic–photonic computing systems)在关键性能指标上与实际应用中的纯电子处理器相当,某些方面甚至更优。这标志着人类朝着最终实现光子计算(photonic computing)的承诺迈出了重要一步。
▶
尽管多项尖端实验已证明集成光子学(integrated photonics)加速计算的潜力⁴⁻⁶,但这些研究大多孤立地评估光子芯片性能。然而现实系统中的数据普遍源自电子领域,因此光子计算需要与电子器件实现紧密集成与协同设计(co-design)。
事实上,这两种技术是互补关系而非竞争者。光子学(photonics)在执行输入与输出数据呈简单比例关系的线性运算(linear operations)时比电子学(electronics)更高效,而电子学则擅长处理输入输出通过非比例复杂数学函数关联的非线性运算(nonlinear operations)。
光子计算(photonic computing)在执行矩阵乘法(matrix multiplications)——常称为乘累加运算——时具有特殊价值。此类运算不仅是人工智能神经网络的数学基础,也广泛存在于资源分配、网络设计、调度优化和供应链物流等领域的组合优化问题中。
高效解决这些问题是现代计算系统的核心目标,通常由图形处理器(GPU)和张量处理器(TPU)等专用电子加速器完成。与传统中央处理器(CPU)的串行处理架构相比,这些加速器的高度并行化架构更适合执行MAC运算。
最新研究²,³表明,硅光子计算(silicon photonic)可显著提升关键性能指标,同时降低能耗并完整支持标准AI工作负载。新加坡Lightelligence公司的Hua团队²专注于组合优化问题,而美国加州山景城Lightmatter公司的Ahmed团队³则致力于运行大型语言模型(large language models)等前沿AI任务。
Hua团队²利用其光子算术计算引擎(Photonic Arithmetic Computing Engine, PACE)解决一类被称为伊辛问题(Ising problems)的组合优化挑战,这类问题在物流与调度优化等现实场景中应用广泛。
他们将其性能与英伟达(NVIDIA)A10 GPU进行直接对比:在涉及64×64矩阵乘法的伊辛模型中,最低延迟从2,300纳秒降至5纳秒,降幅近500倍。此外,PACE的延迟扩展系数比TPU低约1,000倍,意味着随着矩阵规模增大,其延迟性能优势将进一步放大。
另一方面,Ahmed团队³展示了一种光子处理器(photonic processor),能够执行包括自然语言处理器BERT和主要用于图像识别的卷积神经网络ResNet在内的标准前沿AI模型,其准确度接近传统电子处理器(electronic processors)。研究者将该光子处理器应用于涵盖生成莎士比亚风格文本、影评情感分类(正面/负面),甚至运行电子游戏《吃豆人》(Pac-Man)(图1)等令人瞩目的现实AI任务。
▶
尽管取得重大突破,但光子计算若要成为电子加速器的商用替代方案仍需克服挑战。光计算(optical computing)的物理优势主要源于其超高的带宽与大规模并行处理能力⁷。
当前两项研究²,³受限于约1吉赫(gigahertz)的时钟频率(clock speed)——即处理器每秒可执行的操作次数,而光子架构与器件(photonic devices)可在极低功耗下支持超100吉赫⁸的运算速度。此外,两项实验均采用单色光和单一空间波导模式(spatial waveguide mode),未来可通过并行使用多频段与多空间模式实现性能跃升。最后,这些系统在商用AI部署的复杂动态工作负载下能否保持稳定性能仍有待验证。
尽管如此,光子计算加速器有望在短期内投入实际应用。关键突破在于:两项研究中的光子与电子芯片均在制造微电子芯片(microelectronic chips)的标准互补金属氧化物半导体(complementary metal-oxide-semiconductor, CMOS)代工厂完成生产,现有产业链可立即用于规模化制造。此外,两个系统均完整集成于标准"主板"接口——即技术术语中的高速外围组件互连(peripheral component interconnect express)接口,与现有接口和协议完全兼容。光子计算历经数十年发展,而这些成果可能意味着人类终将驾驭光的力量,构建更强效节能的计算系统。
量子光学 | 利用非厄米对称性过滤纠缠光子的新方法