当前位置: 首页 > backend >正文

落霞归雁:从自然之道到“存内计算”——用算法思维在芯片里开一条“数据高速航道”

作者
落霞归雁(CSDN首发,转载请注明)

段落一 · 现象:当“摩尔”老去,数据却在狂奔

过去 30 年,CPU 频率翻了 60 倍,而 DRAM 带宽只翻了 20 倍。算力与带宽的剪刀差,让“计算”变成“等数据”。

以推荐系统为例,一次用户点击要跨 3 级缓存、4 次内存、2 次网络,延迟 200 µs;其中 70 % 时间花在“把数据搬到 ALU”。

落霞归雁的观察——自然界的能量传递遵循“最小作用量原理”,信息也该如此:让数据就地生长,而不是跋山涉水。

段落二 · 规律:存内计算为何是“下一道洋流”

  1. 技术规律:SRAM/DRAM 工艺演进,让“存储单元 + 计算单元”单片共存成为现实。
  2. 算法规律:矩阵乘、卷积、图遍历的 80 % 访存模式呈局部可预测,天然适合“near-data computing”。
  3. 商业规律:每降低 1 % 的 DRAM 访问,云厂商可节省 0.5 % 总拥有成本(TCO),对应全球百亿美金市场。

段落三 · 应用:一条 3 mm² 的“算法高速公路”

案例:得物推荐精排模型 neuron-csprd-r-tr-rel-cvr-v20-s6,原在 CPU 上特征解析占用 61 % 时间,其中 18 % 是纯浮点转换。
• 算法设计:把 Double.parseDouble 的逐字符解析改为基于 Ryu 算法的查表+并行前缀计算,复杂度 O(n) → O(1)。

• 存内实现:在 SRAM bank 内嵌入 4-bit 查找表 + 8-bit 加法树,面积 0.2 mm²,功耗 < 5 mW。

性能结果:
• CPU 时间从 18 % → 0.19 %,RT 降低 25 %,节省 50 % 服务器。
• 若全量部署存内计算,可再省一次 DDR 访问,理论 RT 再降 20 %。

段落四 · 创新:把“动态规划”搬进 SRAM

子问题:大规模管网的最优压缩机控制是典型高维 DP,状态爆炸导致内存墙。
• 算法创新:

1.用近似动态规划(ADP)将状态空间从 10^6 压缩到 10^3;

2.在 SRAM 内做“状态-动作”查表 + 线性插值,访存次数由 10^4 次/决策降到 1 次。

• 行业落地:某天然气集团 2 年省下 20 亿元电费,压缩机启停次数下降 30 %。

段落五 · 实战:从 0 到 1 的 6 步落地模板

  1. 观察现象:用 eBPF 跟踪系统调用,把“热点指令 → 访存模式”画成热力图。
  2. 找规律:统计 7 天线上流量,发现 92 % 的矩阵乘尺寸落在 {64,128,256} 三档。
  3. 理论应用:把 GEMM 拆成 Winograd + Im2Col,计算密度提升 4×,适配 SRAM 带宽。
  4. 实践验证:
    • RTL 级仿真:吞吐 2 TOPS/W,面积 3 mm²;
    • FPGA 灰度:延迟从 320 µs → 45 µs;
    • A/B 上线:CTR +3.7 %,服务器缩容 40 %。

段落六 · 职业地图:谁在为“算法+芯片”搭桥

• 算法芯片协同设计工程师(Algorithm-Silicon Co-design)
• 性能架构师(Perf Architect)
• 存内计算 RTL 设计专家(In-Memory Compute Designer)
• 领域专用编译器工程师(DSL Compiler)
• 业务增长数据科学家(Growth DS)

段落七 · 长期主义:让算法像树一样生长

落霞归雁始终相信:技术演进不是“替代”,而是“共生”。

存内计算不会消灭 CPU,而是把 80 % 的低熵计算下沉到存储;CPU 则专注高熵决策。

正如森林里的光,被树叶层层过滤,最终落在最适合的地方。算法、芯片、业务,三者也将在“最小作用量”的自然律下,找到各自的光斑。

附录 · 代码片段(Verilog,节选)
module dp_ram_lut #(
parameter ADDR_WIDTH = 10,
parameter DATA_WIDTH = 16
)(
input wire clk,
input wire [ADDR_WIDTH-1:0] addr,
input wire [DATA_WIDTH-1:0] din,
input wire we,
output reg [DATA_WIDTH-1:0] dout
);
always @(posedge clk) begin
if (we) mem[addr] <= din;
dout <= mem[addr];
end
reg [DATA_WIDTH-1:0] mem [0:(1<<ADDR_WIDTH)-1];
endmodule

致谢
感谢得物技术团队、UCL RC18 课题组、某天然气集团算法部提供真实数据与反馈。

http://www.xdnf.cn/news/17021.html

相关文章:

  • Vue3核心语法进阶(Props)
  • 【C# Winform】 Action事件驱动的多层数据传递
  • 8.5PPT总结各种攻击
  • 37.【.NET8 实战--孢子记账--从单体到微服务--转向微服务】--扩展功能--增加Github Action
  • Linux NFS 服务部署、客户端配置及 autofs 自动挂载操作指南
  • 嵌入式硬件中运放内部底层分析
  • 区块链:重构信任的价值互联网革命​
  • CNN卷积神经网络之注意力机制CBAM(六)
  • 【android bluetooth 协议分析 01】【HCI 层介绍 30】【hci_event和le_meta_event如何上报到btu层】
  • uniapp Android App集成支付宝的扫码组件mPaaS
  • Linux 内存管理之 Rmap 反向映射(二)
  • Kafka-Eagle 安装
  • 江协科技STM32学习笔记1
  • AlexNet训练和测试FashionMNIST数据集
  • 什么是越权漏洞?如何验证。
  • c++介绍
  • cJSON库应用
  • Python高级编程与实践:Python装饰器深入解析与应用
  • 【数据结构初阶】--排序(三):冒泡排序,快速排序
  • BeeWorks私有化即时通讯,局域网办公安全可控
  • Python基础框架
  • 改进的BP神经网络算法用于预测温度值的变化
  • 剑指offer第2版:字符串
  • jenkins插件Active Choices的使用通过参数动态控制多选参数的选项
  • java web 未完成项目,本来想做个超市管理系统,前端技术还没学。前端是个简单的html。后端接口比较完善。
  • mq_timedsend系统调用及示例
  • 朴素贝叶斯(Naive Bayes)算法详解
  • 使用 ECharts 实现小区住户数量统计柱状图
  • 豆包新模型与 PromptPilot 实操体验测评,AI 辅助创作的新范式探索
  • 涨薪技术|Kubernetes(k8s)之Pod生命周期(上)