← 返回主报告:[Podcast·2026-W21] Report
Dwarkesh Patel — Chip design from the bottom up – Reiner Pope
- Group: ai
- Channel: @DwarkeshPatel
- Published: 2026-05-22
- Duration: 1h 20m
- Language: en (auto)
- Evidence: youtube_subtitles
TL;DR
MatX CEO Reiner Pope 从逻辑门自底向上拆解 AI 芯片。核心原语是乘加 (multiply-accumulate),因为矩阵乘的每一步都是它,且累加需比乘法更高精度。用 AND 门生成部分积、用全加器 (3→2 压缩) 做 Dadda 乘法器,面积约 p×q 个全加器。关键洞察:芯片面积随位宽呈二次方缩放,这正是低精度 (FP4/FP8) 高效的根因 (B300 FP4 应比 FP8 快约 4 倍)。第二条主线是"计算 vs 通信"贯穿全栈:在 CUDA 核里,从寄存器堆取数的 mux (n×p 门) 远比乘加单元 (p×q) 昂贵,约 7/8 面积浪费在搬数上;脉动阵列 (Tensor Core/TPU MXU) 把权重矩阵就地缓存、慢速涓流加载,使通信只随 x 而非 xy 增长,从而最大化算力占比。还讲了时钟周期由反馈回路临界路径决定、流水线寄存器插入、FPGA 用 LUT(本质是 mux 真值表) 换灵活性故比 ASIC 贵约 10 倍、CPU 缓存导致非确定延迟、TPU 用 scratchpad 把取数决策交给软件。可操作观察:设计芯片时先设定数据搬运占芯片面积的预算 (如 10%),再据此反推寄存器堆与脉动阵列的尺寸——这是耦合的核心 sizing 决策。