← 返回主报告：[Podcast·2026-W21] Report

Dwarkesh Patel — Chip design from the bottom up – Reiner Pope

Group: ai
Channel: @DwarkeshPatel
Published: 2026-05-22
Duration: 1h 20m
Language: en (auto)
Evidence: youtube_subtitles

TL;DR

MatX CEO Reiner Pope 从逻辑门自底向上拆解 AI 芯片。核心原语是乘加 (multiply-accumulate)，因为矩阵乘的每一步都是它，且累加需比乘法更高精度。用 AND 门生成部分积、用全加器 (3→2 压缩) 做 Dadda 乘法器，面积约 p×q 个全加器。关键洞察：芯片面积随位宽呈二次方缩放，这正是低精度 (FP4/FP8) 高效的根因 (B300 FP4 应比 FP8 快约 4 倍)。第二条主线是"计算 vs 通信"贯穿全栈：在 CUDA 核里，从寄存器堆取数的 mux (n×p 门) 远比乘加单元 (p×q) 昂贵，约 7/8 面积浪费在搬数上；脉动阵列 (Tensor Core/TPU MXU) 把权重矩阵就地缓存、慢速涓流加载，使通信只随 x 而非 xy 增长，从而最大化算力占比。还讲了时钟周期由反馈回路临界路径决定、流水线寄存器插入、FPGA 用 LUT(本质是 mux 真值表) 换灵活性故比 ASIC 贵约 10 倍、CPU 缓存导致非确定延迟、TPU 用 scratchpad 把取数决策交给软件。可操作观察：设计芯片时先设定数据搬运占芯片面积的预算 (如 10%)，再据此反推寄存器堆与脉动阵列的尺寸——这是耦合的核心 sizing 决策。

Hanzhi's BLOG

[Podcast·2026-W21] AI · oIk3R-sMX5o

Dwarkesh Patel — Chip design from the bottom up – Reiner Pope

TL;DR