← 返回主报告:[Podcast·2026-W18] Report
Dwarkesh Patel — How GPT-5, Claude, and Gemini are actually trained and served – Reiner Pope
- Group: ai
- Channel: @DwarkeshPatel
- Published: 2026-04-29
- Duration: 2h14m
- Language: en (auto)
- Evidence: youtube_subtitles
TL;DR
Reiner Pope(前 Google TPU 架构师、MatX CEO)在 Dwarkesh 新搭的黑板棚里用 roofline 模型拆解前沿 LLM 训练与推理的真实成本。核心结论:Claude / Codex / Cursor 的 Fast Mode 用 6× 价钱换 2.5× 速度,本质是缩小 batch size——内存带宽决定每 token 读权重的时间,batch 越大越摊薄成本但单请求延迟升高,理论上"100× 慢模式"也能成立。MoE 部署上 Blackwell NVL72 的 all-to-all 拓扑恰好匹配 DeepSeek 类 256 专家分到 64 GPU 的稀疏路由;跨 rack 扩展会撞带宽墙,专家并行加 pipeline 微批仍是最优解。Prefill 与 decode 严重不对称:decode 是 memory-bound 单 token 串行,prefill 是 compute-bound 多 token 并行,所以 API 输出价比输入贵 3–5×,还能从中反推 KV head 数与 d-head 维度。结尾介绍 2017 年 RevNets 思路——可逆残差网络在反向传播时即时重算激活,用算力换内存,与 KV cache "用内存换算力"对称相反,在当前硬件上仍属有利交易。可操作观察:通过 API 输入/输出价差与速度档位可外推厂商真实推理 batch 与硬件利用率,是判断是否在补贴定价的硬指标。