[Podcast·2026-W21] AI · fYS7qE8XchM

← 返回主报告:[Podcast·2026-W21] Report

Latent Space — Less is More: Tiny Recursive Networks - Paper Club 20260513

  • Group: ai
  • Channel: @LatentSpaceTV
  • Published: 2026-05-20
  • Duration: 0h 54m
  • Language: en (auto)
  • Evidence: youtube_subtitles

TL;DR

Karthik 逐代码讲解 TRM(Tiny Recursive Models,arXiv 2510.04871),核心主张是"少即是多":在 Sudoku、迷宫、ARC 等抽象推理任务上,不必堆叠多层 Transformer,只需一个微型网络在循环中反复复用即可。它简化前作 HRM——HRM 受生物启发用 ZL/ZH 两个不同频率更新的隐状态,TRM 证明只保留单个"草稿纸"潜变量 Z 加输出 Y 就够了。架构是多层递归(外层 step、内层 cycle),靠 SwiGLU 做格子间双向信息混合。两个关键工程点:梯度只在最后一步回传(中间 cycle 截断梯度省显存);用深监督把损失放在所有递归步之后而非每步单独算,仅此一项在 Sudoku 上带来约 10% 提升;训练时加可学习的自适应停止(halting),推理时直接丢弃。可操作观察:作者尝试把该思路搬到自回归语言建模(TARM)几乎无效,因为威力来自双向结构而非因果建模;因此 TRM 真正适配的是边缘/端侧、无法微调大模型的小参数高效推理场景。