[Podcast·2026-W18] VC · 3Y8aq_ofEVs

← 返回主报告:[Podcast·2026-W18] Report

Sequoia Capital — Robotics’ End Game: Nvidia’s Jim Fan

  • Group: vc
  • Channel: @sequoiacapital
  • Published: 2026-04-30
  • Duration: 20m
  • Language: en (auto)
  • Evidence: youtube_subtitles

TL;DR

Nvidia 具身智能负责人 Jim Fan 抛出"机器人 endgame"框架:机器人将复制 LLM 三段路径——pre-training → reasoning → auto research——但底层替换:用 world model 取代 language model、用 egocentric video 取代遥操作、用 world action model 取代 VLA。他用 V3 视频模型证据说明 world model 已内化重力、浮力、光线折射等物理常识;甚至能在像素空间中前向模拟解迷宫,意味着"视觉规划"作为 emergent ability 已经出现。数据飞轮上他给出三层结构:底层是低成本可穿戴外骨骼采集的 zero teleoperation 数据;中层是 Tesla FSD 类隐式上传——驾驶者每次开车都在贡献最大体量的物理数据流;上层提出"iPhone = 口袋世界扫描器",用 3D wall-scan + 经典物理模拟器把任意房间转成可交互的 digital cousins,破解"百万环境训练需百万机器人"魔咒(real-to-sim-to-real)。他用 AlexNet 2012 → AI Ascent 2026 这 14 年长度的指数曲线推外,给出 95% 置信度判断:人形机器人技术树将在 2040 年走完。可操作观察:当下押注机器人公司应该看是否同时持有 world-model 数据闭环和 sim-to-real 工具链,而非仅炫硬件 demo。