AI 日报|2026-04-16
一句话结论:前沿模型竞争进入"发布前夜"密集博弈期——Anthropic Opus 4.7 泄露、OpenAI Spud 预训练完成待发、Gemini 3.1 Pro 基准领跑,同时 coding agent 渗透率突破 84%,AI 正从聊天工具加速转向生产力基础设施。
摘要
本周 AI 领域处于多条主线并行的高密度窗口:(1) Anthropic 因配置错误泄露 Claude Opus 4.7 及 Mythos/Capybara 新模型层级细节,预计本周内发布;(2) OpenAI GPT-5.5 (Spud) 预训练已于 3 月 24 日完成,Polymarket 给出 4 月 23 日发布 63% 概率;(3) Google Gemini 3.1 Pro 在 16 项基准中 13 项领先,ARC-AGI-2 达 77.1%;(4) Coding agent 日常使用率达 84%,GitHub 报告超 51% 代码由 AI 生成或辅助;(5) 能源层面,印第安纳州今日签署 SMR 税收激励法案,核能-AI 数据中心绑定持续深化。
Frontier Labs / Frontier Model Radar
Anthropic — Claude Opus 4.7 泄露与 Mythos 浮出水面
- 4 月 14 日 The Information 报道:Anthropic 即将发布 Claude Opus 4.7,同步推出 AI 设计工具(可通过自然语言生成网站/落地页/演示文稿)。(来源)
- Mythos/Capybara 泄露:因 CMS 配置错误,约 3,000 份未发布资产被公开访问。泄露草稿显示 Mythos 产品代号"Capybara",定位为 Opus 之上的全新模型层级——“比 Opus 模型更大、更智能”,在编程、学术推理和网络安全测试中"显著高于" Opus 4.6。(来源)
- Opus 4.6 性能争议持续:用户反馈推理中断、幻觉增多。Anthropic 回应称与 2 月 9 日默认开启 adaptive thinking 及 3 月 3 日将 effort level 调至 85 有关。(来源)
- Claude Code 高频迭代:3-4 月从 v2.1.69 推进到 v2.1.101,5 周内超过 30 个版本。(来源)
OpenAI — Spud 待发,GPT-5.4 继续打天下
- GPT-5.5 (Spud) 预训练 3 月 24 日完成,Sam Altman 称其"能真正加速经济",Greg Brockman 描述为"两年研究的结晶"。Polymarket 给 4 月 23 日发布 63% 概率,4 月 30 日前发布概率 78%。是否命名为 GPT-5.5 或 GPT-6 尚未决定。(来源)
- GPT-5.4 继续作为主力模型,1M context window,83% GDPVal,原生 computer-use 能力领先。
Google DeepMind — Gemini 3.1 Pro 基准霸榜
- Gemini 3.1 Pro 在 16 项基准中 13 项领先,GPQA Diamond 94.3%,ARC-AGI-2 77.1%,多模态语音视觉能力强化。
其他实验室
- Meta Llama 4 Maverick:代码生成匹敌 GPT-5.3,通用推理表现稳健。
- DeepSeek V3.2:推理任务接近 GPT-5 水平,V4 "数周内"发布(Reuters 4/3 确认)。
- Qwen 3.6-Plus:1M context window,瞄准 agentic coding。
- Mistral Small 4(3/16):119B MoE,推理+视觉+编码统一端点。
- 智谱 GLM-5.1:744B MoE,4 月发布。
行业联防
- OpenAI、Anthropic、Google 联合打击中国竞争对手模型抄袭。Anthropic 安全团队发现约 24,000 个欺诈账号(追溯至 DeepSeek、Moonshot AI、MiniMax)与 Claude 产生超 1,600 万次交互。(来源)
关键人物与社区信号
- Andrej Karpathy(4 月初):分享从"用 AI 写代码"转向"用 AI 建第二大脑"的工作流——将原始研究材料投入文件夹,LLM 自动构建互链 wiki,帖子大规模传播。(来源)
- Simon Willison(4/10):受 Karpathy 启发,讨论 AI 能力认知差距随接入点和领域不同而加大;另发文指出 ChatGPT 语音模式使用的是较弱模型。(来源)
- Sam Altman:内部表态 Spud “能真正加速经济”。
- Greg Brockman:Big Technology 播客中称 Spud 代表"两年研究",“不是增量改进”。
Energy
- 印第安纳州今日(4/16)签署 SMR 税收激励法案,为开发小型模块反应堆的能源公司提供税收优惠。
- Meta 核能布局:与 Constellation Energy 签署 20 年 1.1GW 核电供应协议(伊利诺伊州,2027 年起供电),加上与 Vistra、TerraPower、Oklo 的协议,Meta 已成为美国最大的企业核能采购方之一。
- Microsoft-Constellation 20 年协议重启三里岛核电站,投资 16 亿美元。
- 宏观趋势:到 2026 年,Amazon、Microsoft、Google、Meta 合计用电可能超过 1,000 TWh,相当于全球核电站去年总发电量的三分之一。
Chips
- NVIDIA Vera Rubin 进入量产,首批云实例 2026 下半年上线(AWS、Google Cloud、Microsoft、OCI 及 CoreWeave、Lambda 等)。
- NVIDIA RTX PRO 5000 72GB Blackwell GPU 4 月 9 日 GA,扩展桌面端 agentic AI 工作负载内存选项。
- OpenAI-NVIDIA 战略合作:NVIDIA 拟向 OpenAI 投资最多 1,000 亿美元,首个 1GW NVIDIA 系统 2026 下半年部署在 Vera Rubin 平台上。
- BlueField-4:NVIDIA 推出面向下一代 AI 的原生存储基础设施。
Infra
- Microsoft Agent Framework 1.0 发布:稳定 API + LTS 承诺 + 完整 MCP 支持 + 浏览器端 DevUI 可视化 agent 执行和工具调用。这是 MCP+A2A 架构成为生产 agentic 系统默认选择的最具体信号。
- MCP v2.1:Claude Desktop 和 Cursor 均已完成支持。
- Firmus Technologies(NVIDIA 投资)融资 5.05 亿美元,用于亚太 AI 基础设施建设。(来源)
Model
- 4 月成为 LLM 发布最密集的月份——"纯文本模型不再单独发布"成为新常态,所有新模型均为原生多模态。
- Coding 正在成为"新 GPU"——张小珺播客中广密判断:领先的 coding 模型就像领先的 GPU,正在加速 AGI 实现。
- Anthropic Sonnet 4.6 以 GDPval-AA Elo 1,633 分领跑,1M context window。
- 模型竞争从纯性能转向可控性(governance)、可部署性(enterprise readiness)和工具集成。
Application
- GitHub 数据:2026 年初超 51% 提交代码由 AI 生成或大幅辅助。
- Stack Overflow 调查:84% 开发者每天使用 AI 编码工具,但仅 29% 信任 AI 生成代码可直接用于生产。
- 趋势:AI 从 Chatbot 第一幕(聊天)进入 Agent 第二幕(干活),coding agent 是核心加速器。
- n8n 博客:呼吁重新认识 2026 年的 AI agent 开发工具——已从概念验证进入可靠工程阶段。
层间联动影响
- Energy → Chips → Infra 链条加速:核能长协 + Vera Rubin 量产 + OpenAI 1,000 亿投资承诺,形成从能源到算力的多年供给锁定。供给确定性正在拉高 model/application 层的迭代节奏上限。
- Model → Application 传导:Coding 成为 model 层能力最直接的变现通道。84% 日常使用率意味着 coding agent 已跨过采纳拐点,但 29% 信任率揭示了从"辅助"到"自主"的最后一公里仍需 model 层在可控性上突破。
- Frontier 竞争 → 行业联防:模型蒸馏/抄袭威胁正迫使本应竞争的头部实验室联手,这反过来可能加速模型闭源化趋势,对开源生态构成压力。
播客动态
- 十字路口 Crossing — 具身智能的滔天大泡沫中,他已经把机器人送进300个家庭:对话未来不远创始人张翼,讨论具身智能泡沫(中国至少 5 家公司拿到 10 亿级融资)、家庭机器人 F2 发布、先潜行三年不融资的差异化路径。
- 张小珺Jun|商业访谈录 — 全球大模型季报第9集:与广密对谈。核心判断:Coding 是 AGI 第二幕加速器,领先 coding 模型 = 领先 GPU;Opus 4.5→4.6 是 GPT-3→4 级别跨代际跃升;6 月前可能还有一次同等幅度跨越;白领通缩与失业窗口正在打开。
候选池变化与后续关注
后续观察点
- Opus 4.7 正式发布:The Information 4/14 报道"本周内",密切关注 Anthropic 官方公告。
- Spud/GPT-5.5 发布窗口:Polymarket 4/23 概率 63%,关注 OpenAI 是否命名为 GPT-6。
- DeepSeek V4 发布:Reuters 确认"数周内",需追踪实际时间与能力定位。
- Mythos/Capybara 时间线:泄露信息指向"5 月 6 日前",关注其是否真正代表 Opus 之上的新层级。
- Coding agent 信任率拐点:84% 使用率 vs 29% 生产信任率,关注哪些 model/infra 改进能收窄差距。
- 模型抄袭联防实效:三巨头联合行动是否能有效遏制模型蒸馏,对开源生态的溢出影响。
人物候选池
- 广密(张小珺播客嘉宾):对 coding-as-AGI-accelerator 的判断值得持续追踪,待确认身份与持续信号后考虑纳入。
来源与交叉验证说明
来源构成:company/filing(Anthropic、OpenAI、NVIDIA、Meta 官方发布与文档)为主体,media/analysis(The Information、Bloomberg、VentureBeat、Reuters)用于未公开信号的交叉验证,community/social(X.com、Medium、小宇宙播客)用于社区温度与人物信号。
验证说明:Opus 4.7 泄露与 Mythos 信息来自 The Information 独家及 CMS 泄露,尚未获 Anthropic 官方确认,置于 unverified frontier signals 处理。Spud 预训练完成由 Sam Altman 对内确认、Greg Brockman 播客公开确认,可信度较高。GitHub 51% AI 代码数据来自 GitHub 官方报告。核能协议来自各公司官方公告与 SEC 文件。