AI 日报|2026-04-15
一句话结论:Anthropic 以 Mythos Preview 开启网安专属前沿模型时代、Claude Code routines 推进自动化闭环;OpenAI 同日发布 GPT-5.4-Cyber 正面迎击;Google DeepMind 发布 Gemini Robotics-ER 1.6 将前沿模型嵌入物理世界——竞争主线从"谁更聪明"加速转向"谁先占领关键垂直场景"。
摘要
过去一周 AI 行业进入密集发布期。Anthropic 4 月 7 日公布 Claude Mythos Preview 并启动 Project Glasswing,将最强前沿模型限定于防御性网安用途,合作方涵盖 AWS、Apple、Google、Microsoft 等;4 月 14 日又发布 Claude Code routines(云端自动化)和桌面端大改版。OpenAI 同期推出 GPT-5.4-Cyber、新 $100/月 Pro 套餐及 GPT Image 2。Google DeepMind 4 月 14–15 日发布 Gemini Robotics-ER 1.6 并与 Boston Dynamics 集成。Meta 发布首个专有模型 Muse Spark,标志开源路线出现分化。xAI Grok Computer agent 进入公测。Qwen 3.6 Plus 已上线,DeepSeek V4 完整版仍在等待。基础设施层面,Big Tech 合计 capex 接近 $7000 亿,NVIDIA 与 OpenAI 签署 10GW 级部署协议。
Frontier Labs / Frontier Model Radar
Anthropic — Claude Mythos Preview & Project Glasswing
- Mythos Preview 于 4 月 7 日公布,为通用模型但在网安任务上表现突破性,内测中自主发现并利用所有主流操作系统和浏览器的零日漏洞,包括一个存在 27 年的 OpenBSD 漏洞(Anthropic 官方;Fortune 报道)。
- 模型不会公开发布。通过 Project Glasswing 向 AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Microsoft、NVIDIA 等提供防御性安全访问(InfoQ)。
- UK AISI 完成独立评估,确认攻击能力显著但也指出局限性(AISI;Help Net Security)。
- Fortune 报道业界对漏洞发现与修复速度不对称的担忧——“发现不是瓶颈,修复才是”(Fortune)。
Anthropic — Claude Code routines & 桌面端重设计
- 4 月 14 日发布 Claude Code routines:保存 prompt + repo + connectors 配置后可在 Anthropic 云端自动执行,关掉笔记本也能运行。Pro 限 5 次/天,Max 15 次,Team/Enterprise 25 次(SiliconANGLE;官方博客)。
- 桌面端新增内置终端、更快 diff viewer、应用内文件编辑器和扩展预览区,减少编辑器切换(官方博客)。
Anthropic — 用户性能感知下降争议
- Fortune 报道 Anthropic 面临大量用户对 Claude 模型性能下降的反馈,与近期调整默认 effort 级别以节省 token 有关,公司估值 $3800 亿、IPO 在即(Fortune)。
OpenAI — GPT-5.4-Cyber & 新套餐
- GPT-5.4-Cyber 开始向 Trusted Access for Cyber 计划参与者有限推出,专注软件漏洞发现,与 Anthropic Mythos 直接竞争(Bloomberg;Axios)。
- 新 $100/月 ChatGPT Pro 套餐(介于 $20 Plus 与 $200 Pro 之间),主打 5x Codex 用量,上线促销期 10x(The Next Web)。
- GPT Image 2 开始灰度推送,文字渲染和 prompt 遵从度提升(mejba.me)。
Google DeepMind — Gemini Robotics-ER 1.6
- 4 月 14–15 日发布 Gemini Robotics-ER 1.6,专为物理环境自主机器人设计,新增仪表读数能力,可解读模拟仪表和液位计(DeepMind 官方;MarkTechPost)。
- 与 Boston Dynamics 合作将 Gemini 集成至 Spot 工业巡检平台(Robotics & Automation News)。
- 通过 Gemini API 和 Google AI Studio 向开发者开放。
Meta — Muse Spark 专有模型
- 4 月 8–9 日发布 Muse Spark,由 Alexandr Wang 领导的 Meta Superintelligence Labs 主导,为 Meta 首个完全专有模型,标志开源路线出现重大分化(CNBC)。
- 2026 年 AI 相关 capex 指引 $1150–1350 亿,接近去年两倍(CNBC)。
- LlamaCon 4 月 29 日举行;Llama 4 Scout/Maverick 已上线。
xAI — Grok 4.20 Beta 2 & Grok Computer
- Grok 4.20 Beta 2 在医疗、法律推理和通用 benchmark 上领跑,声称超越 Claude Opus 4.6、GPT-5.4 和 Gemini 3.1 Pro(IBTimes)。
- Grok Computer agent 私测已开放,可全面控制桌面应用(DEXTools)。
- XChat(WeChat 竞品)预计 4 月 17 日上线,Grok 为底层引擎。
- Apple 因 deepfake 问题威胁将 Grok 下架 App Store(NBC News)。
Qwen — Qwen 3.6 Plus
- 4 月 2 日发布 Qwen 3.6 Plus,混合线性注意力 + 稀疏 MoE,1M token 上下文,always-on CoT,agentic coding 得分超 Claude Opus 4.5(Particula)。
- 一周内连发三个模型(含 Qwen3.5-Omni),Alibaba 在开源模型 Hugging Face 下载量已超 Meta Llama。
DeepSeek — V4 仍未完整发布
- DeepSeek V4 Lite(~200B 参数)3 月 9 日已发布,完整 1T 参数版本 4 月仍为预期窗口但尚未落地(Particula)。
- 中国开源模型合计已占全球聚合平台用量约 30%。
关键人物与社区信号
- Andrej Karpathy 转发并放大 Simon Willison 关于 prompt injection 的安全警告,将当前状态类比为早期计算机病毒时代(X.com)。
- Simon Willison 发文指出 OpenAI Advanced Voice Mode 在基础问题上表现远弱于文本模型,凸显"同一公司不同模态能力鸿沟"(simonwillison.net)。
- 社区对 Anthropic effort 级别调整引发的性能感知下降讨论持续升温,Fortune 进行了专题报道。
- 无高置信度新增候选人物。
Energy
- NVIDIA 与 OpenAI 签署 10GW 级 NVIDIA 系统部署协议,首批 1GW 基于 Vera Rubin 平台于 2026 年下半年部署,NVIDIA 承诺逐步投入最高 $1000 亿(NVIDIA Newsroom)。
- Vera Rubin 平台引入全液冷方案(温水散热),降低冷却能耗(NVIDIA GTC 2026 报道)。
- 欧洲绿色能源新规正迫使数据中心运营商转向更高效硬件,对 NVIDIA H200/Rubin 架构形成利好。
- 本地监管阻力和基础设施瓶颈仍是行业扩张的关键约束(MIT Technology Review)。
Chips
- NVIDIA Vera Rubin 平台发布六款新芯片及 AI 超算,Google Cloud 将成为首批提供 Vera Rubin NVL72 机架系统的云商(NVIDIA Newsroom;Google Cloud Blog)。
- Intel 与 Google 扩大定制 ASIC IPU 联合开发,重点放在网络/存储/安全卸载以提升超大规模环境利用率(Intel Newsroom;TechCrunch)。
- AI 数据中心 GPU 市场报告预测规模达 $323 亿(GlobeNewsWire)。
- Lite-On 展示基于 Vera Rubin 的 800V DC 供电机架和 110 kW 功率架构。
Infra
- Big Tech 四巨头(Amazon、Google、Meta、Microsoft)2026 年合计 AI infra capex 接近 $7000 亿:Amazon ~$2000 亿,Google ~$1750–1850 亿,Meta ~$1150–1350 亿(Tech Insider)。
- 世界经济论坛呼吁将 AI 基础设施纳入关键基础设施保护框架(WEF)。
- Google Cloud 首批上线 Vera Rubin NVL72 和 RTX PRO 6000 Blackwell 分式 VM(Google Cloud Blog)。
- Amazon EC2、Azure VM、Google Cloud 被 Info-Tech 评为 2026 Cloud IaaS Champions。
Model
- 本周模型层最大变量是网安专用前沿模型作为新品类出现:Anthropic Mythos Preview 和 OpenAI GPT-5.4-Cyber 几乎同步发布,标志头部厂商从通用智能竞赛转向高价值垂直能力竞赛。
- Grok 4.20 Beta 2 在多项 benchmark 上声称领先,但需注意 xAI benchmark 自报结果尚缺第三方独立验证。
- Qwen 3.6 Plus 在 agentic coding 上展示强竞争力,中国开源模型阵营市场份额持续扩大。
- DeepSeek V4 完整版延迟仍为不确定因素。
- Meta Muse Spark 专有化转向值得关注——若持续,开源生态格局会发生结构性变化。
Application
- Claude Code routines 将 agentic coding 从"人工触发"推向"配置化自动执行",是 developer tooling 自动化的关键一步。Pro/Max/Team/Enterprise 均可使用,执行在 Anthropic 云端。
- Grok Computer agent 进入私测,实现全桌面操控。若 XChat 4 月 17 日按期上线,xAI 将成为同时拥有 agent + 超级应用 + 前沿模型的少数玩家之一。
- Gemini Robotics-ER 1.6 + Boston Dynamics 将前沿模型能力直接嵌入工业巡检场景,是 AI-物理世界集成的具象化案例。
- OpenAI 企业收入占比超 40%,agent 已进入流程级部署;Codex 周活 300 万,API 每分钟超 150 亿 token。
- GPT Image 2 灰度上线,文字渲染提升可能影响设计工具市场。
层间联动影响
- Chips → Infra → Energy 正循环加速:NVIDIA-OpenAI 10GW 协议 + Vera Rubin 液冷 + Big Tech ~$7000 亿 capex 形成从芯片到电力的完整扩张链条,但本地监管和电网瓶颈可能成为实际交付的卡点。
- Model → Application 垂直化加速:Mythos Preview 和 GPT-5.4-Cyber 同步出现表明,前沿模型的差异化竞争正从通用 benchmark 转向"谁能在特定高价值领域(网安、robotics)率先形成闭环"。
- Application → Model 反馈:Claude Code routines 和 Grok Computer 代表两种不同的 agent 自动化路径——服务端 vs 客户端。两条路线都在收集真实用户工作流数据,将反哺下一代模型训练。
- 开源生态分化信号:Meta Muse Spark 专有化 + Qwen/DeepSeek 持续开源扩张,开源 AI 领导权正在发生转移。
候选池变化与后续关注
- 无新增候选人物。本周高价值信号主要来自公司管理层和产品发布,社区层未出现需要晋升或新增的个人。
- 后续观察点:
- Anthropic Mythos Preview 的 Project Glasswing 合作方是否会发布独立安全评估结果
- DeepSeek V4 完整版何时落地
- Meta 是否持续走专有路线,还是 LlamaCon 上宣布开源新计划
- XChat 4 月 17 日上线后的实际产品形态
- Claude Code routines 使用量和留存数据
- NVIDIA-OpenAI 10GW 首批 1GW 的实际部署进展
来源与交叉验证说明
Source mix: 本报告以 company / filing(Anthropic、OpenAI、Google DeepMind、Meta、NVIDIA 官方博客及 SEC 文件)和 media / analysis(Bloomberg、Fortune、CNBC、TechCrunch、Axios)为主,辅以 community / social(Simon Willison、Andrej Karpathy)。UK AISI 评估报告提供 primary / official 交叉验证。
Verification note: Mythos Preview 能力声明来自 Anthropic 官方 + UK AISI 独立评估交叉验证;GPT-5.4-Cyber 目前仅有 Bloomberg/Axios 媒体报道 + OpenAI 有限披露;Grok 4.20 benchmark 为 xAI 自报、缺第三方验证;Big Tech capex 数据来自各公司财报指引和多家媒体交叉确认。DeepSeek V4 完整版发布窗口为社区预期而非官方确认。