[市场·2026-05-16] AI

AI 日报|2026-05-16

一句话结论:今日主线是 OpenAI vs Anthropic 在 agentic-coding 商业化的同周对撞 —— Anthropic 5/14 给 Agent SDK / 第三方 agent 套上独立 metered 信用池 (6/15 生效),OpenAI 5/15 把 Codex 推到 ChatGPT 移动端 + 给企业新客两月免费,叠加 Ramp 4 月数据首次记录 Anthropic 企业份额 (34.4%) 反超 OpenAI (32.3%);同周底层 stack 的两条结构性主线 —— BIS 放行 H200 出口 10 家中国厂 (实物未发) + Big4 2026 capex 共识抬到 ~$725B (HBM/封装贡献 $25B) —— 把 chips→infra→application 的传导链路固化。

摘要

  • Frontier: Anthropic 5/14 公布 programmatic credit pool (Pro/Max 各档分独立月度信用),OpenAI 5/15 把 Codex 接入移动端 + 5/14 推安全更新;Google 进入 5/19 I/O pre-roll,Android Show (5/12) 端出 Gemini Intelligence;Meta / xAI / Mistral / Qwen / DeepSeek 48h 窗口安静。
  • Paper: paper-digest 5/16 top picks 8 篇集中在 reasoning + agent + 评测 benchmark 三主轴 (WildTableBench、OpenDeepThink / Dual-Dim、ATLAS / MemEye、Orchard、Talk-is-Not-Cheap、CurveBench),evaluation infra + inference-time scaling 周期得到加强;技术侧 Qwen3.6-35B-A3B 开源权重落地 + OpenAI Codex Chrome 扩展 + GitHub agentic / 本地 LLM 项目 (OpenClaw 30 万 stars / n8n 18 万 / MCP 仓库) 同步放量。
  • People: tracked pool 活跃面集中在 Simon Willison (OSS 工具 + Datasette 连发 3 日) + OpenAI 庭审主线 (Altman / Brockman 5/15 进入 Musk v. OpenAI 结案陈词);Anthropic 侧 Boris Cherny 主要靠 Code w/ Claude 余波。新增 2 名 OSS 候选 (Baolin Peng / Orchard、Ziyu Guo / ATLAS),均来自 5/14 arXiv 一作。
  • 5-Layer: Energy 端 AWS Calvert Cliffs 邻近选址 + Equinix / Meta / Oklo GW 级 PPA 矩阵;Chips 端 BIS H200 放行 10 家中国厂 (每家 7.5 万颗) 但实物零出货,CoWoS/HBM 结构性紧张延续;Infra 端 Big4 2026 capex 共识 $725B (+77% YoY),60% 投到电力侧;Model 端 Claude Mythos Preview GPQA Diamond 94.6% + 通过 UK AISI 安全 benchmark;Application 端 PwC × Anthropic 3 万顾问全员部署 + SAP Sapphire Joule 接 Claude + OpenAI DeployCo $4B+ 启动。
  • Cross-layer: chips→infra (CoWoS/HBM 紧张推 MSFT 多花 $25B)、energy→infra (核电 PPA 升级为选址前置条件,60% capex 流向电力)、model→application (Claude 能力上行直接换成 enterprise 份额反超)。
  • Coverage: 6 家 frontier lab 48h 静默;X 原生搜索不可用,部分 tracked 人物声量经媒体二级转述;H200 license 细节经路透社二级源;Ramp 份额数据经 MarketingProfs 汇编。

Frontier Labs / Frontier Model Radar

2026-05-14 → 2026-05-16 窗口由 OpenAI 与 Anthropic 围绕 agentic-coding 经济学的近距离对抗主导。Anthropic 5/14 把 Agent SDK 与第三方 agent 使用挪到独立 metered 信用池 (6/15 生效),重新放行 4 月被切断的 OpenClaw 类第三方 agent 通路;OpenAI 5/15 把 Codex 推到 ChatGPT 移动端 + 5/14 推安全更新 + Altman 在 X 上给企业新客送两月免费 Codex,被读为同周对冲。Google 处于 5/19 I/O 前夜,Android Show (5/12) 已端出 Gemini Intelligence。

OpenAI

Anthropic

  • Programmatic credit pool (5/14) — 6/15 起 Agent SDK / claude-p / GitHub Actions / OpenClaw 等第三方 harness 从独立月度信用扣 (Pro $20 / Max 5x $100 / Max 20x $200),按 API 速率计费,恢复 4 月被切断的第三方 agent 通路。来源:SiliconANGLE / VentureBeat / InfoWorld / Axios
  • Salesforce 旗舰 token 采购 (5/15) — Benioff 公开 Salesforce 今年 Anthropic token 支出约 $300M,覆盖 coding + 产品工作,letsdatascience 报道;二级源单点,记为 confidence flag。

Google DeepMind

  • 5/19 I/O 前夜 + Android Show (5/12) — Gemini Intelligence 成 Android 智能层;I/O 预期发新版 Gemini (文 / 图 / 音 / 视 / 码统一) + Veo / Lyria。48h 窗口暂无 frontier drop。来源:Tom’s Guide / Android Authority / Engadget

Meta / xAI / Mistral / Qwen / DeepSeek

48h 窗口安静,均标注 <lab>_no_48h_signal coverage_gap。Meta 仍在消化 4 月 Avocado 推迟;Qwen 3.6-35B-A3B 已落地但在 paper_layer 段说明 (技术信号侧)。

Unverified frontier signals

  • Gemini 5/19 命名从 3.x 跳 4.0 仍属推测,多家媒体预览不一致,无 Google 主源在 48h 内确认:Android Authority / Yahoo Tech

关键人物与社区信号

本日 48h 内信号集中在两条主轴:OSS 工具向 (Simon Willison 连发 3 日,围绕 Datasette + coding-agent 重写经验持续高产) 与 OpenAI 高管出庭作证 (Musk v. OpenAI 第三周庭审进入结案陈词,Altman / Brockman 被诘问诚信)。Anthropic 侧 Boris Cherny / Alex Albert 主要靠 5/6 Code w/ Claude SF 余波而非新 artifact。

  • Simon Willison (oss-ai-builders) — 5/14 发表 Not So Locked In 论证 coding agent 让编程语言不再构成 lock-in;5/15 跟进 datasette-llm-budget plugin 设想 + coding-agent 驱动 React Native rewrite 实例;5/13 开张 Datasette 官方 blog
  • Sam Altman (openai-builders) — 5/12 起出庭 Musk v. OpenAI,5/15 进入结案陈词,Musk 律师质询其诚信、指控违反 2015 慈善信托承诺;周一陪审团开始审议是否撤换 Altman + 撤销 $500B 重组。来源:MIT Tech Review / TechTimes / Washington Post
  • Greg Brockman (openai-builders) — 5/15 同庭审周内披露持 $30B OpenAI 股权;5/4 与 Musk 短信讨论庭前和解;5/5 出庭反驳 Musk 早期史陈述。CNBC 5/4 / CNBC 5/5 / HeyGoTrade
  • Boris Cherny (claude-code-builders) — Code w/ Claude SF (5/6) 后持续在 X 上推动 Claude Code 2.1.x 功能扩散 (/goal command for long-running agents);48h 窗口主要为余波。claude.com event page / explainx /goal 报道
  • Alex Albert (claude-code-builders) — 被引用为 Claude Code experience for all knowledge workers 叙事旗手 (与 Sholto Douglas 并列),48h 内无单独 artifact。X 引用

Energy

  • AWS Calvert Cliffs 选址 — DCK 5 月开发巡礼指出 AWS 正评估马里兰 Calvert Cliffs 核电站邻近建 AI 数据中心园区,标志「核电邻近」成为 AWS 明面打法。DataCenterKnowledge
  • 核电 PPA 矩阵升 GW 级 — Equinix 锁 Oklo 500 MW + Stellaria 200+ MW;Prometheus Hyperscale 再加 Oklo 100 MW;Meta 三方 6.6 GW Vistra / Oklo / TerraPower deal 仍是 AI 超集群基底电力的参考基准。Latitude Media / EnkiAI / DCD Google-Kairos
  • Georgia 干旱重启水电争议 (5/15)WRDW 报道 hyperscaler 选址将日益要求同址 firm power + 友好水文带。

Chips

  • BIS H200 放行 10 家中国厂 (5/14) — 美商务部批准 H200 出口给阿里 / 腾讯 / 字节 / 京东 + 联想 / 富士康分销,单家上限 7.5 万颗;NVIDIA 市值短线触 $5.7T。CNBC / BNN Bloomberg / US News
  • 黄仁勋北京之行 vs 零实物出货 — Jensen 进人民大会堂、Xi 峰会前夜的台阶刚铺好,但 H200 零颗实际抵达中国;据报道中国监管让国内采购方暂缓,license 是 NVIDIA 5/20 财报前的「纸面突破」。TheNextWeb / WION
  • CoWoS / HBM 结构紧张延续 — NVIDIA 已预订 TSMC 2026-27 先进封装一半以上 (产能升至 12-13 万片晶圆/月),挤 Huawei Ascend 950PR 走单 die + 自研 HiBL 1.0 HBM 路径,2026 目标 ~75 万颗。DigiTimes / Wccftech / Tom’s Hardware

Infra

  • Big4 2026 capex 共识 $725B (+77% YoY) — MSFT $190B / Alphabet $190B / Amazon ~$200B / Meta $115-135B;MSFT CFO Amy Hood 把 $25B 增量明确归因到 HBM / 元件涨价。Tom’s Hardware / Fortune
  • Google 奥地利首个数据中心 (Kronstorf) — DCK 5 月巡礼盘点正在审批的 24 栋新建超算楼合计 1.8 GW,足迹激进扩张未因电力受限收手。DataCenterKnowledge
  • 电力成新瓶颈量化 — DCK 5 月 hyperscaler 分析量化:2026 hyperscaler capex 60%+ 流向电力 (非芯片),10 万 H100 数据中心稳态拉电 70-80 MW,firm 电力成为新建限速。DataCenterKnowledge

Model

  • Claude Mythos Preview 接 GPQA Diamond 王座 (~94.6%) — 首个通过 UK AISI 新安全 benchmark 的模型,确认上周 daily 报告披露的 Mythos preview 公告。llm-stats / Air Street State of AI
  • Opus 4.7 反响与 Q2 frontier roster — Air Street 5 月 State of AI 指 Opus 4.7 反响「比预期混杂」,GPT-5.5「干净落地」;Q2 高置信发布名单:GPT-5.5 / Grok 5 / DeepSeek V4 / Claude Sonnet 4.8。Air Street / llm-stats
  • Google 抢 Android 入口 (5/12) — Google 加速把 Gemini 3.1 Pro 嵌入 Android 中心,赶在 Apple AI 重启 (WWDC) 前完成消费端分发卡位。CNBC

今日 paper-digest 论文层 (folded from paper_layer):

  • 2605.01018 WildTableBench — 首个野外表格图像 QA benchmark,评 21 个前沿 MFM;evaluation infra cycle 直接对标,给企业 BI / 文档智能采购方画新能力门槛。
  • 2605.14068 CurveBench — 756 张 Jordan 曲线图测拓扑容纳树预测;视觉拓扑推理空白点,给 reasoning benchmark 多样化叙事补独立分布。
  • 2605.15198 ATLAS — 一个触发词让同模型切换 agentic / latent 视觉推理;落在 agentic tooling 叙事,是头部多模态厂商压低 agentic SKU 数量的低成本路径。
  • 2605.15177 OpenDeepThink — 用 Bradley-Terry 成对比较破并行采样选择瓶颈;inference-time scaling 主轴直击,跑通会改写 best-of-N / verifier 类产品单 token 经济学。
  • 2605.15128 MemEye — 评测 agent 是否真保留下游所需视觉证据;HF 47 upvotes 全日最热,agent 记忆宣称的第三方鉴别器候选。
  • 2605.15118 Talk is (Not) Cheap — 507 叶 STRIDE 分类树审计 LLM 攻击 benchmark 覆盖;红队 / 治理侧首个 benchmark-of-benchmarks 审计。
  • 2605.15100 Dual-Dimensional Consistency — 统一宽度与深度成 dual-dim 一致性目标;与 OpenDeepThink 同日补 budget-quality 视角,加强本周 test-time compute 主线。
  • 2605.15040 Orchard — 开源 agentic 训练框架,对标闭源 post-train 栈,Baolin Peng / Wenlin Yao 历史署名加权,挤压闭源 SFT 服务商溢价。

Application

  • PwC × Anthropic 3 万顾问全员部署 — Claude 推到 30,000 美国顾问,最高 70% 效率提升:保险核保 10 周→10 天、COBOL 现代化提前、HR 原型 1 周、安全事件响应从小时→分钟;Advocate Health (16.7 万员工) 跟进同款部署。MarketingProfs / Distill Intelligence
  • OpenAI DeployCo 启动 — 19 家伙伴注 $4B+ (含 Brookfield、TPG),把工程师内嵌大企业产线化 frontier 模型落地。OpenAI / MarketingProfs
  • SAP Sapphire Autonomous Enterprise — SAP Joule agents 在 HR / 采购 / 供应链下接 Anthropic Claude;Ramp 4 月支付数据首次记录 Anthropic 企业份额 34.4% 反超 OpenAI 32.3%。Cloud Wars / MarketingProfs

今日技术信号 (folded from paper_layer.technical_signals):

  • Qwen3.6-35B-A3B 开源权重落地:自带 thinking preservation + 原生 ~1M context + agent loop / KV-cache 优化;是 Orchard 训练框架之外的开源权重侧补齐,挤中端闭源推理模型 API 定价。HF Blog / MindStudio 综述
  • OpenAI Codex CLI 接入 Chrome 扩展:测试 / DevTools 工作流入浏览器,与 Browser Use / OpenClaw 在 agentic IDE / browser-agent 入口正面竞争。AI-Coding-Landscape / Akoode 综述
  • GitHub agentic + 本地 LLM 项目同步放量:OpenClaw >30 万 stars、n8n >18 万,Ollama / Dify / Open WebUI / Browser Use / 官方 MCP 仓库 4 月共同放量,验证 agentic 工作流 + 本地推理底座 + MCP 生态三轴同时升温。BuildMVPFast / Awesome AI Agents 2026

层间联动影响

  • Chips → Infra:NVIDIA 预订 TSMC 2026-27 一半以上 CoWoS 产能 + HBM 价格压力,直接被微软 CFO 计入 $190B 2026 capex 中 $25B 元件成本增量;芯片供给紧张是 $725B Big4 capex rerate 的近端主因。DigiTimes / Tom’s Hardware
  • Energy → Infra:Equinix 500 MW Oklo PPA、Meta 6.6 GW 三方 deal、AWS Calvert Cliffs 选址在 5 月同窗口堆出 —— 核电 take-or-pay 从对冲升为选址前置条件,解释 DCK 60%+ hyperscaler capex 流向电力的结构性事实。Latitude / DCK Hyperscaler 2026 / DCK May 2026
  • Model → Application:Claude Mythos Preview GPQA Diamond 领跑 + Opus 4.7 GA + Claude Code 速率上限翻倍 → PwC 3 万顾问全员部署、SAP Sapphire Joule 接 Claude、Advocate Health 16.7 万座 deployment 同周 land;Ramp 同月支付数据首次记录 Anthropic 34.4% 反超 OpenAI 32.3%。MarketingProfs / Cloud Wars / llm-stats

🎙️ 播客动态

候选池变化与后续关注

新增 2 名 OSS 候选 (均来自 5/14 paper-digest top picks 首作):

  • Baolin Peng (oss-ai-builders) — Orchard: An Open-Source Agentic Modeling Framework (2605.15040) 一作;开源完整 agentic 训练框架含 Orchard-SWE (SWE-bench Verified 67.5% SFT+RL,开源 30B 段新 SOTA) / Orchard-GUI / Orchard-Claw 三 recipe,对标闭源 agentic post-train 栈。证据:arXiv PDFHTML 全文
  • Ziyu Guo (oss-ai-builders) — ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both (2605.15198) 一作,CUHK PhD (导师 Pheng-Ann Heng);单触发词让同模型切换 agentic vs latent 视觉推理,HF Daily 17 upvotes 配套项目页。证据:arXiv项目页 atlas-oneword个人主页

未纳入但有评估:Subquadratic 创始人 (Justin Dangel / Alex Whedon, 5/5 发布超 48h)、42章经 嘉宾 Albert (merging.live, 公开 artifact 不足)、Sakana AI Conductor 团队 (4/27 发布超 48h)。

后续观察点:

  • 5/19 Google I/O — Gemini 新版本 + Veo / Lyria;Gemini Intelligence 在 Android 侧落地形态。
  • 5/20 NVIDIA 财报 — 数据中心营收 + H200 中国 license 是否转实际出货 + Blackwell 产能 guidance。
  • Anthropic 6/15 metered credit 落地 — OpenClaw / claude-p 第三方 agent 通量真实弹性 + Pro / Max 用户感知变化。
  • PwC 30k 顾问 Claude 部署 4 周后量化效率数据 + Advocate Health 16.7 万部署进度。
  • Musk v. OpenAI 陪审团审议结果 — 是否撤换 Altman / 撤销 $500B 重组,对 OpenAI 治理结构与企业销售节奏的二阶影响。

来源与交叉验证说明

Source mix:primary / official 主导 (OpenAI Newsroom、Anthropic blog、DataCenterKnowledge、HuggingFace、arXiv、xiaoyuzhoufm);company / filing 部分 (Tom’s Hardware HBM 报道、Cloud Wars Sapphire 报道、DigiTimes CoWoS);media / analysis 做交叉验证 (CNBC、Axios、SiliconANGLE、VentureBeat、InfoWorld、Reuters via CNBC、MarketingProfs、Air Street State of AI、MIT Tech Review、Washington Post);community / social 主要是 Simon Willison blog + 已索引 X 引用。

Verification

  • Anthropic credit pool 公告 ≥4 媒体源交叉,主条 verified 通过;
  • BIS H200 license 细节为 Reuters 二级聚合,主源 BIS 公告未直接核实,标为 confidence_flag;
  • Ramp 份额数据经 MarketingProfs 汇编而非 Ramp 自家报告,标为 confidence_flag;
  • Gemini 5/19 命名 (4.0 vs 3.x) 仅在 unverified_frontier_signals 中保留;
  • frontier 8 lab 中 6 家 48h 静默,已逐一标 coverage_gap;
  • X 原生搜索不可用,部分 tracked 人物声量来自 Web 索引帖与媒体二级转述,存在转述偏差。

相关细分报告