AI 日报｜2026-04-26

一句话结论：周日缺新发，但 4/24 的 DeepSeek V4 经过周末发酵——Artificial Analysis Intelligence Index 把 V4 Pro 钉在 52 分（开源第二，仅次于 Kimi K2.6）、GDPval-AA 反超 Kimi 拿下开源 Agent 第一，LMSYS SGLang + Miles 在 4/25 提供 Day-0 推理 + RL 训练栈；同时 Tumbler Ridge 案 4/25 进入"加拿大监管 + 民事诉讼 + AI 心理健康立法"三线发酵，Altman 致歉信首次让"AI 公司是否有通报刑事意图义务"成为可立法议题。

摘要

模型层（mainline）：Artificial Analysis 4/25 独立测评出炉——DeepSeek V4 Pro 拿下 Intelligence Index 52（V3.2 是 42）、稳居开源前沿；在 GDPval-AA 反而超过 Kimi K2.6，成为开源 Agent 任务榜首，唯独在 GPQA / Humanity’s Last Exam 等知识题上落后 GPT-5.4 / Gemini 3.1 Pro 约 3-6 个月。
基建层（mainline）：LMSYS 4/25 发文 DeepSeek-V4 on Day 0——SGLang + Miles 是首个 V4 Day-0 开源推理 + 经验证 RL 训练栈，覆盖 ShadowRadix prefix cache、HiSparse CPU-extended KV、MTP 推测解码、Flash Compressor、Lightning TopK；与 Huawei Ascend 适配并行，给开源生态画出"硬件解耦"通路。
应用 / 人物（mainline）：4/25 TechCrunch 把 Tumbler Ridge 案 Altman 致歉信推向二轮报道——加拿大政府考虑新 AI 法规、受害者家属起诉 OpenAI、KevinMD 等专业期刊呼吁 AI 心理健康专项立法；OpenAI 改口声明将"扩大转交执法的判定标准 + 与加方建立直连点"。
社区层（mainline）：OpenClaw 在月内由 21 万 → 347,000 stars，单日峰值 +12,000，已破 GitHub “AI” topic trending 算法上限；与此并行，Hermes Agent 单周 +32,572 stars。
本日候选池新增 2 名：Lianmin Zheng（LMSYS / SGLang 联合负责人）与 Zhang Shaofeng（张韶峰，百融智能 CEO）——前者今日完成 V4 Day-0 工程化全栈交付，后者今日《十字路口》播客系统化输出"传统企业级 Agent 落地方法论"。

Frontier Labs / Frontier Model Radar

主线（高置信）

DeepSeek V4 Pro 独立测评结果（Artificial Analysis 4/25）：Intelligence Index v4.0（10 项 evals 综合：GDPval-AA、τ²-Bench Telecom、Terminal-Bench Hard、SciCode、AA-LCR、AA-Omniscience、IFBench、HLE、GPQA Diamond、CritPt）= 52（开源第二，仅次于 Kimi K2.6），相较 V3.2 的 42 分跳跃 +10。Agent 维度的 GDPval-AA 实测 1554，反超 Kimi K2.6（1484）、GLM-5.1（1535）、GLM-5（1402）、MiniMax-M2.7（1514），坐稳 开源 Agent 任务第一。但官方坦承在 GPQA / HLE 等纯知识题上落后 GPT-5.4 / Gemini 3.1 Pro 约 3-6 个月——独立测评首次量化"国产前沿与闭源前沿在不同 axis 上的差距"（CNBC、OfficeChai）。
GPT-5.5 / Claude Opus 4.7 / DeepSeek V4 三家旗舰格局已稳（4/24 同周）：综合 Releasebot + 媒体本周末复盘——OpenAI 走"软件化迭代"（GPT-5.5 三天内推满 ChatGPT 全计划 + Codex + API + ChatGPT Images 2.0），Anthropic 走"能力分层 + 红队封顶"（Opus 4.7 商用 + Mythos 仅 Glasswing + Walden 公开告警），DeepSeek 走"前沿开源 + 国产硬件原生 + 普惠定价"——三条路线在本周末第一次有了完整的独立测评 + 独立基础设施 + 独立公共问责事件作各自的脚注（Fortune、Anthropic 官页、DeepSeek API Docs）。

次线 / unverified frontier signals

Google DeepMind “strike team”（The Information 4/21 / AI2Work 复盘）：Sergey Brin 亲自组队，单一 mandate 是补 Gemini 在编码与 agent 维度对 Anthropic 的差距。结合 4/24 Google→Anthropic $40B 投资 + 5GW Ironwood，"自家短板由对家产能补"的对冲打法在本周末走清。
Anthropic Mythos Preview 持续辐射：周末没有新一手披露，但 Schneier 4/23-24 长文与 Hugging Face 论坛多篇拆解持续放大 zero-day 复现率 83.1% 的口径；Anthropic Project Glasswing 官页本周末未变化（Schneier on Security、Project Glasswing 官页）。
未交叉验证信号：xAI Grok 5 仍维持"Q2 内"口径，本日无增量；Meta Avocado / Mango 仍只见路线图、未见公开 benchmark；Mistral 周末无新动作；Yann LeCun 4/23 World Modeling Workshop 提出 LeJEPA / V-JEPA 2.1 的"Beyond the Token"框架尚未与 Meta 主线产品打通（The Decoder）。

关键人物与社区信号

Sam Altman（@sama）— Tumbler Ridge 案 4/25 二轮：TechCrunch 4/25 把 4/23 致歉信扩大为完整事件叙事；OpenAI 发书面承诺"扩大转交执法判定标准 + 与加拿大执法建立直连点"；受害者家属正式起诉 OpenAI（CBC）；加拿大 AI Minister Ivan Solomon 已召集紧急部长级会谈；KevinMD 4/26 发表《The urgent need for AI mental health regulation after Tumbler Ridge》——AI 公司刑事级披露义务已成可立法议题（KevinMD、Global News）。
Lianmin Zheng（@lm_zheng，候选池新增）：4/25 LMSYS 博客 DeepSeek-V4 on Day 0 主笔之一，与 RadixArk Miles 团队联合交付 V4 Day-0 推理 + 端到端 RL 训练栈；其 X 帖 4/24-25 公开承认"OSS 团队几小时内完成核心 kernel 适配"。SGLang 是当下开源前沿模型最重要的落地容器之一，本次 Day-0 把"前沿模型 → 开源推理 → 验证 RL"三个环节首次在 1.6T 级模型上同日打通（LMSYS 博客、Lianmin Zheng X、LMSYS Org X）。
Andrej Karpathy（@karpathy）：周末延续"LLM Wiki / 第二大脑"叙事，对 LeJEPA 与 World Modeling 的话题持有保留态度，未公开发新长文；Simon Willison 4/26 周末 newsletter 仍在持续报道 V4 模型卡 + Glasswing 解读（Simon Willison 标签页）。
Sebastian Raschka & Nathan Lambert（已在 tracked pool）：本周延续 Lex Fridman #490 后的"State of AI 2026"叙事——Latent Space SAIL Live #6 节目谈 Anthropic 蒸馏防御与 SWE-Bench 失效问题，定调"测评衰退周期"（Latent Space）。
Zhang Shaofeng（张韶峰，候选池新增）：百融智能董事长 / CEO；4/26 上线《十字路口》“AI 在中国"系列第 6 期 3 小时长访谈，系统化讲清"传统企业 Agent 落地方法论”——先把概念讲清楚 → 再选对责任人 → 再用能闭环、能衡量的场景去打穿；强调"找到企业里的 AI 原住民，先在既有流程里跑出可交付结果"，与上周罗福莉访谈"组织平权 / Agent 范式吃后训练"形成 ToB 落地侧的互补叙事（小宇宙）。
候选池既有人物本日活跃：罗福莉（Luo Fuli）— Latent Space 与 36kr 周末复盘多次引用其 4/24 访谈关键金句；梁文锋（Liang Wenfeng）— 4/25 多家英文媒体（CNBC / SCMP / Aljazeera / Xinhua）周末复盘均提及其作为 V4 论文共同作者的角色；Kemba Walden — Schneier 周末长文继续放大其"前政府高官警告"口径。

Energy

本日无新核电 / SMR / 燃料电池一手公告——周末通常静默；继续观察 Meta 6.6GW 三笔核电协议的执行节奏与 Bloom Energy ↔ Oracle 2.8GW 燃料电池下一阶段（剩余 1.6GW）的交付节点。
EIA / FERC 时点确认：Energy Sec. Wright 此前要求 FERC 在 4/30 前回应大用户 + 新建电源联合并网快速规则；本周末未见提前披露草案（ITIF 复盘）。
结构性观察点：Omdia 2026 hyperscaler capex >$600B（约 75% 即 ~$450B 直接挂在 AI 基建）的口径在周末多家媒体复盘中被反复引用，"自带电源 + 现场升级"已是默认而非例外（Data Center Frontier）。
评估口径：本节本日 no high-confidence incremental signal，但 4/30 FERC 大用户并网规则与下周 Meta / Oracle 财报披露是关键观察窗。

Chips

NVDA 周五（4/24）收盘 $208.27、市值首破 $5T 后周末走平——本日无显著盘后或股息相关新一手；继续观察 5/20 财报前的 sell-side 上调节奏（Motley Fool 4/24）。
Huawei Ascend 950PR ↔ DeepSeek V4 适配：周末 Phemex / Huawei Central 复盘把"国产硬件原生跑前沿模型"叙事拉到第二轮——SMIC +9% / Hua Hong +15% 周五大涨被解读为"V4 是国产链可用的需求侧实证"（Huawei Central、Phemex）。
Cambricon 2026 产能 / 良率：50 万片产能上限 + ~20% 良率硬约束 + HBM 紧供应的口径未变；本周末未见独立反向数据（Tom’s Hardware）。
Google Ironwood TPUv7 多吉瓦协议：Anthropic 首批 400k 整柜（Broadcom 直供）+ 600k GCP 租用的口径在周末多源复盘中保持一致；首期 2027 上线（Anthropic 官页、Data Center Knowledge）。

Infra

LMSYS SGLang + Miles 4/25 Day-0 V4 推理 + RL 全栈（mainline）：LMSYS 博客系统讲清新组件——ShadowRadix prefix cache（针对 V4 hybrid sparse-attention 的全新前缀缓存）、HiSparse CPU-extended KV（异构 KV 复用）、MTP 推测解码 + in-graph metadata、Flash Compressor、Lightning TopK、hierarchical multi-stream overlap；同时 Miles（@radixark）首次上线"经验证 RL 训练管线"，把 1.6T MoE + manifold-constrained hyper-connections (mHC) + FP4 expert weights 这套架构的 RL fine-tune 周期降到 Day-0 可用。
MCP 安全治理仍未升级：4/16 OX Security 披露的 STDIO 架构级漏洞、20 万+ 服务器、1.5 亿次 SDK 下载本周末仍无上游补丁；Anthropic"设计如此"立场未撤回——基建层风险显性化已进入第十一天。
企业 Agent 平台 4 月份连续叙事固化：Salesforce Headless 360（4/16）+ Databricks Unity AI Gateway（4/15）+ ChatGPT Workspace Agents + Microsoft Teams Agents + Zed Parallel Agents（同周）——4 月已被多家媒体定性为"企业 Agent 编排从孤立 PoC 到合规级生产部署的拐点"（FifthRow 4 月企业 playbook）。
GitHub trending 周末快照：OpenClaw 已破 347,000 stars（单日峰值 +12,000，破 GitHub “AI” topic trending 算法上限）；Hermes Agent 单周 +32,572 stars 跃升新高；Discord r/openclaw 社区翻倍至 18 万、subreddit 45 万——agent 框架进入"Voice AI 双线 + 自演化 agent"主线段（ShareUHack 4/22 周报、Clawbot Blog）。

Model

三家旗舰各自巩固"路线分叉"叙事（周末复盘）：
- OpenAI → 软件化迭代频率（GPT-5.5 三天推满），Trust & Safety 因 Tumbler Ridge 进入刑事级问责窗。
- Anthropic → 能力分层 + 红队封顶（Opus 4.7 商用 + Mythos Glasswing + Walden 政策喊话），$30B ARR 已超 OpenAI（TokenMix Blog 复盘）。
- DeepSeek → 前沿开源 + 国产硬件原生 + Artificial Analysis 独立测评背书 + SGLang Day-0 容器。
DeepSeek V4 弱点定位：Artificial Analysis + Geeky Gadgets 周末测评一致认为，V4 Pro 在创意写作、细致推理、跨域适配等"软指标"上仍偏粗糙——开源前沿仍主要竞 Agent 与 reasoning，知识深度落后约 3-6 个月（Geeky Gadgets）。
MiMo / Qwen 中国阵营：Xiaomi MiMo-V2.5 全模态 Agent 仍待开源；Qwen 3.6 Plus（4/2）Hybrid Linear Attention + Sparse MoE 已落地；本日两条线均无新一手发布。
Yann LeCun LeJEPA / V-JEPA 2.1：Meta 4/23 World Modeling Workshop keynote 提出"Beyond the Token"路线，质疑 LLM 主导路线；尚未与 Meta 主线产品打通，但作为 LeCun "可能的离 Meta 前最后一个 Meta 项目"在周末持续被引用（The Decoder、Medium 复盘）。

Application

OpenClaw 生态进入"主流应用平台"段位：347k stars + 18 万 Discord + 45 万 subreddit + 主推 Claude Opus 4.7 集成；从"个人 AI 操作系统"走到"消费级 agent 默认入口"——SaaS 与传统 IDE 的注意力分流明确（ShareUHack 4/22）。
Tumbler Ridge 案 → AI 心理健康产品形态变更：周末多家专业期刊（KevinMD / The Conversation）呼吁 AI 公司在敏感场景部署"分级转介机制"——这一压力会反向推动 ChatGPT / Claude 在心理健康相关 prompt 上加更强的工具调用 + 转介策略，下一季产品口径变更可能（The Conversation）。
Character.AI 周末持续宕机（4/25-26）：iBTimes 报道用户大规模反映对话延迟、加载错误、partial outage——消费级聊天 AI 在峰值需求下的可靠性问题首次进入"周末新闻"层面（iBTimes）。
企业级 Agent 4 月主线：本周末 AI Daily Update April-25-2026（Stephen Stanley / Medium）汇总称：4 月 OpenAI Workspace Agents、Microsoft Teams Agents、Zed Parallel Agents 同周齐发，奠定"工作流 Agent 进入主流办公应用"的拐点叙事（Stephen Stanley）。

层间联动影响

Model ↔ Infra（开源闭环加速）：DeepSeek V4 + LMSYS SGLang + Miles + Huawei Ascend 在 4/24-25 完成"前沿模型 → 开源推理 → 验证 RL → 国产硬件"全链条同步，国产前沿首次具备"美国闭源主流栈之外的完整开源替代";结合 Artificial Analysis Index 52 / GDPval-AA 1554 数据，开源前沿在 Agent 维度已具备工业可用性。
People ↔ Governance（刑事级问责进入立法窗口）：Tumbler Ridge 致歉信 + 受害者家属起诉 + 加拿大 AI Minister 紧急会谈 + KevinMD 立法呼吁 + The Conversation 社论合流——"AI 公司是否有刑事意图通报义务"从政策圈讨论变为可立法议题；下一季美国 / 欧盟同类立法跟进风险显性化。
Chips ↔ Model（中国闭环投票）：周五 SMIC +9% / Hua Hong +15% 在周末多源复盘中被定性为"V4 是国产链可用的需求侧实证"——出口管制的"封顶效应"在生态侧已被部分中和；Cambricon 良率仍是硬约束。
Application ↔ Trust（产品形态压力）：Tumbler Ridge + Character.AI 宕机 + Mythos 网络武器化讨论叠加，让"AI 应用层是否需要分级 Trust 机制（敏感场景转介、可靠性 SLA、刑事级响应）"成为下一季产品口径议题。
Infra ↔ Capital（硬件供给绑定升级为长期壁垒）：Google → Anthropic $40B / 5GW 协议 + Microsoft Azure + AWS Trainium 周末复盘均把"硬件供给关系"视为下一阶段壁垒——纯模型能力作为竞争核心的窗口期可能正在收窄。

🎙️ 播客动态

十字路口 Crossing — 为什么公司用不好AI？从焦虑到行动的 3 个关键动作｜对谈百融智能张韶峰：「AI 在中国」系列第 6 期；百融智能（1,600 人港股上市）董事长 / CEO 张韶峰复盘金融风控、联络中心、招聘面试、财报审核、合同审核五大企业级 Agent 生产部署案例，给出"传统企业友好"推进法——先讲清概念 → 选对责任人 → 用能闭环、能衡量的场景打穿；强调"找企业里的 AI 原住民，先在既有流程里跑出可交付结果，不要先挑战人性、不要先重构流程"，定位为 ToB AI 创业者的"十年一次"窗口。

候选池变化与后续关注

本日候选池新增 2 名：

Lianmin Zheng（@lm_zheng）：LMSYS 联合创始人、SGLang 核心维护者；4/25 LMSYS 博客 DeepSeek-V4 on Day 0 主笔之一，与 RadixArk Miles 团队联合交付 V4 1.6T MoE Day-0 开源推理 + 验证 RL 训练栈；新组件 ShadowRadix / HiSparse / MTP 推测解码均首次在 1.6T 级模型上同日打通；分组建议 oss-ai-builders，理由"前沿模型开源化的关键工程基础设施提供者"。
Zhang Shaofeng（张韶峰）：百融智能（Bairong Zhinengbao）董事长 / CEO；4/26 上线《十字路口》“AI 在中国"系列第 6 期 3 小时长访谈，系统化输出"传统企业级 Agent 落地方法论”；分组建议 ai-generalists，理由"ToB 中国企业 Agent 落地侧的首位系统化叙事人"——但因身份偏向传统行业 CEO 而非 AI 原生 builder，promote_recommended=false。

已在候选池本日活跃：

罗福莉（Luo Fuli）：周末 Latent Space / 36kr 多次引用 4/24 访谈关键金句；mention_count 增加。
梁文锋（Liang Wenfeng）：周末多家英文媒体（CNBC / SCMP / Aljazeera / Xinhua）继续引用其作为 V4 论文共同作者的署名。
Kemba Walden：Schneier on Security 4/23-24 长文继续放大其"前政府高官警告"口径。
唐文斌：本日无新一手；维持原力灵机叙事观察。
Peter Steinberger / Carina Hong / Jesse Vincent：本日无独立新一手；保持在 pending_seed_sync_people，建议下次 sync-repo 一并入种子文件（不在本日做）。

待提升观察：Lianmin Zheng 若在两周内再有独立工程化交付（V4.x 后续 / 新前沿模型 Day-0）可考虑 promote_recommended=true；Zhang Shaofeng 若再做一次系统化输出（深度文章 / 新一期长访谈）可重新评估 promote。

池治理：本日未触发自动 promote。

来源与交叉验证说明

Source mix：本日报告以 Artificial Analysis 独立测评、LMSYS 博客、Anthropic 官页、DeepSeek 官方文档（primary / official + company / filing）为主线；TechCrunch / CBC / CNBC / Fortune / SCMP / Aljazeera / Xinhua / Schneier / The Decoder / Medium / Sherwood News / The Conversation（media / analysis）为二线复盘；Lianmin Zheng X 帖、LMSYS Org X 帖、xiaoyuzhoufm 播客 shownotes、Simon Willison 博客标签页、iBTimes（community / social）作为人物与社区信号补充。

Verification note：

DeepSeek V4 独立基准通过 Artificial Analysis（站内 V4 Pro / V4 Pro High / V4 Flash 三页）+ OfficeChai + LinkedIn Pulse 多源交叉确认 Intelligence Index 52 / GDPval-AA 1554；与 V3.2 = 42 的对比口径一致。
LMSYS Day-0 通过 LMSYS 官方博客 + LMSYS Org X + Lianmin Zheng X + SGLang Documentation + GitHub roadmap issue 五源交叉确认。
Tumbler Ridge 二轮通过 TechCrunch + CBC + Global News + KevinMD + The Conversation + iMFounder 多源交叉确认，受害者起诉与 Solomon 紧急会谈口径一致。
OpenClaw 347k stars 通过 Clawbot Blog + ShareUHack 周报 + caramaschiHG awesome list 三源交叉。
LeCun LeJEPA / V-JEPA 2.1 来自 LeCun LinkedIn 帖（自述）+ The Decoder + Medium 复盘三源；定位为 unverified frontier signal。
播客信息源自 podcast_fetch.py 4/26 抓取，未做二次 web 搜索。

Coverage gaps / confidence flags：

周日是相对低增量日：核电 / SMR / 燃料电池新签约、xAI Grok / Mistral 新动作、Meta Avocado/Mango benchmark 均无一手。
DeepSeek V4 仍未公开完整 paper code（仅模型卡 + 架构概述），第三方红队复测仍待时；Mythos 攻击数据仍以 Anthropic / AISI 单线披露为主。
Tumbler Ridge 立法层面仍处于"召集会议 + 公开呼吁"阶段，新法规草案未出。
LMSYS Miles RL 训练管线的"经验证"口径目前仅由 LMSYS 官方报告，未见第三方复现。
LeCun LeJEPA 仅有 LinkedIn 帖 + 媒体复盘，无 arxiv 论文链接（截至本日）；保留为 unverified frontier signal。

confidence_flags：weekend-low-news、benchmark-confirmation-cycle、regulatory-window-opening、open-source-stack-day-zero-validated。

Hanzhi's BLOG

[市场·2026-04-26] AI