[市场·2026-04-26] AI

AI 日报|2026-04-26

一句话结论:周日缺新发,但 4/24 的 DeepSeek V4 经过周末发酵——Artificial Analysis Intelligence Index 把 V4 Pro 钉在 52 分(开源第二,仅次于 Kimi K2.6)、GDPval-AA 反超 Kimi 拿下开源 Agent 第一,LMSYS SGLang + Miles 在 4/25 提供 Day-0 推理 + RL 训练栈;同时 Tumbler Ridge 案 4/25 进入"加拿大监管 + 民事诉讼 + AI 心理健康立法"三线发酵,Altman 致歉信首次让"AI 公司是否有通报刑事意图义务"成为可立法议题。

摘要

  • 模型层(mainline):Artificial Analysis 4/25 独立测评出炉——DeepSeek V4 Pro 拿下 Intelligence Index 52(V3.2 是 42)、稳居开源前沿;在 GDPval-AA 反而超过 Kimi K2.6,成为开源 Agent 任务榜首,唯独在 GPQA / Humanity’s Last Exam 等知识题上落后 GPT-5.4 / Gemini 3.1 Pro 约 3-6 个月。
  • 基建层(mainline):LMSYS 4/25 发文 DeepSeek-V4 on Day 0——SGLang + Miles 是首个 V4 Day-0 开源推理 + 经验证 RL 训练栈,覆盖 ShadowRadix prefix cache、HiSparse CPU-extended KV、MTP 推测解码、Flash Compressor、Lightning TopK;与 Huawei Ascend 适配并行,给开源生态画出"硬件解耦"通路。
  • 应用 / 人物(mainline):4/25 TechCrunch 把 Tumbler Ridge 案 Altman 致歉信推向二轮报道——加拿大政府考虑新 AI 法规、受害者家属起诉 OpenAI、KevinMD 等专业期刊呼吁 AI 心理健康专项立法;OpenAI 改口声明将"扩大转交执法的判定标准 + 与加方建立直连点"。
  • 社区层(mainline):OpenClaw 在月内由 21 万 → 347,000 stars,单日峰值 +12,000,已破 GitHub “AI” topic trending 算法上限;与此并行,Hermes Agent 单周 +32,572 stars。
  • 本日候选池新增 2 名:Lianmin Zheng(LMSYS / SGLang 联合负责人)与 Zhang Shaofeng(张韶峰,百融智能 CEO)——前者今日完成 V4 Day-0 工程化全栈交付,后者今日《十字路口》播客系统化输出"传统企业级 Agent 落地方法论"。

Frontier Labs / Frontier Model Radar

主线(高置信)

  • DeepSeek V4 Pro 独立测评结果(Artificial Analysis 4/25:Intelligence Index v4.0(10 项 evals 综合:GDPval-AA、τ²-Bench Telecom、Terminal-Bench Hard、SciCode、AA-LCR、AA-Omniscience、IFBench、HLE、GPQA Diamond、CritPt)= 52(开源第二,仅次于 Kimi K2.6),相较 V3.2 的 42 分跳跃 +10。Agent 维度的 GDPval-AA 实测 1554,反超 Kimi K2.6(1484)、GLM-5.1(1535)、GLM-5(1402)、MiniMax-M2.7(1514),坐稳 开源 Agent 任务第一。但官方坦承在 GPQA / HLE 等纯知识题上落后 GPT-5.4 / Gemini 3.1 Pro 约 3-6 个月——独立测评首次量化"国产前沿与闭源前沿在不同 axis 上的差距"(CNBCOfficeChai)。
  • GPT-5.5 / Claude Opus 4.7 / DeepSeek V4 三家旗舰格局已稳(4/24 同周):综合 Releasebot + 媒体本周末复盘——OpenAI 走"软件化迭代"(GPT-5.5 三天内推满 ChatGPT 全计划 + Codex + API + ChatGPT Images 2.0),Anthropic 走"能力分层 + 红队封顶"(Opus 4.7 商用 + Mythos 仅 Glasswing + Walden 公开告警),DeepSeek 走"前沿开源 + 国产硬件原生 + 普惠定价"——三条路线在本周末第一次有了完整的独立测评 + 独立基础设施 + 独立公共问责事件作各自的脚注(FortuneAnthropic 官页DeepSeek API Docs)。

次线 / unverified frontier signals

  • Google DeepMind “strike team”(The Information 4/21 / AI2Work 复盘:Sergey Brin 亲自组队,单一 mandate 是补 Gemini 在编码与 agent 维度对 Anthropic 的差距。结合 4/24 Google→Anthropic $40B 投资 + 5GW Ironwood,"自家短板由对家产能补"的对冲打法在本周末走清。
  • Anthropic Mythos Preview 持续辐射:周末没有新一手披露,但 Schneier 4/23-24 长文与 Hugging Face 论坛多篇拆解持续放大 zero-day 复现率 83.1% 的口径;Anthropic Project Glasswing 官页本周末未变化(Schneier on SecurityProject Glasswing 官页)。
  • 未交叉验证信号:xAI Grok 5 仍维持"Q2 内"口径,本日无增量;Meta Avocado / Mango 仍只见路线图、未见公开 benchmark;Mistral 周末无新动作;Yann LeCun 4/23 World Modeling Workshop 提出 LeJEPA / V-JEPA 2.1 的"Beyond the Token"框架尚未与 Meta 主线产品打通(The Decoder)。

关键人物与社区信号

  • Sam Altman(@sama)— Tumbler Ridge 案 4/25 二轮TechCrunch 4/25 把 4/23 致歉信扩大为完整事件叙事;OpenAI 发书面承诺"扩大转交执法判定标准 + 与加拿大执法建立直连点";受害者家属正式起诉 OpenAI(CBC);加拿大 AI Minister Ivan Solomon 已召集紧急部长级会谈;KevinMD 4/26 发表《The urgent need for AI mental health regulation after Tumbler Ridge》——AI 公司刑事级披露义务已成可立法议题(KevinMDGlobal News)。
  • Lianmin Zheng(@lm_zheng,候选池新增):4/25 LMSYS 博客 DeepSeek-V4 on Day 0 主笔之一,与 RadixArk Miles 团队联合交付 V4 Day-0 推理 + 端到端 RL 训练栈;其 X 帖 4/24-25 公开承认"OSS 团队几小时内完成核心 kernel 适配"。SGLang 是当下开源前沿模型最重要的落地容器之一,本次 Day-0 把"前沿模型 → 开源推理 → 验证 RL"三个环节首次在 1.6T 级模型上同日打通(LMSYS 博客Lianmin Zheng XLMSYS Org X)。
  • Andrej Karpathy(@karpathy):周末延续"LLM Wiki / 第二大脑"叙事,对 LeJEPA 与 World Modeling 的话题持有保留态度,未公开发新长文;Simon Willison 4/26 周末 newsletter 仍在持续报道 V4 模型卡 + Glasswing 解读(Simon Willison 标签页)。
  • Sebastian Raschka & Nathan Lambert(已在 tracked pool):本周延续 Lex Fridman #490 后的"State of AI 2026"叙事——Latent Space SAIL Live #6 节目谈 Anthropic 蒸馏防御与 SWE-Bench 失效问题,定调"测评衰退周期"(Latent Space)。
  • Zhang Shaofeng(张韶峰,候选池新增):百融智能董事长 / CEO;4/26 上线《十字路口》“AI 在中国"系列第 6 期 3 小时长访谈,系统化讲清"传统企业 Agent 落地方法论”——先把概念讲清楚 → 再选对责任人 → 再用能闭环、能衡量的场景去打穿;强调"找到企业里的 AI 原住民,先在既有流程里跑出可交付结果",与上周罗福莉访谈"组织平权 / Agent 范式吃后训练"形成 ToB 落地侧的互补叙事(小宇宙)。
  • 候选池既有人物本日活跃:罗福莉(Luo Fuli)— Latent Space 与 36kr 周末复盘多次引用其 4/24 访谈关键金句;梁文锋(Liang Wenfeng)— 4/25 多家英文媒体(CNBC / SCMP / Aljazeera / Xinhua)周末复盘均提及其作为 V4 论文共同作者的角色;Kemba Walden — Schneier 周末长文继续放大其"前政府高官警告"口径。

Energy

  • 本日无新核电 / SMR / 燃料电池一手公告——周末通常静默;继续观察 Meta 6.6GW 三笔核电协议的执行节奏与 Bloom Energy ↔ Oracle 2.8GW 燃料电池下一阶段(剩余 1.6GW)的交付节点。
  • EIA / FERC 时点确认:Energy Sec. Wright 此前要求 FERC 在 4/30 前回应大用户 + 新建电源联合并网快速规则;本周末未见提前披露草案(ITIF 复盘)。
  • 结构性观察点:Omdia 2026 hyperscaler capex >$600B(约 75% 即 ~$450B 直接挂在 AI 基建)的口径在周末多家媒体复盘中被反复引用,"自带电源 + 现场升级"已是默认而非例外(Data Center Frontier)。
  • 评估口径:本节本日 no high-confidence incremental signal,但 4/30 FERC 大用户并网规则与下周 Meta / Oracle 财报披露是关键观察窗。

Chips

  • NVDA 周五(4/24)收盘 $208.27、市值首破 $5T 后周末走平——本日无显著盘后或股息相关新一手;继续观察 5/20 财报前的 sell-side 上调节奏(Motley Fool 4/24)。
  • Huawei Ascend 950PR ↔ DeepSeek V4 适配:周末 Phemex / Huawei Central 复盘把"国产硬件原生跑前沿模型"叙事拉到第二轮——SMIC +9% / Hua Hong +15% 周五大涨被解读为"V4 是国产链可用的需求侧实证"(Huawei CentralPhemex)。
  • Cambricon 2026 产能 / 良率:50 万片产能上限 + ~20% 良率硬约束 + HBM 紧供应的口径未变;本周末未见独立反向数据(Tom’s Hardware)。
  • Google Ironwood TPUv7 多吉瓦协议:Anthropic 首批 400k 整柜(Broadcom 直供)+ 600k GCP 租用的口径在周末多源复盘中保持一致;首期 2027 上线(Anthropic 官页Data Center Knowledge)。

Infra

  • LMSYS SGLang + Miles 4/25 Day-0 V4 推理 + RL 全栈(mainline)LMSYS 博客 系统讲清新组件——ShadowRadix prefix cache(针对 V4 hybrid sparse-attention 的全新前缀缓存)、HiSparse CPU-extended KV(异构 KV 复用)、MTP 推测解码 + in-graph metadata、Flash Compressor、Lightning TopK、hierarchical multi-stream overlap;同时 Miles(@radixark)首次上线"经验证 RL 训练管线",把 1.6T MoE + manifold-constrained hyper-connections (mHC) + FP4 expert weights 这套架构的 RL fine-tune 周期降到 Day-0 可用。
  • MCP 安全治理仍未升级:4/16 OX Security 披露的 STDIO 架构级漏洞、20 万+ 服务器、1.5 亿次 SDK 下载本周末仍无上游补丁;Anthropic"设计如此"立场未撤回——基建层风险显性化已进入第十一天。
  • 企业 Agent 平台 4 月份连续叙事固化:Salesforce Headless 360(4/16)+ Databricks Unity AI Gateway(4/15)+ ChatGPT Workspace Agents + Microsoft Teams Agents + Zed Parallel Agents(同周)——4 月已被多家媒体定性为"企业 Agent 编排从孤立 PoC 到合规级生产部署的拐点"(FifthRow 4 月企业 playbook)。
  • GitHub trending 周末快照:OpenClaw 已破 347,000 stars(单日峰值 +12,000,破 GitHub “AI” topic trending 算法上限);Hermes Agent 单周 +32,572 stars 跃升新高;Discord r/openclaw 社区翻倍至 18 万、subreddit 45 万——agent 框架进入"Voice AI 双线 + 自演化 agent"主线段(ShareUHack 4/22 周报Clawbot Blog)。

Model

  • 三家旗舰各自巩固"路线分叉"叙事(周末复盘)
    • OpenAI → 软件化迭代频率(GPT-5.5 三天推满),Trust & Safety 因 Tumbler Ridge 进入刑事级问责窗。
    • Anthropic → 能力分层 + 红队封顶(Opus 4.7 商用 + Mythos Glasswing + Walden 政策喊话),$30B ARR 已超 OpenAI(TokenMix Blog 复盘)。
    • DeepSeek → 前沿开源 + 国产硬件原生 + Artificial Analysis 独立测评背书 + SGLang Day-0 容器。
  • DeepSeek V4 弱点定位:Artificial Analysis + Geeky Gadgets 周末测评一致认为,V4 Pro 在创意写作、细致推理、跨域适配等"软指标"上仍偏粗糙——开源前沿仍主要竞 Agent 与 reasoning,知识深度落后约 3-6 个月(Geeky Gadgets)。
  • MiMo / Qwen 中国阵营:Xiaomi MiMo-V2.5 全模态 Agent 仍待开源;Qwen 3.6 Plus(4/2)Hybrid Linear Attention + Sparse MoE 已落地;本日两条线均无新一手发布。
  • Yann LeCun LeJEPA / V-JEPA 2.1:Meta 4/23 World Modeling Workshop keynote 提出"Beyond the Token"路线,质疑 LLM 主导路线;尚未与 Meta 主线产品打通,但作为 LeCun "可能的离 Meta 前最后一个 Meta 项目"在周末持续被引用(The DecoderMedium 复盘)。

Application

  • OpenClaw 生态进入"主流应用平台"段位:347k stars + 18 万 Discord + 45 万 subreddit + 主推 Claude Opus 4.7 集成;从"个人 AI 操作系统"走到"消费级 agent 默认入口"——SaaS 与传统 IDE 的注意力分流明确(ShareUHack 4/22)。
  • Tumbler Ridge 案 → AI 心理健康产品形态变更:周末多家专业期刊(KevinMD / The Conversation)呼吁 AI 公司在敏感场景部署"分级转介机制"——这一压力会反向推动 ChatGPT / Claude 在心理健康相关 prompt 上加更强的工具调用 + 转介策略,下一季产品口径变更可能(The Conversation)。
  • Character.AI 周末持续宕机(4/25-26):iBTimes 报道用户大规模反映对话延迟、加载错误、partial outage——消费级聊天 AI 在峰值需求下的可靠性问题首次进入"周末新闻"层面(iBTimes)。
  • 企业级 Agent 4 月主线:本周末 AI Daily Update April-25-2026(Stephen Stanley / Medium)汇总称:4 月 OpenAI Workspace Agents、Microsoft Teams Agents、Zed Parallel Agents 同周齐发,奠定"工作流 Agent 进入主流办公应用"的拐点叙事(Stephen Stanley)。

层间联动影响

  • Model ↔ Infra(开源闭环加速):DeepSeek V4 + LMSYS SGLang + Miles + Huawei Ascend 在 4/24-25 完成"前沿模型 → 开源推理 → 验证 RL → 国产硬件"全链条同步,国产前沿首次具备"美国闭源主流栈之外的完整开源替代";结合 Artificial Analysis Index 52 / GDPval-AA 1554 数据,开源前沿在 Agent 维度已具备工业可用性。
  • People ↔ Governance(刑事级问责进入立法窗口):Tumbler Ridge 致歉信 + 受害者家属起诉 + 加拿大 AI Minister 紧急会谈 + KevinMD 立法呼吁 + The Conversation 社论合流——"AI 公司是否有刑事意图通报义务"从政策圈讨论变为可立法议题;下一季美国 / 欧盟同类立法跟进风险显性化。
  • Chips ↔ Model(中国闭环投票):周五 SMIC +9% / Hua Hong +15% 在周末多源复盘中被定性为"V4 是国产链可用的需求侧实证"——出口管制的"封顶效应"在生态侧已被部分中和;Cambricon 良率仍是硬约束。
  • Application ↔ Trust(产品形态压力):Tumbler Ridge + Character.AI 宕机 + Mythos 网络武器化讨论叠加,让"AI 应用层是否需要分级 Trust 机制(敏感场景转介、可靠性 SLA、刑事级响应)"成为下一季产品口径议题。
  • Infra ↔ Capital(硬件供给绑定升级为长期壁垒):Google → Anthropic $40B / 5GW 协议 + Microsoft Azure + AWS Trainium 周末复盘均把"硬件供给关系"视为下一阶段壁垒——纯模型能力作为竞争核心的窗口期可能正在收窄。

🎙️ 播客动态

  • 十字路口 Crossing — 为什么公司用不好AI?从焦虑到行动的 3 个关键动作|对谈百融智能张韶峰:「AI 在中国」系列第 6 期;百融智能(1,600 人港股上市)董事长 / CEO 张韶峰复盘金融风控、联络中心、招聘面试、财报审核、合同审核五大企业级 Agent 生产部署案例,给出"传统企业友好"推进法——先讲清概念 → 选对责任人 → 用能闭环、能衡量的场景打穿;强调"找企业里的 AI 原住民,先在既有流程里跑出可交付结果,不要先挑战人性、不要先重构流程",定位为 ToB AI 创业者的"十年一次"窗口。

候选池变化与后续关注

本日候选池新增 2 名

  1. Lianmin Zheng(@lm_zheng):LMSYS 联合创始人、SGLang 核心维护者;4/25 LMSYS 博客 DeepSeek-V4 on Day 0 主笔之一,与 RadixArk Miles 团队联合交付 V4 1.6T MoE Day-0 开源推理 + 验证 RL 训练栈;新组件 ShadowRadix / HiSparse / MTP 推测解码均首次在 1.6T 级模型上同日打通;分组建议 oss-ai-builders,理由"前沿模型开源化的关键工程基础设施提供者"。

  2. Zhang Shaofeng(张韶峰):百融智能(Bairong Zhinengbao)董事长 / CEO;4/26 上线《十字路口》“AI 在中国"系列第 6 期 3 小时长访谈,系统化输出"传统企业级 Agent 落地方法论”;分组建议 ai-generalists,理由"ToB 中国企业 Agent 落地侧的首位系统化叙事人"——但因身份偏向传统行业 CEO 而非 AI 原生 builder,promote_recommended=false

已在候选池本日活跃

  • 罗福莉(Luo Fuli):周末 Latent Space / 36kr 多次引用 4/24 访谈关键金句;mention_count 增加。
  • 梁文锋(Liang Wenfeng):周末多家英文媒体(CNBC / SCMP / Aljazeera / Xinhua)继续引用其作为 V4 论文共同作者的署名。
  • Kemba Walden:Schneier on Security 4/23-24 长文继续放大其"前政府高官警告"口径。
  • 唐文斌:本日无新一手;维持原力灵机叙事观察。
  • Peter Steinberger / Carina Hong / Jesse Vincent:本日无独立新一手;保持在 pending_seed_sync_people,建议下次 sync-repo 一并入种子文件(不在本日做)。

待提升观察:Lianmin Zheng 若在两周内再有独立工程化交付(V4.x 后续 / 新前沿模型 Day-0)可考虑 promote_recommended=true;Zhang Shaofeng 若再做一次系统化输出(深度文章 / 新一期长访谈)可重新评估 promote。

池治理:本日未触发自动 promote。

来源与交叉验证说明

Source mix:本日报告以 Artificial Analysis 独立测评、LMSYS 博客、Anthropic 官页、DeepSeek 官方文档(primary / official + company / filing)为主线;TechCrunch / CBC / CNBC / Fortune / SCMP / Aljazeera / Xinhua / Schneier / The Decoder / Medium / Sherwood News / The Conversation(media / analysis)为二线复盘;Lianmin Zheng X 帖、LMSYS Org X 帖、xiaoyuzhoufm 播客 shownotes、Simon Willison 博客标签页、iBTimes(community / social)作为人物与社区信号补充。

Verification note

  • DeepSeek V4 独立基准通过 Artificial Analysis(站内 V4 Pro / V4 Pro High / V4 Flash 三页)+ OfficeChai + LinkedIn Pulse 多源交叉确认 Intelligence Index 52 / GDPval-AA 1554;与 V3.2 = 42 的对比口径一致。
  • LMSYS Day-0 通过 LMSYS 官方博客 + LMSYS Org X + Lianmin Zheng X + SGLang Documentation + GitHub roadmap issue 五源交叉确认。
  • Tumbler Ridge 二轮通过 TechCrunch + CBC + Global News + KevinMD + The Conversation + iMFounder 多源交叉确认,受害者起诉与 Solomon 紧急会谈口径一致。
  • OpenClaw 347k stars 通过 Clawbot Blog + ShareUHack 周报 + caramaschiHG awesome list 三源交叉。
  • LeCun LeJEPA / V-JEPA 2.1 来自 LeCun LinkedIn 帖(自述)+ The Decoder + Medium 复盘三源;定位为 unverified frontier signal。
  • 播客信息源自 podcast_fetch.py 4/26 抓取,未做二次 web 搜索。

Coverage gaps / confidence flags

  • 周日是相对低增量日:核电 / SMR / 燃料电池新签约、xAI Grok / Mistral 新动作、Meta Avocado/Mango benchmark 均无一手。
  • DeepSeek V4 仍未公开完整 paper code(仅模型卡 + 架构概述),第三方红队复测仍待时;Mythos 攻击数据仍以 Anthropic / AISI 单线披露为主。
  • Tumbler Ridge 立法层面仍处于"召集会议 + 公开呼吁"阶段,新法规草案未出。
  • LMSYS Miles RL 训练管线的"经验证"口径目前仅由 LMSYS 官方报告,未见第三方复现。
  • LeCun LeJEPA 仅有 LinkedIn 帖 + 媒体复盘,无 arxiv 论文链接(截至本日);保留为 unverified frontier signal。

confidence_flagsweekend-low-newsbenchmark-confirmation-cycleregulatory-window-openingopen-source-stack-day-zero-validated