← 返回主报告：[市场·2026-05-06] Politics

Paper Layer — 2026-05-06

paper-digest 2026-05-06 daily 已 consumed（132 候选 / Top 8 / 三源全部正常返回；S2 未返回 similar_papers，HF JSON 不附 affiliation，导致延伸阅读与新作者发现两段降级）。今日 8 条主线由中国高校 + 独立小组的 agent benchmark 投稿构成，5 篇为 benchmark / eval 工作（iWorld-Bench / ESARBench / Workspace-Bench / Healthcare AI GYM / WindowsWorld），从交互式世界模型扩展到 UAV 搜救、跨应用 GUI、医院、工作区文件依赖；显示 agent 评测体系正在从 isolated 单任务往过程级、跨应用、长期 skill 演化位移。

paper-digest 命中 picks

2605.03941 A Benchmark for Interactive World Models with a Unified Action Generation Framework — iWorld-Bench 用统一动作生成框架评测交互式世界模型。为何进 market-briefing：与 paper-digest 同主张『世界模型 benchmark 化』收敛，但需在 market-briefing 里挂上 application-layer 的需求侧证据（GUI / Workspace 复杂任务）才形成完整链。
2605.01371 ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue — 首个 MLLM 驱动 UAV 搜救场景的 agentic benchmark。为何进：embodied agent 从机器人臂 / GUI 跳到 UAV 搜救垂直场景，意味着 agent benchmark 下一阶段把『可观测真实物理风险任务』纳入；对 chips / energy 端推理时延 + 模型蒸馏方向有具象需求拉动。
2605.03596 Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies — 工作区大规模文件依赖 agent 基准，附 100-task lite 子集（评估成本降 70%）。为何进：今日 Anthropic Microsoft 365 全家桶 / OpenAI Workspace Agents / Google Workspace Intelligence 都把 enterprise 工作区做成主战场；Workspace-Bench 给出 evaluator 侧的对位证据，是 application-layer benchmark 与 frontier-lab 商业化之间的桥梁论文。
2604.27776 WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments — 跨应用专业工作流 process-centric GUI agent 基准。为何进：OSWorld 单应用范式 → 跨应用 profession-specific 流水线位移；与 OpenAI Workspace Agents / Microsoft Agent 365 / Anthropic Claude Cowork 形成评测面对位。
2605.02943 Healthcare AI GYM for Medical Agents — 多轮临床 RL 训练环境用于通用医疗 agent；附 TT-OPD（Turn-level Truncated On-Policy Distillation）训练算法贡献。为何进：vertical agent benchmark 进入医疗领域 + 蒸馏方法学，application-layer 与 model-layer 训练范式的双重信号。
2604.27488 Skills-Coach: A Self-Evolving Skill Optimizer via Training-Free GRPO — 免训练 GRPO 让 LLM agent 技能自演化覆盖全场景。为何进：training-free GRPO 把 RL 后训练成本继续往下压；与 Anthropic Distillation 主线（Latent Space SAIL Live #6 4 月底讨论）形成方法论层 cross-check。

技术信号（paper-digest 不覆盖）

Claude Code 5 月新版本 — /model picker 支持 Anthropic-compatible gateway /v1/models；ANTHROPIC_BEDROCK_SERVICE_TIER；/resume 支持 PR URL 反查 session；–plugin-dir 接受 .zip 插件包；Windows / PowerShell 修复 + OAuth 强化。Claude Code 1.x 系列首次正式接入企业 gateway 模式，对位 OpenAI Codex backdoor。 (GitHub releases / Releasebot)
Microsoft Agent 365 GA（5/1）— $15/seat、agent 注册表 + Bedrock / GCP registry sync 公测、Agent Isolation 机密计算 enclave、Entra 网络控制扩展到 Copilot Studio agent 与端点 agent。tooling-layer 把 agent 治理从应用内对接做成跨云目录服务。 (Microsoft Security)
OpenClaw 突破 250k GitHub stars 60 天内超过 React 成为最 starred 软件项目 — 本地 / 私有 infra 路线（连 WhatsApp / Telegram / Slack / Discord 等 50+ 工具，无外部 API 路由）；OSS personal AI OS 概念具象化。 (NVIDIA blog)

覆盖缺口

今日 paper-digest top picks 8 篇里 0 frontier-lab 署名命中，主线由中国高校 + 独立小组 agent benchmark 构成；frontier-lab 训练侧方法论暂无 5/5-5/6 paper 信号。
Workspace-Bench / iWorld-Bench / WindowsWorld 三篇 affiliation 字段为空，paper-digest 未带回机构信息。

Hanzhi's BLOG

[市场·2026-05-06] Paper Layer

Paper Layer — 2026-05-06

paper-digest 命中 picks

技术信号（paper-digest 不覆盖）

覆盖缺口