← 返回主报告:[市场·2026-05-19] Politics
论文层 · AI 每日简报(2026-05-19,UTC)
今日论文层主线为 「agent 评测基准爆发日」:paper-digest 三源(arXiv listing + HF Daily + Semantic Scholar)齐备 135 条候选、0 条命中 14 天 seen-pool,Top 8 中 6 篇为全新评测基准,集体指向 agent 在闭环工具使用 / 长程记忆 / 跨视角空间推理上的可信度缺口。最硬的市场信号是 TOBench 上最强模型仅约 32% 任务成功率 vs 94% 人类基线,LongMINT 显示 7 套记忆系统在干扰下平均仅 27.9%——两者合起来说明把 tool-using / 长程记忆 agent 投入无人值守生产仍需重型人类兜底。效率侧 GIM 首次大规模量化 test-time compute 与能力的权衡、Measuring Maximum Activations 给出 MoE 峰值比同规模 dense 低 14–23 倍的部署经验律,二者直接关联推理账单与硬件选型。paper-digest 状态:consumed。
Top 8 论文(消费自 paper-digest,附市场相关性)
- 2605.17894 Evaluating Cognitive Age Alignment in Interactive AI Agents — 首个心理测量学接地的交互式认知年龄基准,量化 MLLM 智能体认知年龄差距,当日 HF 热度第一;市场相关性:把「智能体表现得像几岁的人」做成可测指标,为消费者/教育/陪伴类 agent 提供超出准确率的合规与产品定位评估维度。
- 2605.16909 TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents — 真实世界全模态闭环工具使用基准,最强模型仅约 32% 远逊 94% 人类基线;市场相关性:今日最硬的 agent 可信度缺口数据点,说明 tool-using agent 无人值守生产仍需重型人类兜底,是评估 agent 部署经济性与 ROI 的基准锚点。
- 2605.16079 VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation — 原生工具调用内化进实例级视频理解,配四阶段全自动数据合成管线,超 GPT-4o;市场相关性:自动数据合成降低视频理解 agent 训练数据成本,对监控/媒资/内容审核类产品的可规模化落地与单位经济性有直接含义。
- 2605.18663 GIM: Evaluating models via tasks that integrate multiple cognitive domains — IRT 校准整合型推理基准,首次大规模量化 test-time compute 与能力权衡,发现思考预算/量化与选型同等重要;市场相关性:给推理成本预算与延迟 SLA 团队一份可量化的 test-time-compute 投入产出曲线,直接影响推理账单与 SKU 选择。
- 2605.18621 CrossView Suite: Harnessing Cross-view Spatial Intelligence of MLLMs with Dataset, Model and Benchmark — 跨视角空间智能完整三件套:1.6M 数据集+对齐模型+基准;市场相关性:跨视角空间推理是机器人/AR-XR/多摄自动驾驶的卡点能力,三件套齐备让该能力线从研究演示向可复现工程基线收敛。
- 2605.18565 LongMINT: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems — 高干扰长程记忆抗干扰基准,7 套记忆系统在多目标干扰下平均仅 27.9%;市场相关性:当前记忆栈在真实多任务噪声下并不可靠,对赌「长程记忆」卖点的 agent 产品与向量库/记忆中间件赛道是直接风险信号。
- 2605.18572 MAP: A Meta-Cognitive Autonomous Intelligent Agents Framework for Complex Persuasion — 元认知配置器驱动的自治多智能体框架,跨域自动选策略缓解性能波动;市场相关性:针对跨域性能波动给出元认知调度方案,对销售/客服/谈判类 agent 是工程化思路,同时劝说增强带来 trust & safety 与监管双刃后果。
- 2605.15572 Measuring Maximum Activations in Open Large Language Models — 系统测量开源 LLM 最大激活,MoE 峰值比同规模 dense 低约 14–23 倍;市场相关性:可直接用于量化/低精度部署与显存预算的经验律,在开源 MoE 密集发布背景下对推理硬件选型与单位 token 成本尤具决策价值。
技术信号(paper-digest 不覆盖的工具/基础设施/发布会层)
- TokenSpeed 开源推理引擎(LightSeek Foundation,2026-05-07,MIT,preview):专为 >50K token 长上下文多轮 agentic 负载设计,宣称在 NVIDIA B200 上相比 TensorRT-LLM 批大小 1 延迟约快 9%、100 TPS/User 吞吐约高 11%,MLA kernel 在长前缀 KV cache 推测解码近乎减半 decode 延迟;无配套论文。证据:https://www.marktechpost.com/2026/05/07/lightseek-foundation-releases-tokenspeed-an-open-source-llm-inference-engine-targeting-tensorrt-llm-level-performance-for-agentic-workloads/
- vLLM 登顶 Artificial Analysis 推理榜(2026-05-11):DeepSeek V3.2 达 230 TPS 输出吞吐(约多数服务商 4 倍)、Qwen 3.5 397B 12 家中第一且 1 万 token prompt TTFT < 1s、MiniMax-M2.5 并发 1 下 326 TPS;为合入主仓的内核融合/推测解码/模型专项优化工程文档,无学术论文。证据:https://vllm.ai/blog/2026-05-11-vllm-tops-artificial-analysis
- Google I/O 2026(2026-05-19,与本报告日同日,keynote 10am PT):业界预期发布 Gemini 4.0、Android XR 眼镜、Aluminium OS;属发布会层信号、非论文,截稿时内容未公布,待发布会层跟进。证据:https://www.buildfastwithai.com/blogs/ai-news-today-may-18-2026
覆盖缺口与置信标记
- 继承 paper-digest 缺口
s2_similar_unavailable:S2 相似论文图谱对全部 135 条候选未返回,延伸阅读/相似工作维度本期为空。 - Google I/O 2026(同日)keynote 内容截稿时未发布,technical_signals 仅记录日程预期。
- 继承 paper-digest 置信标记
s2_tldr_sparse/s2_similar_unavailable/affiliations_empty:故本 section 全部tldr_en留空、无机构级信息。 - 注:paper-digest summary 文案将 #2 称「MM-ToolBench」,但结构化 top_picks 中 #2 实为 TOBench(2605.16909),32.0% vs 94.0% 数据点归属 TOBench,本 section 以结构化数据为准。
- technical_signals 全部来自二手聚合源,TokenSpeed / vLLM 性能数字为厂商自报基准,未独立复核。