[市场·2026-05-19] Paper Layer

← 返回主报告：[市场·2026-05-19] Politics

论文层 · AI 每日简报（2026-05-19，UTC）

今日论文层主线为 「agent 评测基准爆发日」：paper-digest 三源（arXiv listing + HF Daily + Semantic Scholar）齐备 135 条候选、0 条命中 14 天 seen-pool，Top 8 中 6 篇为全新评测基准，集体指向 agent 在闭环工具使用 / 长程记忆 / 跨视角空间推理上的可信度缺口。最硬的市场信号是 TOBench 上最强模型仅约 32% 任务成功率 vs 94% 人类基线，LongMINT 显示 7 套记忆系统在干扰下平均仅 27.9%——两者合起来说明把 tool-using / 长程记忆 agent 投入无人值守生产仍需重型人类兜底。效率侧 GIM 首次大规模量化 test-time compute 与能力的权衡、Measuring Maximum Activations 给出 MoE 峰值比同规模 dense 低 14–23 倍的部署经验律，二者直接关联推理账单与硬件选型。paper-digest 状态：consumed。

Top 8 论文（消费自 paper-digest，附市场相关性）

2605.17894 Evaluating Cognitive Age Alignment in Interactive AI Agents — 首个心理测量学接地的交互式认知年龄基准，量化 MLLM 智能体认知年龄差距，当日 HF 热度第一；市场相关性：把「智能体表现得像几岁的人」做成可测指标，为消费者/教育/陪伴类 agent 提供超出准确率的合规与产品定位评估维度。
2605.16909 TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents — 真实世界全模态闭环工具使用基准，最强模型仅约 32% 远逊 94% 人类基线；市场相关性：今日最硬的 agent 可信度缺口数据点，说明 tool-using agent 无人值守生产仍需重型人类兜底，是评估 agent 部署经济性与 ROI 的基准锚点。
2605.16079 VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation — 原生工具调用内化进实例级视频理解，配四阶段全自动数据合成管线，超 GPT-4o；市场相关性：自动数据合成降低视频理解 agent 训练数据成本，对监控/媒资/内容审核类产品的可规模化落地与单位经济性有直接含义。
2605.18663 GIM: Evaluating models via tasks that integrate multiple cognitive domains — IRT 校准整合型推理基准，首次大规模量化 test-time compute 与能力权衡，发现思考预算/量化与选型同等重要；市场相关性：给推理成本预算与延迟 SLA 团队一份可量化的 test-time-compute 投入产出曲线，直接影响推理账单与 SKU 选择。
2605.18621 CrossView Suite: Harnessing Cross-view Spatial Intelligence of MLLMs with Dataset, Model and Benchmark — 跨视角空间智能完整三件套：1.6M 数据集+对齐模型+基准；市场相关性：跨视角空间推理是机器人/AR-XR/多摄自动驾驶的卡点能力，三件套齐备让该能力线从研究演示向可复现工程基线收敛。
2605.18565 LongMINT: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems — 高干扰长程记忆抗干扰基准，7 套记忆系统在多目标干扰下平均仅 27.9%；市场相关性：当前记忆栈在真实多任务噪声下并不可靠，对赌「长程记忆」卖点的 agent 产品与向量库/记忆中间件赛道是直接风险信号。
2605.18572 MA $^{2}$ P: A Meta-Cognitive Autonomous Intelligent Agents Framework for Complex Persuasion — 元认知配置器驱动的自治多智能体框架，跨域自动选策略缓解性能波动；市场相关性：针对跨域性能波动给出元认知调度方案，对销售/客服/谈判类 agent 是工程化思路，同时劝说增强带来 trust & safety 与监管双刃后果。
2605.15572 Measuring Maximum Activations in Open Large Language Models — 系统测量开源 LLM 最大激活，MoE 峰值比同规模 dense 低约 14–23 倍；市场相关性：可直接用于量化/低精度部署与显存预算的经验律，在开源 MoE 密集发布背景下对推理硬件选型与单位 token 成本尤具决策价值。

技术信号（paper-digest 不覆盖的工具/基础设施/发布会层）

TokenSpeed 开源推理引擎（LightSeek Foundation，2026-05-07，MIT，preview）：专为 >50K token 长上下文多轮 agentic 负载设计，宣称在 NVIDIA B200 上相比 TensorRT-LLM 批大小 1 延迟约快 9%、100 TPS/User 吞吐约高 11%，MLA kernel 在长前缀 KV cache 推测解码近乎减半 decode 延迟；无配套论文。证据：https://www.marktechpost.com/2026/05/07/lightseek-foundation-releases-tokenspeed-an-open-source-llm-inference-engine-targeting-tensorrt-llm-level-performance-for-agentic-workloads/
vLLM 登顶 Artificial Analysis 推理榜（2026-05-11）：DeepSeek V3.2 达 230 TPS 输出吞吐（约多数服务商 4 倍）、Qwen 3.5 397B 12 家中第一且 1 万 token prompt TTFT < 1s、MiniMax-M2.5 并发 1 下 326 TPS；为合入主仓的内核融合/推测解码/模型专项优化工程文档，无学术论文。证据：https://vllm.ai/blog/2026-05-11-vllm-tops-artificial-analysis
Google I/O 2026（2026-05-19，与本报告日同日，keynote 10am PT）：业界预期发布 Gemini 4.0、Android XR 眼镜、Aluminium OS；属发布会层信号、非论文，截稿时内容未公布，待发布会层跟进。证据：https://www.buildfastwithai.com/blogs/ai-news-today-may-18-2026

覆盖缺口与置信标记

继承 paper-digest 缺口 s2_similar_unavailable：S2 相似论文图谱对全部 135 条候选未返回，延伸阅读/相似工作维度本期为空。
Google I/O 2026（同日）keynote 内容截稿时未发布，technical_signals 仅记录日程预期。
继承 paper-digest 置信标记 s2_tldr_sparse / s2_similar_unavailable / affiliations_empty：故本 section 全部 tldr_en 留空、无机构级信息。
注：paper-digest summary 文案将 #2 称「MM-ToolBench」，但结构化 top_picks 中 #2 实为 TOBench（2605.16909），32.0% vs 94.0% 数据点归属 TOBench，本 section 以结构化数据为准。
technical_signals 全部来自二手聚合源，TokenSpeed / vLLM 性能数字为厂商自报基准，未独立复核。