[论文·2026-05-19]

论文雷达日报|2026-05-19

一句话结论:今日论文层是「agent 评测基准爆发日」——Top 8 中 6 篇为新基准,集体指向 agent 在闭环工具使用 / 长程记忆 / 跨视角推理上的可信度缺口;最硬数据点是 MM-ToolBench 上 Claude Opus 4.6 仅 32.0% 任务成功率,远低于 94.0% 人类基线。

摘要

  • 今日 135 条候选三源齐备(arXiv + HF Daily + Semantic Scholar),0 条命中 14 天 seen-pool;Top picks 上限 8 条已取满。
  • 主线:评测基准爆发——8 篇 Top picks 中 6 篇是新 benchmark(ChildAgentEval / MM-ToolBench / GIM / CrossViewBench / LongMINT,外加 VideoSeeker 带评测),集体在量化 agent 能力可信度缺口。
  • 硬数据点:MM-ToolBench 上 Claude Opus 4.6 仅 32.0% vs 人类 94.0%;LongMINT 7 套记忆系统平均 27.9%;GIM 发现思考预算/量化与选型同等重要。
  • 效率侧:Measuring Maximum Activations 给出 MoE 峰值比同规模 dense 低 14–23 倍的部署经验律。
  • S2 similar_papers 全 135 条未返回,延伸阅读段为空(见覆盖缺口)。

📌 Top picks (交叉命中)

🏷 Watchlist 分类命中

rank≥9 且 watchlist 关键词命中、未进 Top picks 的 fresh 论文,按 arXiv 主分类分组(每类≤4):

cs.CL

cs.AI

cs.LG

cs.CV

cs.RO

cs.DC

stat.ML

🔗 延伸阅读 (Semantic Scholar 相似论文)

本段今日无高置信度增量信号(S2 相似论文未返回)。Semantic Scholar 对全部 135 条候选均未返回 similar_papers 字段,按 skill 约束不单独外部检索补全,coverage_gapss2_similar_unavailable

🧑‍🔬 新出现的作者 / 团队

  • Mohit Bansal(UNC Chapel Hill (机构未在候选元数据中提供,按公开认知标注)|group: oss-ai-labs|cross_checked=false):今日 Top pick #5 LongMINT 的资深/末位作者,长程记忆抗干扰基准,未在 tracked_authors 列表中,符合「Top picks 通讯作者且未追踪」规则。 证据:https://arxiv.org/abs/2605.18565
  • Aditya Tanna(未知(候选元数据未附机构;与 Vinay Kumar Sankarapu / Pratinav Seth 同组)|group: oss-ai-labs|cross_checked=false):与 Nassim Bouarour / Mohamed Bouadi / Pratinav Seth / Vinay Kumar Sankarapu 同一团队,今日在 4 篇同日预印本(2605.18702/18696/18635/18654,表格基础模型与可解释性方向)重复出现,满足「不同论文重复出现 ≥2 次」规则。 证据:https://arxiv.org/abs/2605.18702

📉 覆盖缺口与不确定性

  • s2_similar_unavailable:Semantic Scholar 相似论文图谱对全部 135 条候选均未返回,延伸阅读段为空。
  • s2_tldr_sparse:135 候选仅 9 条带 S2 tldr,且均为低分非 Top pick;8 篇 Top picks 的 tldr_en 全空,中文速读由 abstract 浓缩。
  • affiliations_empty:arXiv listing 与 HF JSON 均未附机构,机构级发现与 tracked_affiliations 匹配本期未触发;tracked_labs_seen 为空。
  • arXiv / HF Daily 本期均正常,无单源全挂。

来源与交叉验证说明

本期以 arXiv 预印本为 primary 结论锚,HF Daily trending(curated)用于热度与命中排序,Semantic Scholar(metadata)仅提供少量 tldr 且 similar_papers 全空。冲突优先级 primary > metadata > curated > other,未出现单源全挂。

Top picks 结论均锚定 arXiv abstract 原文(如 MM-ToolBench 的 32.0% vs 94.0%、LongMINT 的 27.9%);HF trending rank 仅作排序信号不作结果证据;citation_count 全空属新预印本未索引,不作降权。