[论文·2026-05-17]

论文雷达日报|2026-05-17

一句话结论:今日 32 条候选 HF Daily 主导(30 在榜、arXiv 单源仅 2 条、S2 仅 2 条返回 tldr),主线是 Agent × 多代理协作 × 评测三件套——FutureSim / FrontierSmith / Beyond Individual Intelligence 同日把「代理评测 grounded simulation + 训练数据大规模合成 + 失败归因综述」撑成闭环,LiSA 给出对应的 deployment guardrail 主线;视觉层 Realiz3D 与 PanoWorld 提供 3D / 360° 全景两条独立信号。

摘要

  • Agent 主线 6/8 top picks 命中:FutureSim(评测)、LiSA(安全自适应)、LC-MAPF(多代理通信)、FrontierSmith(训练问题合成)、Nexus(时序代理)、Beyond Individual Intelligence(多代理系统综述)共同把"代理能力 → 训练 → 评测 → 失败归因"链条铺满。
  • 视觉/3D 双信号:Realiz3D 用 domain-aware fine-tuning 让 3D 生成同时拿到真实感与控制;PanoWorld 把 MLLM 空间感知从 perspective image 推到 360° 全景 supersensing。
  • HF 高热度 ≠ S2 信号:HF upvotes 最高的 Beyond Individual Intelligence (44)、Realiz3D (21)、LC-MAPF / FrontierSmith (17) 里只有 LC-MAPF 同日被 S2 索引并返回 tldr,其余 7 条 Top picks 的 S2 元数据都缺。
  • 覆盖缺口:本期所有候选 similar_papers 字段为空 → 延伸阅读段无增量;所有候选 affiliations 字段为空 → 机构 / tracked-lab 归属无法判定,新作者发现段降级为"形式扫描"。

📌 Top picks (交叉命中)

  1. FutureSim: Replaying World Events to Evaluate Adaptive Agents(HF upvotes 4 / watchlist:reasoning+agent + benchmark) → 回放真实世界事件评测自适应代理预测。
    • 入选理由:watchlist 双关键词(reasoning + agent)+ nice_to_have:benchmark;提出 grounded simulation 框架让代理在 knowledge cutoff 之后的真实事件序列里做预测,把"自适应"从 closed-task 推到 open-ended。
  2. LiSA: Lifelong Safety Adaptation via Conservative Policy Induction(HF rank:11 / watchlist:agent + fine-tuning) → 保守策略归纳实现代理终身安全自适应。
    • 入选理由:hf_trending_rank:11 + watchlist:agent + nice_to_have:fine-tuning;瞄准代理从 chat 走向工具调用 / 多步工作流后 guardrail 失败的"上下文相关"硬骨头,是 FutureSim 评测面的部署面对应物。
  3. Learning to Communicate Locally for Large-Scale Multi-Agent Pathfinding(HF rank:7, upvotes 17 / watchlist:agent / S2 已索引) → 多代理局部通信预训练提升路径规划协作。
    • 入选理由:hf_trending_rank:7 + watchlist:agent;本批唯一同时上 HF Daily 与 S2 且返回 tldr 的论文。LC-MAPF 是一个 generalizable pre-trained 模型,用邻居间多轮通信交换信息,对应 multi-robot 物流 / 搜救场景的可扩展求解。
  4. Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning(HF rank:12, upvotes 21 / watchlist:inference + fine-tuning) → 域感知微调让 3D 生成同时具备真实感与控制。
    • 入选理由:hf_trending_rank:12 + watchlist:inference + nice_to_have:fine-tuning;HF upvotes 21 居本批前列,针对预训练 image generator 在合成 3D 数据 fine-tune 时容易丢真实感的问题给出 domain-aware 方案。
  5. FrontierSmith: Synthesizing Open-Ended Coding Problems at Scale(HF rank:13, upvotes 17 / watchlist:agent + benchmark) → 大规模合成开放式编程问题训练 LLM。
    • 入选理由:hf_trending_rank:13 + watchlist:agent + nice_to_have:benchmark;针对"开放式编程训练数据稀缺且昂贵"这一 LLM coding 弱点,给出可扩展合成 pipeline,与 FutureSim 的开放式评测、Beyond Individual Intelligence 的失败归因正交补全代理训练栈。
  6. Nexus: An Agentic Framework for Time Series Forecasting(HF upvotes 1 / watchlist:reasoning+agent) → 代理式框架融合时序基础模型与文本上下文预测。
    • 入选理由:watchlist 双关键词(reasoning + agent);TSFM 擅长数值外推但不读新闻 / 事件,LLM zero-shot forecaster 又不稳——Nexus 把代理框架夹在中间路由,是"代理 × 时间序列"少见的方法级方案。
  7. Beyond Individual Intelligence: Surveying Collaboration, Failure Attribution, and Self-Evolution in LLM-based Multi-Agent Systems(HF upvotes 44 / watchlist:reasoning+agent) → 综述 LLM 多代理协作、失败归因与自我进化。
    • 入选理由:watchlist 双关键词 + 本批最高 HF upvotes (44);为今日 Top picks 里 5 条 agent 方法论文提供 mapping,明确"错误跨代理传播"这条尚未被深挖的风险线。
  8. PanoWorld: Towards Spatial Supersensing in 360° Panorama World(HF rank:18, upvotes 13 / watchlist:reasoning + benchmark) → 360° 全景推进 MLLM 空间感知。
    • 入选理由:hf_trending_rank:18 + watchlist:reasoning + nice_to_have:benchmark;指出主流 MLLM 仍困在 perspective image 范式里 FOV 过窄,对导航 / 机器人搜索 / 3D 场景理解任务交付 supersensing benchmark 与方法 pipeline。

🏷 Watchlist 分类命中

候选 JSON 的 categories 字段全部为空,本段按 watchlist 关键词桶组织,仅放未进 Top picks 的命中。

agent / multi-agent

reasoning

inference / 推理加速

kv cache

🔗 延伸阅读 (Semantic Scholar 相似论文)

本段今日无高置信度增量信号(S2 相似论文未返回——全部 32 条候选的 similar_papers 字段为空,仅 2 条返回 s2_tldr)。

🧑‍🔬 新出现的作者 / 团队

本日发现扫描未发现达标候选人——候选 JSON 的 affiliations 字段对全部 32 条论文为空,无法做机构层归属判断;姓名层未命中 tracked-authors 名单(如 Top pick 7 综述 44 upvotes 高热度,但作者均为新名字,需后续多日交叉验证再决定是否入 watchlist)。

📉 覆盖缺口与不确定性

  • s2_similar_unavailable:32 条候选全部缺 similar_papers,延伸阅读段空;不为补段去外部搜索(受 skill 硬性约束)。
  • affiliations_missing:HF Daily JSON 不附机构、S2 仅 2 条命中,因此机构归属、tracked-lab 检测、新作者发现均降级。
  • s2_tldr_partial:仅 LC-MAPF 一条 Top pick 有 s2_tldr;其余 7 条 tldr_en 字段留空(不自行翻译/创作)。
  • arxiv_categories_missing:候选 categories 字段全空,Watchlist 段按关键词桶分组而非 arXiv 分类。

来源与交叉验证说明

本期主权重在 HuggingFace Daily Papers(curated,30/32 命中并提供 trending rank / upvotes);arXiv 作 primary 锚点(提供 arxiv_url / pdf_url 与摘要原文),Semantic Scholar 作 metadata 层但仅返回 2 条 tldr、0 条 similar_papers。结论锚定方式:每条 Top pick 引用都以 arxiv_url(primary)为主,HF / S2 链接仅作辅证;HF upvotes 用于热度信号,未当作论文结果证据;citation_count=0 不作降权依据(本批多为 2026-05 新预印本,S2 尚未索引)。冲突优先级:primary > metadata > curated > other。