论文雷达日报｜2026-05-17

一句话结论：今日 32 条候选 HF Daily 主导（30 在榜、arXiv 单源仅 2 条、S2 仅 2 条返回 tldr），主线是 Agent × 多代理协作 × 评测三件套——FutureSim / FrontierSmith / Beyond Individual Intelligence 同日把「代理评测 grounded simulation + 训练数据大规模合成 + 失败归因综述」撑成闭环，LiSA 给出对应的 deployment guardrail 主线；视觉层 Realiz3D 与 PanoWorld 提供 3D / 360° 全景两条独立信号。

摘要

Agent 主线 6/8 top picks 命中：FutureSim（评测）、LiSA（安全自适应）、LC-MAPF（多代理通信）、FrontierSmith（训练问题合成）、Nexus（时序代理）、Beyond Individual Intelligence（多代理系统综述）共同把"代理能力 → 训练 → 评测 → 失败归因"链条铺满。
视觉/3D 双信号：Realiz3D 用 domain-aware fine-tuning 让 3D 生成同时拿到真实感与控制；PanoWorld 把 MLLM 空间感知从 perspective image 推到 360° 全景 supersensing。
HF 高热度 ≠ S2 信号：HF upvotes 最高的 Beyond Individual Intelligence (44)、Realiz3D (21)、LC-MAPF / FrontierSmith (17) 里只有 LC-MAPF 同日被 S2 索引并返回 tldr，其余 7 条 Top picks 的 S2 元数据都缺。
覆盖缺口：本期所有候选 similar_papers 字段为空 → 延伸阅读段无增量；所有候选 affiliations 字段为空 → 机构 / tracked-lab 归属无法判定，新作者发现段降级为"形式扫描"。

📌 Top picks (交叉命中)

FutureSim: Replaying World Events to Evaluate Adaptive Agents（HF upvotes 4 / watchlist:reasoning+agent + benchmark） → 回放真实世界事件评测自适应代理预测。
- 入选理由：watchlist 双关键词（reasoning + agent）+ nice_to_have:benchmark；提出 grounded simulation 框架让代理在 knowledge cutoff 之后的真实事件序列里做预测，把"自适应"从 closed-task 推到 open-ended。
LiSA: Lifelong Safety Adaptation via Conservative Policy Induction（HF rank:11 / watchlist:agent + fine-tuning） → 保守策略归纳实现代理终身安全自适应。
- 入选理由：hf_trending_rank:11 + watchlist:agent + nice_to_have:fine-tuning；瞄准代理从 chat 走向工具调用 / 多步工作流后 guardrail 失败的"上下文相关"硬骨头，是 FutureSim 评测面的部署面对应物。
Learning to Communicate Locally for Large-Scale Multi-Agent Pathfinding（HF rank:7, upvotes 17 / watchlist:agent / S2 已索引） → 多代理局部通信预训练提升路径规划协作。
- 入选理由：hf_trending_rank:7 + watchlist:agent；本批唯一同时上 HF Daily 与 S2 且返回 tldr 的论文。LC-MAPF 是一个 generalizable pre-trained 模型，用邻居间多轮通信交换信息，对应 multi-robot 物流 / 搜救场景的可扩展求解。
Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning（HF rank:12, upvotes 21 / watchlist:inference + fine-tuning） → 域感知微调让 3D 生成同时具备真实感与控制。
- 入选理由：hf_trending_rank:12 + watchlist:inference + nice_to_have:fine-tuning；HF upvotes 21 居本批前列，针对预训练 image generator 在合成 3D 数据 fine-tune 时容易丢真实感的问题给出 domain-aware 方案。
FrontierSmith: Synthesizing Open-Ended Coding Problems at Scale（HF rank:13, upvotes 17 / watchlist:agent + benchmark） → 大规模合成开放式编程问题训练 LLM。
- 入选理由：hf_trending_rank:13 + watchlist:agent + nice_to_have:benchmark；针对"开放式编程训练数据稀缺且昂贵"这一 LLM coding 弱点，给出可扩展合成 pipeline，与 FutureSim 的开放式评测、Beyond Individual Intelligence 的失败归因正交补全代理训练栈。
Nexus: An Agentic Framework for Time Series Forecasting（HF upvotes 1 / watchlist:reasoning+agent） → 代理式框架融合时序基础模型与文本上下文预测。
- 入选理由：watchlist 双关键词（reasoning + agent）；TSFM 擅长数值外推但不读新闻 / 事件，LLM zero-shot forecaster 又不稳——Nexus 把代理框架夹在中间路由，是"代理 × 时间序列"少见的方法级方案。
Beyond Individual Intelligence: Surveying Collaboration, Failure Attribution, and Self-Evolution in LLM-based Multi-Agent Systems（HF upvotes 44 / watchlist:reasoning+agent） → 综述 LLM 多代理协作、失败归因与自我进化。
- 入选理由：watchlist 双关键词 + 本批最高 HF upvotes (44)；为今日 Top picks 里 5 条 agent 方法论文提供 mapping，明确"错误跨代理传播"这条尚未被深挖的风险线。
PanoWorld: Towards Spatial Supersensing in 360° Panorama World（HF rank:18, upvotes 13 / watchlist:reasoning + benchmark） → 360° 全景推进 MLLM 空间感知。
- 入选理由：hf_trending_rank:18 + watchlist:reasoning + nice_to_have:benchmark；指出主流 MLLM 仍困在 perspective image 范式里 FOV 过窄，对导航 / 机器人搜索 / 3D 场景理解任务交付 supersensing benchmark 与方法 pipeline。

🏷 Watchlist 分类命中

候选 JSON 的 categories 字段全部为空，本段按 watchlist 关键词桶组织，仅放未进 Top picks 的命中。

agent / multi-agent

EvolveMem: Self-Evolving Memory Architecture via AutoResearch for LLM Agents（score 2.5 / watchlist:agent + benchmark）— 把"代理自演化"推到记忆架构层，与 Top pick 7 综述里的 self-evolution 主题正交。
PREPING: Building Agent Memory without Tasks（score 2.0 / watchlist:agent）— 无任务监督下构建代理记忆，给 LiSA / FutureSim 这类长期自适应代理补底层组件。

reasoning

Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning（HF rank:15, score 3.5 / watchlist:reasoning）— 自蒸馏中按学生能力动态暴露教师信号，方法面增量。
Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling（score 2.5 / watchlist:reasoning + sft）— "简单统一 SFT 达到奥赛金牌"的结论级号召，若 reproduce 成立将对 RLVR 范式形成反命题。
Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Reasoning（score 2.0 / watchlist:reasoning）— 训练自由模型合并提升推理，对应 model merging 主线。
Learning to Build the Environment: Self-Evolving Reasoning RL via Verifiable Environment Synthesis（score 2.0 / watchlist:reasoning）— 把"自演化"从代理推到环境构造层。

inference / 推理加速

PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution（HF rank:19, score 3.6 / watchlist:inference + benchmark）— diffusion 先验校正 + 不确定性结构建模。
Does Synthetic Layered Design Data Benefit Layered Design Decomposition?（score 2.0 / watchlist:inference）— 合成数据对分层设计任务的影响实验。
VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction（score 2.0 / watchlist:inference）— 前向 3D 场景编辑，与 Top pick 4 Realiz3D 同属本日 3D 视觉信号簇。

kv cache

Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models（HF rank:22, score 2.8 / watchlist:kv cache）— 本日唯一命中 kv cache 关键词的论文，主线集中在视频扩散的 KV 压缩。

🔗 延伸阅读 (Semantic Scholar 相似论文)

本段今日无高置信度增量信号（S2 相似论文未返回——全部 32 条候选的 similar_papers 字段为空，仅 2 条返回 s2_tldr）。

🧑‍🔬 新出现的作者 / 团队

本日发现扫描未发现达标候选人——候选 JSON 的 affiliations 字段对全部 32 条论文为空，无法做机构层归属判断；姓名层未命中 tracked-authors 名单（如 Top pick 7 综述 44 upvotes 高热度，但作者均为新名字，需后续多日交叉验证再决定是否入 watchlist）。

📉 覆盖缺口与不确定性

s2_similar_unavailable：32 条候选全部缺 similar_papers，延伸阅读段空；不为补段去外部搜索（受 skill 硬性约束）。
affiliations_missing：HF Daily JSON 不附机构、S2 仅 2 条命中，因此机构归属、tracked-lab 检测、新作者发现均降级。
s2_tldr_partial：仅 LC-MAPF 一条 Top pick 有 s2_tldr；其余 7 条 tldr_en 字段留空（不自行翻译/创作）。
arxiv_categories_missing：候选 categories 字段全空，Watchlist 段按关键词桶分组而非 arXiv 分类。

来源与交叉验证说明

本期主权重在 HuggingFace Daily Papers（curated，30/32 命中并提供 trending rank / upvotes）；arXiv 作 primary 锚点（提供 arxiv_url / pdf_url 与摘要原文），Semantic Scholar 作 metadata 层但仅返回 2 条 tldr、0 条 similar_papers。结论锚定方式：每条 Top pick 引用都以 arxiv_url（primary）为主，HF / S2 链接仅作辅证；HF upvotes 用于热度信号，未当作论文结果证据；citation_count=0 不作降权依据（本批多为 2026-05 新预印本，S2 尚未索引）。冲突优先级：primary > metadata > curated > other。

Hanzhi's BLOG

[论文·2026-05-17]