论文雷达日报|2026-05-17
一句话结论:今日 32 条候选 HF Daily 主导(30 在榜、arXiv 单源仅 2 条、S2 仅 2 条返回 tldr),主线是 Agent × 多代理协作 × 评测三件套——FutureSim / FrontierSmith / Beyond Individual Intelligence 同日把「代理评测 grounded simulation + 训练数据大规模合成 + 失败归因综述」撑成闭环,LiSA 给出对应的 deployment guardrail 主线;视觉层 Realiz3D 与 PanoWorld 提供 3D / 360° 全景两条独立信号。
摘要
- Agent 主线 6/8 top picks 命中:FutureSim(评测)、LiSA(安全自适应)、LC-MAPF(多代理通信)、FrontierSmith(训练问题合成)、Nexus(时序代理)、Beyond Individual Intelligence(多代理系统综述)共同把"代理能力 → 训练 → 评测 → 失败归因"链条铺满。
- 视觉/3D 双信号:Realiz3D 用 domain-aware fine-tuning 让 3D 生成同时拿到真实感与控制;PanoWorld 把 MLLM 空间感知从 perspective image 推到 360° 全景 supersensing。
- HF 高热度 ≠ S2 信号:HF upvotes 最高的 Beyond Individual Intelligence (44)、Realiz3D (21)、LC-MAPF / FrontierSmith (17) 里只有 LC-MAPF 同日被 S2 索引并返回 tldr,其余 7 条 Top picks 的 S2 元数据都缺。
- 覆盖缺口:本期所有候选
similar_papers字段为空 → 延伸阅读段无增量;所有候选affiliations字段为空 → 机构 / tracked-lab 归属无法判定,新作者发现段降级为"形式扫描"。
📌 Top picks (交叉命中)
- FutureSim: Replaying World Events to Evaluate Adaptive Agents(HF upvotes 4 / watchlist:reasoning+agent + benchmark) → 回放真实世界事件评测自适应代理预测。
- 入选理由:watchlist 双关键词(reasoning + agent)+ nice_to_have:benchmark;提出 grounded simulation 框架让代理在 knowledge cutoff 之后的真实事件序列里做预测,把"自适应"从 closed-task 推到 open-ended。
- LiSA: Lifelong Safety Adaptation via Conservative Policy Induction(HF rank:11 / watchlist:agent + fine-tuning) → 保守策略归纳实现代理终身安全自适应。
- 入选理由:hf_trending_rank:11 + watchlist:agent + nice_to_have:fine-tuning;瞄准代理从 chat 走向工具调用 / 多步工作流后 guardrail 失败的"上下文相关"硬骨头,是 FutureSim 评测面的部署面对应物。
- Learning to Communicate Locally for Large-Scale Multi-Agent Pathfinding(HF rank:7, upvotes 17 / watchlist:agent / S2 已索引) → 多代理局部通信预训练提升路径规划协作。
- 入选理由:hf_trending_rank:7 + watchlist:agent;本批唯一同时上 HF Daily 与 S2 且返回 tldr 的论文。LC-MAPF 是一个 generalizable pre-trained 模型,用邻居间多轮通信交换信息,对应 multi-robot 物流 / 搜救场景的可扩展求解。
- Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning(HF rank:12, upvotes 21 / watchlist:inference + fine-tuning) → 域感知微调让 3D 生成同时具备真实感与控制。
- 入选理由:hf_trending_rank:12 + watchlist:inference + nice_to_have:fine-tuning;HF upvotes 21 居本批前列,针对预训练 image generator 在合成 3D 数据 fine-tune 时容易丢真实感的问题给出 domain-aware 方案。
- FrontierSmith: Synthesizing Open-Ended Coding Problems at Scale(HF rank:13, upvotes 17 / watchlist:agent + benchmark) → 大规模合成开放式编程问题训练 LLM。
- 入选理由:hf_trending_rank:13 + watchlist:agent + nice_to_have:benchmark;针对"开放式编程训练数据稀缺且昂贵"这一 LLM coding 弱点,给出可扩展合成 pipeline,与 FutureSim 的开放式评测、Beyond Individual Intelligence 的失败归因正交补全代理训练栈。
- Nexus: An Agentic Framework for Time Series Forecasting(HF upvotes 1 / watchlist:reasoning+agent) → 代理式框架融合时序基础模型与文本上下文预测。
- 入选理由:watchlist 双关键词(reasoning + agent);TSFM 擅长数值外推但不读新闻 / 事件,LLM zero-shot forecaster 又不稳——Nexus 把代理框架夹在中间路由,是"代理 × 时间序列"少见的方法级方案。
- Beyond Individual Intelligence: Surveying Collaboration, Failure Attribution, and Self-Evolution in LLM-based Multi-Agent Systems(HF upvotes 44 / watchlist:reasoning+agent) → 综述 LLM 多代理协作、失败归因与自我进化。
- 入选理由:watchlist 双关键词 + 本批最高 HF upvotes (44);为今日 Top picks 里 5 条 agent 方法论文提供 mapping,明确"错误跨代理传播"这条尚未被深挖的风险线。
- PanoWorld: Towards Spatial Supersensing in 360° Panorama World(HF rank:18, upvotes 13 / watchlist:reasoning + benchmark) → 360° 全景推进 MLLM 空间感知。
- 入选理由:hf_trending_rank:18 + watchlist:reasoning + nice_to_have:benchmark;指出主流 MLLM 仍困在 perspective image 范式里 FOV 过窄,对导航 / 机器人搜索 / 3D 场景理解任务交付 supersensing benchmark 与方法 pipeline。
🏷 Watchlist 分类命中
候选 JSON 的
categories字段全部为空,本段按 watchlist 关键词桶组织,仅放未进 Top picks 的命中。
agent / multi-agent
- EvolveMem: Self-Evolving Memory Architecture via AutoResearch for LLM Agents(score 2.5 / watchlist:agent + benchmark)— 把"代理自演化"推到记忆架构层,与 Top pick 7 综述里的 self-evolution 主题正交。
- PREPING: Building Agent Memory without Tasks(score 2.0 / watchlist:agent)— 无任务监督下构建代理记忆,给 LiSA / FutureSim 这类长期自适应代理补底层组件。
reasoning
- Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning(HF rank:15, score 3.5 / watchlist:reasoning)— 自蒸馏中按学生能力动态暴露教师信号,方法面增量。
- Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling(score 2.5 / watchlist:reasoning + sft)— "简单统一 SFT 达到奥赛金牌"的结论级号召,若 reproduce 成立将对 RLVR 范式形成反命题。
- Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Reasoning(score 2.0 / watchlist:reasoning)— 训练自由模型合并提升推理,对应 model merging 主线。
- Learning to Build the Environment: Self-Evolving Reasoning RL via Verifiable Environment Synthesis(score 2.0 / watchlist:reasoning)— 把"自演化"从代理推到环境构造层。
inference / 推理加速
- PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution(HF rank:19, score 3.6 / watchlist:inference + benchmark)— diffusion 先验校正 + 不确定性结构建模。
- Does Synthetic Layered Design Data Benefit Layered Design Decomposition?(score 2.0 / watchlist:inference)— 合成数据对分层设计任务的影响实验。
- VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction(score 2.0 / watchlist:inference)— 前向 3D 场景编辑,与 Top pick 4 Realiz3D 同属本日 3D 视觉信号簇。
kv cache
- Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models(HF rank:22, score 2.8 / watchlist:kv cache)— 本日唯一命中 kv cache 关键词的论文,主线集中在视频扩散的 KV 压缩。
🔗 延伸阅读 (Semantic Scholar 相似论文)
本段今日无高置信度增量信号(S2 相似论文未返回——全部 32 条候选的 similar_papers 字段为空,仅 2 条返回 s2_tldr)。
🧑🔬 新出现的作者 / 团队
本日发现扫描未发现达标候选人——候选 JSON 的 affiliations 字段对全部 32 条论文为空,无法做机构层归属判断;姓名层未命中 tracked-authors 名单(如 Top pick 7 综述 44 upvotes 高热度,但作者均为新名字,需后续多日交叉验证再决定是否入 watchlist)。
📉 覆盖缺口与不确定性
s2_similar_unavailable:32 条候选全部缺similar_papers,延伸阅读段空;不为补段去外部搜索(受 skill 硬性约束)。affiliations_missing:HF Daily JSON 不附机构、S2 仅 2 条命中,因此机构归属、tracked-lab 检测、新作者发现均降级。s2_tldr_partial:仅 LC-MAPF 一条 Top pick 有s2_tldr;其余 7 条tldr_en字段留空(不自行翻译/创作)。arxiv_categories_missing:候选categories字段全空,Watchlist 段按关键词桶分组而非 arXiv 分类。
来源与交叉验证说明
本期主权重在 HuggingFace Daily Papers(curated,30/32 命中并提供 trending rank / upvotes);arXiv 作 primary 锚点(提供 arxiv_url / pdf_url 与摘要原文),Semantic Scholar 作 metadata 层但仅返回 2 条 tldr、0 条 similar_papers。结论锚定方式:每条 Top pick 引用都以 arxiv_url(primary)为主,HF / S2 链接仅作辅证;HF upvotes 用于热度信号,未当作论文结果证据;citation_count=0 不作降权依据(本批多为 2026-05 新预印本,S2 尚未索引)。冲突优先级:primary > metadata > curated > other。