[论文·2026-05-24]

论文雷达日报|2026-05-24

一句话结论:今日候选全部来自 HuggingFace Daily trending(31 篇),arXiv 分类与 Semantic Scholar 富集均未返回,主线是「可验证奖励 / 过程奖励」与「agent 真实任务评测」双热点——DelTA(192 upvotes,当日最高)与 Unsupervised PRM 分别从 token 级信用分配与无标注两端改造 RLVR。

摘要

  • 候选 31 篇全部带 HF trending rank,无 arXiv 分类、无 S2 交叉富集,排序主要由 HF 热度 + watchlist 关键词驱动(单源降级,结论谨慎)。
  • 推理/强化学习是最密集的主题:DelTA、Unsupervised PRM、SpaceDG、LatentOmni 等多篇命中 reasoning
  • Agent 评测与编排是第二条线:TerminalWorld(真实终端任务)、π-Bench(长程主动助理)、GenEvolve(自进化图像生成 agent)。
  • 多模态理解与生成同样多产:LatentOmni(音视频潜空间)、SpaceDG(视觉退化下空间智能)、One Sentence One Drama(多智能体短剧生成)。
  • 无候选与近 7 日已推荐论文 id 重叠,seen_before 全为 False。

📌 Top picks (交叉命中)

  1. LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning(HF 40 upvotes / rank 26 / hf_trending_rank:26 + watchlist_keyword:reasoning)→ 统一音视频潜空间推理,改善全模态细粒度时序理解
  2. GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation(HF 10 upvotes / rank 22 / watchlist_keyword:agent)→ 自进化图像生成智能体,靠工具编排蒸馏视觉经验
  3. Unsupervised Process Reward Models(HF 23 upvotes / rank 18 / watchlist_keyword:reasoning)→ 无需人工标注即可训练过程奖励模型(uPRM)
  4. DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards(HF 192 upvotes / watchlist_keyword:reasoning)→ 用判别器视角实现RLVR的token级信用分配
  5. TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks(HF 5 upvotes / watchlist_keyword:agent + benchmark)→ 从真实终端录像逆向出1530个agent评测任务
  6. LoREnc: Low-Rank Encryption for Securing Foundation Models and LoRA Adapters(HF 6 upvotes / rank 1,当日 HF 榜首)→ 免训练低秩加密,保护基础模型与LoRA适配器
  7. SpaceDG: Benchmarking Spatial Intelligence under Visual Degradation(HF 24 upvotes / rank 27 / watchlist_keyword:reasoning)→ 视觉退化下评测MLLM空间智能鲁棒性的基准
  8. One Sentence, One Drama: Personalized Short-Form Drama Generation via Multi-Agent Systems(HF 7 upvotes / rank 28 / watchlist_keyword:agent)→ 多智能体分层生成个性化短剧,控节奏与一致性

🏷 Watchlist 分类命中

arXiv 分类未返回,本段回退为 watchlist 关键词分组,仅列未进 Top picks 的新鲜命中(每组 ≤ 4)。

watchlist:reasoning

watchlist:agent

watchlist:inference

watchlist:dpo

🔗 延伸阅读 (Semantic Scholar 相似论文)

本段今日无高置信度增量信号(S2 相似论文未返回)。

🧑‍🔬 新出现的作者 / 团队

本日发现扫描未发现达标候选人:候选中无 tracked-author 命中,且候选未携带 affiliations 字段,无法对 tracked_affiliations 做机构匹配。

📉 覆盖缺口与不确定性

  • s2_unavailable:Semantic Scholar 全程未返回 tldr / venue / citation,无法用引用速度佐证。
  • s2_similar_unavailable:无相似论文引用图,延伸阅读置空。
  • arxiv_categories_unavailable:31 篇候选 categories 全空,Watchlist 段改按 watchlist 关键词分组。
  • affiliations_unavailable:候选未带机构字段,新作者发现与 tracked-lab 扫描受限。

来源与交叉验证说明

本期有效源实质仅 HuggingFace Daily(curated):31 篇候选全部带 hf_trending_rank。arXiv(primary)提供 abstract / pdf 链接但未回填 categories;Semantic Scholar(metadata)未返回任何富集。因此排序与入选证据以 HF trending + watchlist 关键词为主,属单源降级,结论谨慎。每条 Top picks 的 tldr_cn 由 arXiv abstract 首段浓缩翻译(s2_tldr 缺失,tldr_en 留空,未自创英文);evidence_links 仅用 arxiv_url + hf_url,未额外抓取页面。