论文雷达日报｜2026-05-24

一句话结论：今日候选全部来自 HuggingFace Daily trending（31 篇），arXiv 分类与 Semantic Scholar 富集均未返回，主线是「可验证奖励 / 过程奖励」与「agent 真实任务评测」双热点——DelTA（192 upvotes，当日最高）与 Unsupervised PRM 分别从 token 级信用分配与无标注两端改造 RLVR。

摘要

候选 31 篇全部带 HF trending rank，无 arXiv 分类、无 S2 交叉富集，排序主要由 HF 热度 + watchlist 关键词驱动（单源降级，结论谨慎）。
推理/强化学习是最密集的主题：DelTA、Unsupervised PRM、SpaceDG、LatentOmni 等多篇命中 reasoning。
Agent 评测与编排是第二条线：TerminalWorld（真实终端任务）、π-Bench（长程主动助理）、GenEvolve（自进化图像生成 agent）。
多模态理解与生成同样多产：LatentOmni（音视频潜空间）、SpaceDG（视觉退化下空间智能）、One Sentence One Drama（多智能体短剧生成）。
无候选与近 7 日已推荐论文 id 重叠，seen_before 全为 False。

📌 Top picks (交叉命中)

LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning（HF 40 upvotes / rank 26 / hf_trending_rank:26 + watchlist_keyword:reasoning）→ 统一音视频潜空间推理，改善全模态细粒度时序理解
GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation（HF 10 upvotes / rank 22 / watchlist_keyword:agent）→ 自进化图像生成智能体，靠工具编排蒸馏视觉经验
Unsupervised Process Reward Models（HF 23 upvotes / rank 18 / watchlist_keyword:reasoning）→ 无需人工标注即可训练过程奖励模型(uPRM)
DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards（HF 192 upvotes / watchlist_keyword:reasoning）→ 用判别器视角实现RLVR的token级信用分配
TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks（HF 5 upvotes / watchlist_keyword:agent + benchmark）→ 从真实终端录像逆向出1530个agent评测任务
LoREnc: Low-Rank Encryption for Securing Foundation Models and LoRA Adapters（HF 6 upvotes / rank 1，当日 HF 榜首）→ 免训练低秩加密，保护基础模型与LoRA适配器
SpaceDG: Benchmarking Spatial Intelligence under Visual Degradation（HF 24 upvotes / rank 27 / watchlist_keyword:reasoning）→ 视觉退化下评测MLLM空间智能鲁棒性的基准
One Sentence, One Drama: Personalized Short-Form Drama Generation via Multi-Agent Systems（HF 7 upvotes / rank 28 / watchlist_keyword:agent）→ 多智能体分层生成个性化短剧，控节奏与一致性

🏷 Watchlist 分类命中

arXiv 分类未返回，本段回退为 watchlist 关键词分组，仅列未进 Top picks 的新鲜命中（每组 ≤ 4）。

watchlist:dpo

Training Large Language Models to Predict Clinical Events → 训练LLM预测临床事件，含偏好优化(dpo)

🔗 延伸阅读 (Semantic Scholar 相似论文)

本段今日无高置信度增量信号（S2 相似论文未返回）。

🧑‍🔬 新出现的作者 / 团队

本日发现扫描未发现达标候选人：候选中无 tracked-author 命中，且候选未携带 affiliations 字段，无法对 tracked_affiliations 做机构匹配。

📉 覆盖缺口与不确定性

s2_unavailable：Semantic Scholar 全程未返回 tldr / venue / citation，无法用引用速度佐证。
s2_similar_unavailable：无相似论文引用图，延伸阅读置空。
arxiv_categories_unavailable：31 篇候选 categories 全空，Watchlist 段改按 watchlist 关键词分组。
affiliations_unavailable：候选未带机构字段，新作者发现与 tracked-lab 扫描受限。

来源与交叉验证说明

本期有效源实质仅 HuggingFace Daily（curated）：31 篇候选全部带 hf_trending_rank。arXiv（primary）提供 abstract / pdf 链接但未回填 categories；Semantic Scholar（metadata）未返回任何富集。因此排序与入选证据以 HF trending + watchlist 关键词为主，属单源降级，结论谨慎。每条 Top picks 的 tldr_cn 由 arXiv abstract 首段浓缩翻译（s2_tldr 缺失，tldr_en 留空，未自创英文）；evidence_links 仅用 arxiv_url + hf_url，未额外抓取页面。

Hanzhi's BLOG

[论文·2026-05-24]