论文雷达日报|2026-05-24
一句话结论:今日候选全部来自 HuggingFace Daily trending(31 篇),arXiv 分类与 Semantic Scholar 富集均未返回,主线是「可验证奖励 / 过程奖励」与「agent 真实任务评测」双热点——DelTA(192 upvotes,当日最高)与 Unsupervised PRM 分别从 token 级信用分配与无标注两端改造 RLVR。
摘要
- 候选 31 篇全部带 HF trending rank,无 arXiv 分类、无 S2 交叉富集,排序主要由 HF 热度 + watchlist 关键词驱动(单源降级,结论谨慎)。
- 推理/强化学习是最密集的主题:DelTA、Unsupervised PRM、SpaceDG、LatentOmni 等多篇命中
reasoning。 - Agent 评测与编排是第二条线:TerminalWorld(真实终端任务)、π-Bench(长程主动助理)、GenEvolve(自进化图像生成 agent)。
- 多模态理解与生成同样多产:LatentOmni(音视频潜空间)、SpaceDG(视觉退化下空间智能)、One Sentence One Drama(多智能体短剧生成)。
- 无候选与近 7 日已推荐论文 id 重叠,
seen_before全为 False。
📌 Top picks (交叉命中)
- LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning(HF 40 upvotes / rank 26 / hf_trending_rank:26 + watchlist_keyword:reasoning)→ 统一音视频潜空间推理,改善全模态细粒度时序理解
- GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation(HF 10 upvotes / rank 22 / watchlist_keyword:agent)→ 自进化图像生成智能体,靠工具编排蒸馏视觉经验
- Unsupervised Process Reward Models(HF 23 upvotes / rank 18 / watchlist_keyword:reasoning)→ 无需人工标注即可训练过程奖励模型(uPRM)
- DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards(HF 192 upvotes / watchlist_keyword:reasoning)→ 用判别器视角实现RLVR的token级信用分配
- TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks(HF 5 upvotes / watchlist_keyword:agent + benchmark)→ 从真实终端录像逆向出1530个agent评测任务
- LoREnc: Low-Rank Encryption for Securing Foundation Models and LoRA Adapters(HF 6 upvotes / rank 1,当日 HF 榜首)→ 免训练低秩加密,保护基础模型与LoRA适配器
- SpaceDG: Benchmarking Spatial Intelligence under Visual Degradation(HF 24 upvotes / rank 27 / watchlist_keyword:reasoning)→ 视觉退化下评测MLLM空间智能鲁棒性的基准
- One Sentence, One Drama: Personalized Short-Form Drama Generation via Multi-Agent Systems(HF 7 upvotes / rank 28 / watchlist_keyword:agent)→ 多智能体分层生成个性化短剧,控节奏与一致性
🏷 Watchlist 分类命中
arXiv 分类未返回,本段回退为 watchlist 关键词分组,仅列未进 Top picks 的新鲜命中(每组 ≤ 4)。
watchlist:reasoning
- From Reasoning Chains to Verifiable Subproblems: Curriculum Reinforcement Learning Enables Credit Assignment for LLM Reasoning → 课程式RL把推理链拆成可验证子问题做信用分配
- Bernini: Latent Semantic Planning for Video Diffusion → Bernini:视频扩散的潜语义规划
watchlist:agent
- π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows → π-Bench:评测长程工作流中的主动型个人助理agent
watchlist:inference
- FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching → 流形约束Tweedie匹配,推理时生成长视频
watchlist:dpo
- Training Large Language Models to Predict Clinical Events → 训练LLM预测临床事件,含偏好优化(dpo)
🔗 延伸阅读 (Semantic Scholar 相似论文)
本段今日无高置信度增量信号(S2 相似论文未返回)。
🧑🔬 新出现的作者 / 团队
本日发现扫描未发现达标候选人:候选中无 tracked-author 命中,且候选未携带 affiliations 字段,无法对 tracked_affiliations 做机构匹配。
📉 覆盖缺口与不确定性
s2_unavailable:Semantic Scholar 全程未返回 tldr / venue / citation,无法用引用速度佐证。s2_similar_unavailable:无相似论文引用图,延伸阅读置空。arxiv_categories_unavailable:31 篇候选categories全空,Watchlist 段改按 watchlist 关键词分组。affiliations_unavailable:候选未带机构字段,新作者发现与 tracked-lab 扫描受限。
来源与交叉验证说明
本期有效源实质仅 HuggingFace Daily(curated):31 篇候选全部带 hf_trending_rank。arXiv(primary)提供 abstract / pdf 链接但未回填 categories;Semantic Scholar(metadata)未返回任何富集。因此排序与入选证据以 HF trending + watchlist 关键词为主,属单源降级,结论谨慎。每条 Top picks 的 tldr_cn 由 arXiv abstract 首段浓缩翻译(s2_tldr 缺失,tldr_en 留空,未自创英文);evidence_links 仅用 arxiv_url + hf_url,未额外抓取页面。