[论文·2026-04-19]

论文雷达日报|2026-04-19

一句话结论:今日候选量极低(仅 3 篇),以 RL 策略优化(TPO)和多模态区域适配(GG-EZ)为仅有亮点,watchlist 关键词均未命中,属于低信号日。

摘要

  • 今日三源共返回 3 篇候选,均未触发 watchlist 关键词(ranking_score = 0.0),信号密度为近期最低。
  • Target Policy Optimization (TPO) 提出将 RL 策略更新拆分为目标分布构建与交叉熵拟合两步,在稀疏奖励场景下超越 PPO/GRPO,与 LLM RLVR 直接相关。
  • Anthropogenic Regional Adaptation 引入区域适配范式 GG-EZ,在东南亚场景下文化相关性指标提升 5-15%,同时保持 98% 以上全局性能。
  • EEG-tGAT 为利基方向(图注意力 + 脑电时序),信号较弱。

📌 Top picks (交叉命中)

1. Target Policy Optimization(HF ↑22) → 将 RL 目标分布构建与策略拟合解耦,稀疏奖励下显著优于 PPO/GRPO

  • 作者:Jean Kaddour
  • tldr_cn:RL 策略更新拆为目标分布构建+交叉熵拟合,稀疏奖励下大幅超越 PPO/GRPO
  • 入选理由:HF 热度最高(22 upvotes),与 LLM RLVR 训练直接相关,附开源代码
  • 链接:arXivHFS2

2. Anthropogenic Regional Adaptation in Multimodal Vision-Language Model(HF ↑11) → 区域数据过滤+模型合并实现 VL 模型文化适配

  • 作者:Samuel Cahyawijaya 等 46 人
  • tldr_cn:区域数据过滤+模型合并让 VL 模型文化适配提升 5-15%
  • 入选理由:HF 11 upvotes,大规模多作者合作,VL 区域适配新范式
  • 链接:arXivHFS2

3. A Temporally Augmented Graph Attention Network for Affordance Classification(HF ↑1) → 时序增强 GATv2 用于交互序列的可供性分类

  • 作者:Ami Chopra, Supriya Bordoloi, Shyamanta M. Hazarika
  • tldr_cn:时序注意力增强 GATv2 提升交互序列可供性分类性能
  • 入选理由:候选池仅 3 篇,利基方向(图注意力 + EEG 时序),信号较弱
  • 链接:arXivHFS2

🏷 Watchlist 分类命中

本段今日无高置信度增量信号——三篇候选均未触发 watchlist 关键词,无分类命中可报告。

🔗 延伸阅读 (Semantic Scholar 相似论文)

本段今日无高置信度增量信号(S2 相似论文未返回)。

🧑‍🔬 新出现的作者 / 团队

本日发现扫描未发现达标候选人。今日候选池过小(3 篇),作者均不在追踪列表中但也未满足多次出现或 must-read venue 等发现规则。

📉 覆盖缺口与不确定性

  • 今日候选仅 3 篇,远低于正常水平(通常 10-30 篇),可能原因:周末抓取窗口 + arXiv 发布周期。
  • 三篇候选的 ranking_score 均为 0.0,watchlist 关键词无一命中,Top picks 质量置信度低。
  • S2 相似论文字段未返回,延伸阅读无法生成。
  • coverage_gaps: low_candidate_volume, no_watchlist_hits, s2_similar_unavailable

来源与交叉验证说明

本期依赖 arXiv + HuggingFace Daily Papers + Semantic Scholar 三源交叉。三源均正常返回(无 fetch 错误),但候选总量极低。HF trending rank 在 31-41 范围,说明今日 HF 热门论文与 watchlist 交集极小。建议下一工作日关注积压的周末论文。