论文雷达日报|2026-04-19
一句话结论:今日候选量极低(仅 3 篇),以 RL 策略优化(TPO)和多模态区域适配(GG-EZ)为仅有亮点,watchlist 关键词均未命中,属于低信号日。
摘要
- 今日三源共返回 3 篇候选,均未触发 watchlist 关键词(ranking_score = 0.0),信号密度为近期最低。
- Target Policy Optimization (TPO) 提出将 RL 策略更新拆分为目标分布构建与交叉熵拟合两步,在稀疏奖励场景下超越 PPO/GRPO,与 LLM RLVR 直接相关。
- Anthropogenic Regional Adaptation 引入区域适配范式 GG-EZ,在东南亚场景下文化相关性指标提升 5-15%,同时保持 98% 以上全局性能。
- EEG-tGAT 为利基方向(图注意力 + 脑电时序),信号较弱。
📌 Top picks (交叉命中)
1. Target Policy Optimization(HF ↑22) → 将 RL 目标分布构建与策略拟合解耦,稀疏奖励下显著优于 PPO/GRPO
- 作者:Jean Kaddour
- tldr_cn:RL 策略更新拆为目标分布构建+交叉熵拟合,稀疏奖励下大幅超越 PPO/GRPO
- 入选理由:HF 热度最高(22 upvotes),与 LLM RLVR 训练直接相关,附开源代码
- 链接:arXiv | HF | S2
2. Anthropogenic Regional Adaptation in Multimodal Vision-Language Model(HF ↑11) → 区域数据过滤+模型合并实现 VL 模型文化适配
- 作者:Samuel Cahyawijaya 等 46 人
- tldr_cn:区域数据过滤+模型合并让 VL 模型文化适配提升 5-15%
- 入选理由:HF 11 upvotes,大规模多作者合作,VL 区域适配新范式
- 链接:arXiv | HF | S2
3. A Temporally Augmented Graph Attention Network for Affordance Classification(HF ↑1) → 时序增强 GATv2 用于交互序列的可供性分类
- 作者:Ami Chopra, Supriya Bordoloi, Shyamanta M. Hazarika
- tldr_cn:时序注意力增强 GATv2 提升交互序列可供性分类性能
- 入选理由:候选池仅 3 篇,利基方向(图注意力 + EEG 时序),信号较弱
- 链接:arXiv | HF | S2
🏷 Watchlist 分类命中
本段今日无高置信度增量信号——三篇候选均未触发 watchlist 关键词,无分类命中可报告。
🔗 延伸阅读 (Semantic Scholar 相似论文)
本段今日无高置信度增量信号(S2 相似论文未返回)。
🧑🔬 新出现的作者 / 团队
本日发现扫描未发现达标候选人。今日候选池过小(3 篇),作者均不在追踪列表中但也未满足多次出现或 must-read venue 等发现规则。
📉 覆盖缺口与不确定性
- 今日候选仅 3 篇,远低于正常水平(通常 10-30 篇),可能原因:周末抓取窗口 + arXiv 发布周期。
- 三篇候选的
ranking_score均为 0.0,watchlist 关键词无一命中,Top picks 质量置信度低。 - S2 相似论文字段未返回,延伸阅读无法生成。
coverage_gaps:low_candidate_volume,no_watchlist_hits,s2_similar_unavailable
来源与交叉验证说明
本期依赖 arXiv + HuggingFace Daily Papers + Semantic Scholar 三源交叉。三源均正常返回(无 fetch 错误),但候选总量极低。HF trending rank 在 31-41 范围,说明今日 HF 热门论文与 watchlist 交集极小。建议下一工作日关注积压的周末论文。