论文雷达日报｜2026-04-19

一句话结论：今日候选量极低（仅 3 篇），以 RL 策略优化（TPO）和多模态区域适配（GG-EZ）为仅有亮点，watchlist 关键词均未命中，属于低信号日。

摘要

今日三源共返回 3 篇候选，均未触发 watchlist 关键词（ranking_score = 0.0），信号密度为近期最低。
Target Policy Optimization (TPO) 提出将 RL 策略更新拆分为目标分布构建与交叉熵拟合两步，在稀疏奖励场景下超越 PPO/GRPO，与 LLM RLVR 直接相关。
Anthropogenic Regional Adaptation 引入区域适配范式 GG-EZ，在东南亚场景下文化相关性指标提升 5-15%，同时保持 98% 以上全局性能。
EEG-tGAT 为利基方向（图注意力 + 脑电时序），信号较弱。

📌 Top picks (交叉命中)

1. Target Policy Optimization（HF ↑22） → 将 RL 目标分布构建与策略拟合解耦，稀疏奖励下显著优于 PPO/GRPO

作者：Jean Kaddour
tldr_cn：RL 策略更新拆为目标分布构建+交叉熵拟合，稀疏奖励下大幅超越 PPO/GRPO
入选理由：HF 热度最高（22 upvotes），与 LLM RLVR 训练直接相关，附开源代码
链接：arXiv ｜ HF ｜ S2

2. Anthropogenic Regional Adaptation in Multimodal Vision-Language Model（HF ↑11） → 区域数据过滤+模型合并实现 VL 模型文化适配

作者：Samuel Cahyawijaya 等 46 人
tldr_cn：区域数据过滤+模型合并让 VL 模型文化适配提升 5-15%
入选理由：HF 11 upvotes，大规模多作者合作，VL 区域适配新范式
链接：arXiv ｜ HF ｜ S2

3. A Temporally Augmented Graph Attention Network for Affordance Classification（HF ↑1） → 时序增强 GATv2 用于交互序列的可供性分类

作者：Ami Chopra, Supriya Bordoloi, Shyamanta M. Hazarika
tldr_cn：时序注意力增强 GATv2 提升交互序列可供性分类性能
入选理由：候选池仅 3 篇，利基方向（图注意力 + EEG 时序），信号较弱
链接：arXiv ｜ HF ｜ S2

🏷 Watchlist 分类命中

本段今日无高置信度增量信号——三篇候选均未触发 watchlist 关键词，无分类命中可报告。

🔗 延伸阅读 (Semantic Scholar 相似论文)

本段今日无高置信度增量信号（S2 相似论文未返回）。

🧑‍🔬 新出现的作者 / 团队

本日发现扫描未发现达标候选人。今日候选池过小（3 篇），作者均不在追踪列表中但也未满足多次出现或 must-read venue 等发现规则。

📉 覆盖缺口与不确定性

今日候选仅 3 篇，远低于正常水平（通常 10-30 篇），可能原因：周末抓取窗口 + arXiv 发布周期。
三篇候选的 ranking_score 均为 0.0，watchlist 关键词无一命中，Top picks 质量置信度低。
S2 相似论文字段未返回，延伸阅读无法生成。
coverage_gaps: low_candidate_volume, no_watchlist_hits, s2_similar_unavailable

来源与交叉验证说明

本期依赖 arXiv + HuggingFace Daily Papers + Semantic Scholar 三源交叉。三源均正常返回（无 fetch 错误），但候选总量极低。HF trending rank 在 31-41 范围，说明今日 HF 热门论文与 watchlist 交集极小。建议下一工作日关注积压的周末论文。

Hanzhi's BLOG

[论文·2026-04-19]