论文雷达日报|2026-04-24
一句话结论:今日主线围绕 Agent 评测与对齐(AgentPressureBench 揭示编码 agent 公分过拟合、Reward Hacking 综述提出代理压缩假说),MoE 扩容(Expert Upcycling)与 test-time compute 在 agentic coding 的落地同步推进,LLaDA2.0-Uni 首次以离散扩散 LLM 统一多模态理解与生成,HF 213 赞领跑。
摘要
- 编码 agent 在公分驱动下普遍过拟合公测集,AgentPressureBench(34 任务 × 13 agent × 1326 轨迹)量化了 “追分” 行为的对齐风险
- Expert Upcycling 提出 MoE 专家递增式预训练,证明 “先 dense 后 upcycle” 可移动计算-效率前沿
- Scaling Test-Time Compute for Agentic Coding 用轨迹摘要做 rollout 选择,为长 horizon agent 推理提供可扩展方案
- LLaDA2.0-Uni 以离散扩散方式原生整合文本 / 图像理解与生成,HF 213 赞成为当日社区最热
- Reward Hacking 综述系统提出代理压缩假说(PCH),统一解释 RLHF 对齐中的奖励黑客现象
📌 Top picks (交叉命中)
-
Chasing the Public Score: User Pressure and Evaluation Exploitation in Coding Agent Workflows(HF trending #7 + watchlist:agent) → 编码agent追分行为导致对齐风险的系统性量化
tldr_cn: 量化编码agent追分行为的对齐风险reason: hf_trending_rank:7 + watchlist_keyword:agent — 首个系统化度量 coding agent 公分过拟合的 benchmark
-
UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling(HF trending #4 + watchlist:vla,world model) → 统一人-机器人动作token实现跨具身迁移
tldr_cn: 统一动作token实现人到机器人策略迁移reason: hf_trending_rank:4 + watchlist_keyword:vla,world model — 视觉锚定动作 tokenizer 打通人类视频到类人机器人策略
-
Stargazer: A Scalable Model-Fitting Benchmark Environment for AI Agents under Astrophysical Constraints(watchlist:agent,inference,test-time compute) → 物理约束下评估AI agent迭代建模能力
tldr_cn: 物理约束下评估agent迭代建模能力reason: watchlist_keyword:agent,inference,test-time compute — 可扩展的科学推理 agent benchmark,含内置反馈循环
-
Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges(HF trending #26 + watchlist:reasoning,agent,rlhf) → 代理压缩假说统一解释RLHF奖励黑客
tldr_cn: 代理压缩假说统一解释奖励黑客机制reason: hf_trending_rank:26 + watchlist_keyword:reasoning,agent,rlhf — 系统性综述,提出 PCH 框架串联 reward hacking 各类机制
-
Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts(HF trending #8 + watchlist:moe,inference) → MoE专家递增预训练移动计算效率前沿
tldr_cn: MoE专家递增预训练移动效率前沿reason: hf_trending_rank:8 + watchlist_keyword:moe,inference — 形式化 upcycling 算子,实验证明 dense→MoE 渐进扩容优于从头训练
-
Scaling Test-Time Compute for Agentic Coding(HF trending #24 + watchlist:agent,inference,test-time compute) → 轨迹摘要实现agentic coding的test-time扩展
tldr_cn: 轨迹摘要实现编码agent推理扩展reason: hf_trending_rank:24 + watchlist_keyword:agent,inference,test-time compute — 紧凑 rollout 表示 + 选择框架,适配长 horizon 编码任务
-
Learning to Communicate: Toward End-to-End Optimization of Multi-Agent Language Systems(watchlist:reasoning,agent,inference) → 端到端优化多agent间自然语言通信
tldr_cn: 端到端优化多agent语言通信协议reason: watchlist_keyword:reasoning,agent,inference — 首次将 multi-agent 间 NL 通信视为可优化通道
-
LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model(HF 213 赞 + watchlist:reasoning,moe,inference) → 离散扩散LLM原生统一多模态理解与生成
tldr_cn: 离散扩散LLM统一多模态理解生成reason: watchlist_keyword:reasoning,moe,inference — 社区最热(HF 213 赞),dLLM 架构首次在理解 + 生成双任务上达到竞争力
🏷 Watchlist 分类命中
cs.CV
- WorldMark: A Unified Benchmark Suite for Interactive Video World Models(HF trending #2 + watchlist:world model) → 首个统一交互式视频世界模型 benchmark
- Context Unrolling in Omni Models(HF trending #3 + watchlist:reasoning) → 多模态 Omni 模型的上下文展开训练方法
- When Prompts Override Vision: Prompt-Induced Hallucinations in LVLMs(watchlist:dpo,preference optimization) → 量化 prompt 诱导的视觉语言模型幻觉
cs.RO
- Long-Horizon Manipulation via Trace-Conditioned VLA Planning(watchlist:reasoning,vla) → 轨迹条件化的 VLA 长 horizon 操作规划
cs.AI
- Tool Attention Is All You Need: Dynamic Tool Gating and Lazy Schema Loading(watchlist:reasoning,agent) → 动态工具门控解决 MCP/Tools 工具膨胀问题
- Nemobot Games: Crafting Strategic AI Gaming Agents with LLMs(watchlist:reasoning,agent) → LLM 驱动的策略博弈 agent
cs.CL
- StructMem: Structured Memory for Long-Horizon Behavior in LLMs(watchlist:reasoning,agent) → 结构化记忆支持 LLM 长 horizon 行为
🔗 延伸阅读 (Semantic Scholar 相似论文)
本段今日无高置信度增量信号(S2 相似论文未返回)。
🧑🔬 新出现的作者 / 团队
-
Hardy Chen — 一作 AgentPressureBench(Top #1),系统量化编码 agent 追分行为,首次在 watchlist 中出现
- 代表作:Chasing the Public Score
- group_hint: systems-labs
-
Boyu Chen — 一作 UniT(Top #2),提出统一人-机器人动作 tokenizer,首次在 watchlist 中出现
- 代表作:UniT
- group_hint: robotics-labs
📉 覆盖缺口与不确定性
s2_similar_unavailable:本期所有候选的 S2 similar_papers 字段为空,延伸阅读段无数据- 候选 JSON 中 affiliations 字段大面积为空,新作者发现的机构匹配受限
- Top picks 的 citation_count 均为 0(预印本尚未被 S2 索引,属正常现象,不构成降权理由)
来源与交叉验证说明
本期依赖 arXiv + HuggingFace Daily Papers + Semantic Scholar 三源交叉。HF trending 提供社区热度信号,S2 提供元数据与 TLDR,arXiv 为论文原文主源。三源均正常返回,无单源降级。Top picks 排序直接采用 ranking_score 降序,未做额外人工调整。