[论文·2026-04-20]

论文雷达日报|2026-04-20

一句话结论:今日以 post-training 多样性坍缩诊断(HF #2、score 9.3)和 Qwen3.5-Omni 百亿参数全模态技术报告为双主线,RL 探索-利用细粒度权衡(DiPO)、LLM 物理推理基准(PRL-Bench)和 agent 工具基准(GTA-2、QuantCode-Bench)等论文构成密集信号日。

摘要

  • Post-training 导致输出多样性坍缩已被系统性定位到训练数据组成而非生成格式,对 inference-time scaling 有直接影响
  • Qwen3.5-Omni 扩展至百亿参数 + 256k 上下文,首次展示音视频指令编码(Audio-Visual Vibe Coding)能力
  • DiPO 用困惑度空间解耦策略实现 RL 探索/利用细粒度权衡,数学推理和函数调用均有提升
  • PRL-Bench 从 100 篇 PRL 论文构建端到端物理研究基准,最优模型仍低于 50 分
  • 多篇 agent benchmark(GTA-2、QuantCode-Bench、AccelOpt)继续推动 agent 能力边界量化

📌 Top picks (交叉命中)

1. Where does output diversity collapse in post-training?(HF #2 / 8 upvotes / reasoning+inference+dpo 命中) → 后训练导致输出多样性坍缩,根源在训练数据而非推理格式

  • tldr_cn: 后训练多样性坍缩由数据组成决定,推理时无法修复
  • reason: hf_trending_rank:2 + watchlist_keyword:reasoning,inference,dpo,对 inference-time scaling 方法有直接影响
  • 作者: Constantinos Karouzos, Xingwei Tan, Nikolaos Aletras

2. Qwen3.5-Omni Technical Report(HF #22 / 19 upvotes / reasoning+moe+inference 命中) → 百亿参数全模态模型,首创音视频编码能力

  • tldr_cn: 百亿 MoE 全模态模型,首创音视频指令编码
  • reason: hf_trending_rank:22 + watchlist_keyword:reasoning,moe,inference,Qwen 系列重大版本
  • 作者: Qwen Team

3. PRL-Bench: A Comprehensive Benchmark Evaluating LLMs’ Capabilities in Frontier Physics Research(HF #21 / reasoning+agent 命中) → 物理研究端到端基准,最优模型 < 50 分

  • tldr_cn: LLM 物理研究能力基准,最优模型不足 50 分
  • reason: hf_trending_rank:21 + watchlist_keyword:reasoning,agent,AI for Science 能力边界量化
  • 作者: Tingjia Miao, Wenkai Jin, Muhua Zhang 等

4. Hierarchical Codec Diffusion for Video-to-Speech Generation(HF #3 / quantization 命中 / citation_velocity:1.0) → 分层离散语音 token 建模实现视频到语音对齐

  • tldr_cn: 分层 codec 扩散实现视频到语音高保真生成
  • reason: hf_trending_rank:3 + watchlist_keyword:quantization + citation_velocity:1.0,离散语音建模新方向
  • 作者: Jiaxin Ye, Gaoxiang Cong, Chenhui Wang 等

5. PersonaVLM: Long-Term Personalized Multimodal LLMs(HF #24 / 28 upvotes / reasoning+agent 命中) → 多模态 agent 框架实现长期个性化

  • tldr_cn: 记忆+推理+对齐三阶段多模态个性化框架
  • reason: hf_trending_rank:24 + watchlist_keyword:reasoning,agent + HF 28 upvotes,长期个性化范式
  • 作者: Chang Nie, Chaoyou Fu, Yifan Zhang 等

6. QuantCode-Bench: A Benchmark for Evaluating the Ability of Large Language Models to Generate Executable Algorithmic Trading Strategies(HF #5 / agent 命中) → LLM 量化交易策略生成基准

  • tldr_cn: LLM 交易策略生成基准,瓶颈在金融逻辑
  • reason: hf_trending_rank:5 + watchlist_keyword:agent,领域特定代码生成新类别
  • 作者: Alexey Khoroshilov, Alexey Chernysh 等

7. AccelOpt: A Self-Improving LLM Agentic System for AI Accelerator Kernel Optimization(HF #15 / agent 命中 / citation_velocity:0.138) → LLM agent 自主优化 AI 加速器 kernel

  • tldr_cn: LLM agent 自主优化加速器 kernel,成本降 26 倍
  • reason: hf_trending_rank:15 + watchlist_keyword:agent + citation_velocity:0.138,开源 agent 做硬件优化
  • 作者: Genghan Zhang, Shaowei Zhu, Anjiang Wei 等

8. DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off(HF #4 / reasoning 命中) → 困惑度空间解耦实现 RL 探索/利用细粒度权衡

  • tldr_cn: 困惑度解耦实现 RL 细粒度探索利用权衡
  • reason: hf_trending_rank:4 + watchlist_keyword:reasoning,RLVR 训练稳定性提升
  • 作者: Xiaofan Li, Ming Yang, Zhiyuan Ma 等

🏷 Watchlist 分类命中

reasoning

inference

agent

🔗 延伸阅读 (Semantic Scholar 相似论文)

本段今日无高置信度增量信号(S2 相似论文未返回)。

🧑‍🔬 新出现的作者 / 团队

本日发现扫描未发现达标候选人。今日候选作者均为单次出现,未满足发现规则中的重复出现或 tracked 机构新面孔条件。

📉 覆盖缺口与不确定性

  • s2_similar_unavailable — S2 相似论文未返回,延伸阅读段为空
  • affiliations_sparse — 候选 JSON 中 affiliations 字段均为空,无法做机构匹配(HF 源不附机构信息)
  • citation_count_zero_normal — 新预印本 S2 尚未索引引用,citation_count=0 为正常状态,不影响排名

来源与交叉验证说明

三源(arXiv + HuggingFace Daily Papers + Semantic Scholar)均成功抓取,无降级。排序主要依赖 HF trending rank(x3.0)和 watchlist keyword 命中(x2.0)。结论锚定在 arXiv 预印本原文(primary source),HF 趋势作为辅助信号,S2 提供 citation 元数据和 tldr。新预印本 citation_count 普遍为 0,不影响排名。tracked_labs_seen: Qwen Team(oss-ai-labs/qwen)出现于 Top #2。