[论文·2026-04-30]

论文雷达日报|2026-04-30

一句话结论:今日 HF Daily + arXiv 共 128 篇候选交叉聚焦在「扩散 LLM / 世界模型 / 多模态 agent / RL rollout 加速」四条主线,GLM-5V-Turbo 是唯一带有明确大厂署名的 frontier 多模态 agent 基座;S2 相似论文与机构归属字段全线缺失,延伸阅读与新作者发现今日均无高置信度增量。

摘要

  • 检索面:arXiv 全量 + HuggingFace Daily(33 篇 trending)+ Semantic Scholar 元数据(28 篇命中),合并去重后 128 条候选,14 天 seen-pool 命中 0 条,全部为新增量。
  • 主题分布:解码 / 推理 / 蒸馏(≥40 条)、世界模型 / VLA / 机器人(≥18 条)、agent 框架与 harness(≥10 条)、MoE / 长上下文系统(≥6 条)。
  • 强信号:GLM-V Team 公布 GLM-5V-Turbo(HF 70 ups),主打原生多模态 agent;ESamp(LLM Explore by Latent Distilling)以 7.2 分摘冠,HF 47 ups + 关键词命中三连;STARRY / X-WAM 双世界模型同日同源(cs.RO/CV)。
  • 覆盖缺口:S2 similar_papers 字段未返回(28 篇 S2 命中无一带 similar),arXiv 元数据未提供机构归属,导致 extended_reading=[]new_authors=[],按规则不外搜。

📌 Top picks (交叉命中)

  1. Large Language Models Explore by Latent Distilling [2604.24927]

  2. Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models [2604.26951]

  3. World2VLM: Distilling World Model Imagination into VLMs for Dynamic Spatial Reasoning [2604.26934]

  4. Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising [2604.26694]

  5. GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents [2604.26752]

    • tldr_cn:智谱原生多模态 agent 基座模型登场。
    • tldr_en:(S2 未返回)
    • 入选理由:HF trending #6、70 ups(今日所有候选最高单源 ups);GLM-V Team 团队作者署名,是 8 条里唯一具备「frontier lab 产品级别」溯源的 picks,与 market-briefing AI daily 存在交集,paper-digest 仅锚于「多模态 agent 训练目标 + 文档/GUI/视频/网页 perception 设计」。
    • 证据链接:http://arxiv.org/abs/2604.26752v1 · https://huggingface.co/papers/2604.26752
  6. Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding [2604.26779]

    • tldr_cn:在 RL 后训练 rollout 中接入推测解码做无损加速。
    • tldr_en:(S2 未返回)
    • 入选理由:HF trending #9;watchlist 命中 reasoning+speculative decoding;明确把推测解码定义为 lossless 加速器而非更换 rollout/优化范式,方向纯粹。
    • 证据链接:http://arxiv.org/abs/2604.26779v1 · https://huggingface.co/papers/2604.26779
  7. STARRY: Spatial-Temporal Action-Centric World Modeling for Robotic Manipulation [2604.26848]

    • tldr_cn:时空动作中心世界模型联合去噪提升机器人操控。
    • tldr_en:(S2 未返回)
    • 入选理由:watchlist 命中 reasoning+vla+world model;与 #3/#4 同主线,专攻「VLA + 世界模型增强策略」如何对齐时空预测与动作生成。
    • 证据链接:http://arxiv.org/abs/2604.26848v1 · https://huggingface.co/papers/2604.26848
  8. ClawGym: A Scalable Framework for Building Effective Claw Agents [2604.26904]

    • tldr_cn:可扩展爪式 agent 训练与诊断评测框架。
    • tldr_en:(S2 未返回)
    • 入选理由:HF trending #11、34 ups;watchlist 命中 agent,附 benchmark+fine-tuning+evaluation;面向多步本地文件/工具/工作区状态的 claw-style agent,弥补 harness/数据/评测三件套缺口。
    • 证据链接:http://arxiv.org/abs/2604.26904v1 · https://huggingface.co/papers/2604.26904

🏷 Watchlist 分类命中

Top picks 已命中 reasoning / inference / world model / agent / moe / speculative decoding 等核心 watchlist 关键词;以下按主题挑出未进入 Top picks 的次级信号,每条标注 ranking_reasons。

  • 推理 / 解码 / 长上下文

    • Probing Visual Planning in Image Editing Models (5.3) — hf_trending_rank:2, watchlist_keyword:reasoning, nice_to_have:evaluation — https://arxiv.org/abs/2604.22868
    • Select to Think: Unlocking SLM Potential with Local Sufficiency (4.5) — watchlist_keyword:reasoning,inference + benchmark — http://arxiv.org/abs/2604.26940v1
    • When to Retrieve During Reasoning: Adaptive Retrieval for Large Reasoning Models (4.5) — watchlist_keyword:reasoning,inference + benchmark — cs.CL
    • MemOVCD: Training-Free Open-Vocabulary Change Detection via Cross-Temporal Memory (4.5) — watchlist_keyword:reasoning,inference + benchmark — cs.CV
    • Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion (4.3) — hf_trending_rank:7, watchlist_keyword:inference
  • Agent / Harness / 工具链

    • RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic Mapping (5.4) — hf_trending_rank:1, watchlist_keyword:agent + benchmark
    • Bian Que: An Agentic Framework with Flexible Skill Arrangement for Online Systems (4.5) — watchlist_keyword:reasoning,agent + evaluation
    • The Last Harness You'll Ever Build (4.3) — hf_trending_rank:12, watchlist_keyword:agent + evaluation
    • Co-Director: Agentic Generative Video Storytelling (3.1) — hf_trending_rank:24, watchlist_keyword:agent + evaluation
    • FACT: Compositional Kernel Synthesis with a Three-Stage Agentic Workflow (3.0) — watchlist_keyword:agent + benchmark + evaluation
  • 系统 / MoE / KV cache

    • FaaSMoE: A Serverless Framework for Multi-Tenant Mixture-of-Experts Serving (4.0) — watchlist_keyword:moe,inference — cs.DC/cs.LG
    • Unifying Sparse Attention with Hierarchical Memory for Scalable Long-Context LLM Inference (4.0) — watchlist_keyword:inference,kv cache
  • 机器人 / VLA / 导航

    • Walk With Me: Long-Horizon Social Navigation for Human-Centric Outdoor Assistance (4.0) — watchlist_keyword:reasoning,vla

🔗 延伸阅读 (Semantic Scholar 相似论文)

本段今日无高置信度增量信号(S2 相似论文未返回)。28 篇 S2 元数据命中均未带 similar_papers 字段,按 skill 规则不外搜,标记为 s2_similar_unavailable 并保留空数组,等待下次 S2 索引刷新后再恢复。

🧑‍🔬 新出现的作者 / 团队

本日发现扫描未发现达标候选人。原因:今日 arXiv RSS 元数据 affiliations 字段全线为空(即便是 GLM-V Team 也只有团队名而无机构归属),无法触发 discovery_rules.md 的「跟踪机构 + 跟踪关键词」联合命中阈值;按规则不为凑数硬塞,记入 coverage_gaps

📉 覆盖缺口与不确定性

  • s2_similar_unavailable — 28 篇 S2 命中无一返回 similar_papers,延伸阅读今日为空。
  • affiliations_unavailable — arXiv 元数据 affiliations=[],新作者/团队发现暂停,HF Daily 也未补齐。
  • tldr_en_partial — 8 条 Top picks 中仅 #1 拿到 S2 TLDR,其余 7 条 tldr_en 留空;未自行翻译以避免污染英文契约字段。
  • seen_pool_observations — pool 内 231 条历史 key,今日 0 命中,说明候选窗口完全是新增量;同时也意味着 HF trending 没有翻炒老论文。
  • paper_fetch.err:空,无单源失败警告(arxiv / hf_daily / s2 三源均 ok)。

来源与交叉验证说明

  • primary(arXiv 预印本):所有结论锚点。今日 128 条候选中 100% 都有 arxiv_url,为 ground truth。
  • curated(HuggingFace Daily):33 条带 hf_upvotes,用于 trending 信号 hf_trending_rank,不当作论文结果证据;最高 GLM-5V-Turbo 70 ups。
  • metadata(Semantic Scholar):28 条命中 s2_url,仅 1 条返回 TLDR、0 条返回 similar_papers,今日 S2 主要价值是 #1 ESamp 的 TLDR。
  • 冲突优先级primary > metadata > curated > othercitation_count==0 不作为降权理由(4 月预印本 S2 索引尚未跟上)。
  • 与 market-briefing AI daily 边界:GLM-5V-Turbo 是潜在交集;本报告锚于训练目标与多模态 perception 设计;产品发布与社区影响交由 AI daily。