[市场·2026-05-24] Paper Layer

← 返回主报告:[市场·2026-05-24] Politics

论文层(消费 paper-digest)

今日 paper-digest 主线是「可验证奖励 + agent 真实任务评测」双热点。从市场简报视角(前沿模型/产品/基础设施读者)筛出 5 篇最相关:两篇直击 RLVR/过程奖励的训练范式(DelTA、uPRM),一篇把 agent 评测推向真实终端场景(TerminalWorld),一篇全模态理解(LatentOmni),一篇基础模型/LoRA 权重安全(LoREnc)。

  • 2605.21467 DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards — 用判别器视角实现RLVR的token级信用分配 (市场相关性:当日 HF 最高热度 192 upvotes,把 RLVR 的稀疏序列级奖励细化到 token 级,直接关系到推理模型后训练的样本效率与稳定性,是各家前沿 reasoning 模型 post-training pipeline 的可复用方向。)
  • 2605.10158 Unsupervised Process Reward Models — 无需人工标注即可训练过程奖励模型(uPRM) (市场相关性:PRM 的人工标注成本一直是 RLVR 规模化的瓶颈,无监督路线若成立可大幅压低过程奖励的数据获取成本,对自建奖励模型的团队和奖励数据供应链都有结构性影响。)
  • 2605.22535 TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks — 从真实终端录像逆向出1530个agent评测任务 (市场相关性:1530 个由真实终端操作逆向出的任务,比合成基准更贴近 coding/运维 agent 的实际部署场景,是评判 terminal/coding agent 产品成熟度的新参照系。)
  • 2605.22012 LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning — 统一音视频潜空间推理,改善全模态细粒度时序理解 (市场相关性:全模态(音+视)统一潜空间推理是多模态助手与实时交互产品的核心能力,细粒度时序理解的提升直指语音/视频 agent 的体验天花板。)
  • 2605.13163 LoREnc: Low-Rank Encryption for Securing Foundation Models and LoRA Adapters — 免训练低秩加密,保护基础模型与LoRA适配器 (市场相关性:当日 HF 榜首,免训练保护权重与 LoRA 适配器,切中开源权重分发与商业微调资产的 IP/合规防护需求,对模型权重供应链安全有实务价值。)