[市场·2026-05-24] Paper Layer

← 返回主报告：[市场·2026-05-24] Politics

论文层（消费 paper-digest）

今日 paper-digest 主线是「可验证奖励 + agent 真实任务评测」双热点。从市场简报视角（前沿模型/产品/基础设施读者）筛出 5 篇最相关：两篇直击 RLVR/过程奖励的训练范式（DelTA、uPRM），一篇把 agent 评测推向真实终端场景（TerminalWorld），一篇全模态理解（LatentOmni），一篇基础模型/LoRA 权重安全（LoREnc）。

2605.21467 DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards — 用判别器视角实现RLVR的token级信用分配（市场相关性：当日 HF 最高热度 192 upvotes，把 RLVR 的稀疏序列级奖励细化到 token 级，直接关系到推理模型后训练的样本效率与稳定性，是各家前沿 reasoning 模型 post-training pipeline 的可复用方向。）
2605.10158 Unsupervised Process Reward Models — 无需人工标注即可训练过程奖励模型(uPRM) （市场相关性：PRM 的人工标注成本一直是 RLVR 规模化的瓶颈，无监督路线若成立可大幅压低过程奖励的数据获取成本，对自建奖励模型的团队和奖励数据供应链都有结构性影响。）
2605.22535 TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks — 从真实终端录像逆向出1530个agent评测任务（市场相关性：1530 个由真实终端操作逆向出的任务，比合成基准更贴近 coding/运维 agent 的实际部署场景，是评判 terminal/coding agent 产品成熟度的新参照系。）
2605.22012 LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning — 统一音视频潜空间推理，改善全模态细粒度时序理解（市场相关性：全模态（音+视）统一潜空间推理是多模态助手与实时交互产品的核心能力，细粒度时序理解的提升直指语音/视频 agent 的体验天花板。）
2605.13163 LoREnc: Low-Rank Encryption for Securing Foundation Models and LoRA Adapters — 免训练低秩加密，保护基础模型与LoRA适配器（市场相关性：当日 HF 榜首，免训练保护权重与 LoRA 适配器，切中开源权重分发与商业微调资产的 IP/合规防护需求，对模型权重供应链安全有实务价值。）