论文雷达日报｜2026-04-27

一句话结论：Agent 记忆栈、world model 路线图、长上下文架构、VLM-VLA 中训今日同时出现强信号——Memanto 把类型化语义记忆推到 LongMemEval 89.8%，Agentic World Modeling 综述 400+ 文献给出 levels×laws 路线图，Sessa 在 Transformer/Mamba 之外走出 attention-in-recurrent 第三条路，EmbodiedMidtrain 把 VLM/VLA 数据分布鸿沟系统化为可学习的 mid-training data engine。

摘要

Agent 记忆：Memanto 用 13 类预定义 schema + Moorcheh 信息论检索替代知识图谱栈，在 LongMemEval (89.8%) 与 LoCoMo (87.1%) 双榜越过 hybrid graph 与向量基线，且 ingestion 零延迟、检索 < 90ms 单查询。这是一次"agent memory 不需要 KG 复杂度"的硬挑战。
世界模型：Agentic World Modeling 提出 L1 Predictor / L2 Simulator / L3 Evolver 三级能力轴 × 物理 / 数字 / 社会 / 科学四规律的二维分类，综合 400+ 论文 + 100+ 系统，给出 decision-centric evaluation 与最小可复现评测包，是把 model-based RL / 视频生成 / Web/GUI agents / 多智能体仿真 / AI for science 串成同一路线图的尝试。
长上下文：Sessa 把 attention 嵌入 recurrent feedback path，理论上证明可拿 O(ℓ⁻ᵝ) 幂律 memory tail，且唯一支持 distance-invariant 影响轮廓；SLIDERS 走另一条路，用关系数据库 + reconciliation stage 做长文档 QA，36M token 任务上比次优基线高约 32 分。两者都说"窗口拼接已是局部最优陷阱"。
具身 VLA：EmbodiedMidtrain 揭示 VLA 数据在 VLM 数据池里只占很窄区域，提出可学习 proximity estimator 在中训阶段做 data selection，三机器人基准上无需更大模型即可媲美 expert VLA；分析显示中训对 spatial reasoning 类任务增益最大。
视频字幕 / 评测代理：CHAI 用 Critique-based Human-AI Oversight 把字幕从 pre-caption 到 post-caption 走通，Qwen3-VL 经 SFT/DPO/inference-time scaling 训练后报告超过 Gemini-3.1-Pro；dWorldEval 把机器人策略评测搬到离散扩散 world model 上做 sim proxy，LIBERO/RoboTwin/真机三组都赢 WorldEval / Ctrl-World / WorldGym。

📌 Top picks (交叉命中)

EmbodiedMidtrain: Bridging the Gap between Vision-Language Models and Vision-Language-Action Models via Mid-training（HF #2 / 1 upvote / hf+s2 / hf_trending_rank:2 + watchlist_keyword:reasoning,vla）→ VLM 中训对齐补 VLA 数据 gap，三机器人基准超大模型基线。Yiyang Du 等提出可学习 proximity estimator 在 VLM 数据池里挑出最 VLA-aligned 子集做中训，gain 从训练最早期就出现并持续扩大，dataset 与 sample 两级 alignment 信号都被捕捉。
Memanto: Typed Semantic Memory with Information-Theoretic Retrieval for Long-Horizon Agents（HF #3 / 1 upvote / hf+s2 / hf_trending_rank:3 + watchlist_keyword:agent,inference）→ 类型语义记忆 + 信息论检索，LongMemEval 89.8% 越图谱栈。13 类预定义 memory schema + 自动冲突解决 + 时间版本化，挑战"agent memory 必须图谱化"的主流假设，单查询 SOTA、无 ingestion 延迟。
Building a Precise Video Language with Human-AI Oversight（HF #5 / 3 upvote / hf+s2 / hf_trending_rank:5 + watchlist_keyword:inference,dpo）→ CHAI 人机批评精修视频字幕，Qwen3-VL 微调超 Gemini-3.1-Pro。Zhiqiu Lin / Yilun Du / Deva Ramanan 等用 critique 分工把字幕生成下放给模型、人专注校验，配套数据训出的 Qwen3-VL 在 caption / reward / critique 三角度都进步，最终用回 Wan 视频生成模型支持 400 词长 prompt。
dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model（HF #11 / 2 upvote / hf+s2 / hf_trending_rank:11 + watchlist_keyword:inference,world model）→ 离散扩散世界模型替代真机评测，LIBERO/RoboTwin 全面胜出。多模态统一 token + 单一 transformer denoiser + 稀疏 keyframe memory + progress token 自动判成功，给"千环境千任务策略评测"提供可扩展 sim proxy。
Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond（HF #15 / 139 upvote 当日最高 / hf+s2 / hf_trending_rank:15 + watchlist_keyword:agent,world model）→ 世界模型 levels×laws 分类，串通 RL/视频/Web/科研社区。L1 Predictor / L2 Simulator / L3 Evolver 三级能力 × 物理/数字/社会/科学四规律，综述 400+ 论文，提出 decision-centric evaluation 与最小可复现评测包。
Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets（HF #6 / 7 upvote / hf+s2 / hf_trending_rank:6 + watchlist_keyword:reasoning）→ 长文 QA 用 SQL 关系库存证，36M token 越次优 32 分。SLIDERS 把文档抽到关系数据库 + reconciliation stage 修复重复/不一致/不完整记录，三个长上下文基准平均超 GPT-4.1 6.6 分，3.9M / 36M token 大基准比次优基线高 19 / 32 分。Monica S. Lam (Stanford) 通讯。
Sessa: Selective State Space Attention（HF #7 / 1 upvote / hf+s2 / hf_trending_rank:7 + watchlist_keyword:long context）→ 注意力嵌入 RNN 反馈，长程依赖呈幂律衰减。Sessa 把 attention 放进 recurrent feedback path，理论证明在配对 regime 下 memory tail 呈 O(ℓ⁻ᵝ) (0<β<1)，比 Transformer / Mamba 衰减更慢；同时是当前唯一支持 distance-invariant 影响轮廓的模型类。
LLM Safety From Within: Detecting Harmful Content with Internal Representations（HF #12 / 21 upvote / hf+s2 / hf_trending_rank:12 + watchlist_keyword:inference）→ 用 LLM 内部层做轻量 guard，250 倍参数压缩。SIREN 用 linear probe 找 safety neurons + 自适应分层加权，参数量比 SOTA guard model 小 250×，且支持流式检测、对未见基准泛化更强。

🏷 Watchlist 分类命中

候选 JSON 中 categories 字段全部为空（HF Daily 入口未带 arXiv 分类），按 watchlist_keyword 分组。

watchlist:agent

AgentSearchBench: A Benchmark for AI Agent Search in the Wild（HF #13 / 8 upvote / hf+s2 / hf_trending_rank:13 + watchlist_keyword:agent）→ 近万真实 agent 的搜索基准，揭示语义检索与执行差距。从近 10k 真实 agent 池构造 benchmark，把 agent search 形式化为 retrieval + reranking 双任务，用 execution-grounded relevance 评测，发现 description-based 方法与实际能力差距明显，轻量 behavioral probe 可显著提升排序质量。
AgriIR: A Scalable Framework for Domain-Specific Knowledge Retrieval（HF #10 / 1 upvote / hf+s2 / hf_trending_rank:10 + watchlist_keyword:agent）→ 1B 模型 + 模块化 RAG，做农业问答的低成本垂域栈。把 RAG 拆成 query refinement / sub-query planning / retrieval / synthesis / evaluation 五个 declarative 模块，1B 参数级 LM + 自适应 retriever 拿到可审计、可部署结果。

watchlist:reasoning

Learning Evidence Highlighting for Frozen LLMs（HF #14 / 0 upvote / hf+s2 / hf_trending_rank:14 + watchlist_keyword:reasoning）→ RL 训练 highlight tag actor，无须改 solver 即提增推理。HiLight 把"找证据"从"做推理"中解耦：训练轻量 Emphasis Actor 在原 context 里插 highlight tag，frozen Solver 在加 emphasis 的输入上做下游推理；用 solver task reward 走 RL，不需 evidence label，policy 可 zero-shot 迁移到包括 API solver 在内的不同模型族。

🔗 延伸阅读 (Semantic Scholar 相似论文)

本段今日无高置信度增量信号（S2 相似论文未返回）。/tmp/paper_candidates.json 中无 similar_papers 字段，按 SKILL.md 硬性约束不再单独 fetch S2，留空并标记 coverage_gaps: ["s2_similar_unavailable"]。

🧑‍🔬 新出现的作者 / 团队

候选 affiliations 字段全部为空，机构匹配跳过；改用 Top picks 一作 / 通讯作者 vs tracked_authors 列表的对比。

Zhiqiu Lin（Carnegie Mellon University，systems-labs）— Top pick 第 3 篇 Building a Precise Video Language with Human-AI Oversight 的项目页一作（linzhiqiu.github.io/papers/chai），主导 CHAI 数据 + 训练 + inference-time 全栈，最近一年视频理解方向产出连续。证据：arxiv abs、project page。
Monica S. Lam（Stanford University，systems-labs / NL+DB 交叉）— Top pick 第 6 篇 SLIDERS 的资深通讯，把长文档 QA 推到 36M token 规模并显著超过 GPT-4.1，是长上下文从 chunk-aggregation 转向 structured-reasoning 的代表方向。证据：arxiv abs（cross_checked=false，需人工 review）。

📉 覆盖缺口与不确定性

s2_similar_unavailable：候选 JSON 无 similar_papers 字段，延伸阅读段空。
arxiv_categories_missing：候选 22 条 categories 字段全空，Watchlist 分类命中段降级为按 watchlist_keyword 分组。
affiliations_missing：候选 22 条 affiliations 字段全空，无法匹配 tracked_affiliations / tracked_labs_runtime，tracked_labs_seen 留空数组。
信心降级标志：candidates_all_hf_seeded（候选全部走 HF Daily + S2 入口，缺独立 arXiv listing 候选，存在选择性偏差）；no_arxiv_categories；no_affiliations_for_lab_match。

来源与交叉验证说明

本期 22 条候选全部带 hf+s2 双源标签：HF Daily 提供候选与 trending 排名（curated），Semantic Scholar 补 s2_paper_id / s2_tldr / venue 字段（metadata），arXiv 给出 abstract 与 PDF（primary）。结论锚在 arXiv abstract，未把 HF trending 当结果证据；S2 引用度普遍 0（新预印本未索引），因此不作降权理由。无 arXiv listing 单独抓取，需在下次循环里加直接 hit cs.AI/cs.CL/cs.LG/cs.CV/cs.RO listing API 以补 categories 与不在 HF 榜上的论文。Top picks 顺序严格按候选 JSON 已排好的 ranking_score，未自行重排。

Hanzhi's BLOG

[论文·2026-04-27]