论文雷达日报|2026-04-27
一句话结论:Agent 记忆栈、world model 路线图、长上下文架构、VLM-VLA 中训今日同时出现强信号——Memanto 把类型化语义记忆推到 LongMemEval 89.8%,Agentic World Modeling 综述 400+ 文献给出 levels×laws 路线图,Sessa 在 Transformer/Mamba 之外走出 attention-in-recurrent 第三条路,EmbodiedMidtrain 把 VLM/VLA 数据分布鸿沟系统化为可学习的 mid-training data engine。
摘要
- Agent 记忆:Memanto 用 13 类预定义 schema + Moorcheh 信息论检索替代知识图谱栈,在 LongMemEval (89.8%) 与 LoCoMo (87.1%) 双榜越过 hybrid graph 与向量基线,且 ingestion 零延迟、检索 < 90ms 单查询。这是一次"agent memory 不需要 KG 复杂度"的硬挑战。
- 世界模型:Agentic World Modeling 提出 L1 Predictor / L2 Simulator / L3 Evolver 三级能力轴 × 物理 / 数字 / 社会 / 科学四规律的二维分类,综合 400+ 论文 + 100+ 系统,给出 decision-centric evaluation 与最小可复现评测包,是把 model-based RL / 视频生成 / Web/GUI agents / 多智能体仿真 / AI for science 串成同一路线图的尝试。
- 长上下文:Sessa 把 attention 嵌入 recurrent feedback path,理论上证明可拿 O(ℓ⁻ᵝ) 幂律 memory tail,且唯一支持 distance-invariant 影响轮廓;SLIDERS 走另一条路,用关系数据库 + reconciliation stage 做长文档 QA,36M token 任务上比次优基线高约 32 分。两者都说"窗口拼接已是局部最优陷阱"。
- 具身 VLA:EmbodiedMidtrain 揭示 VLA 数据在 VLM 数据池里只占很窄区域,提出可学习 proximity estimator 在中训阶段做 data selection,三机器人基准上无需更大模型即可媲美 expert VLA;分析显示中训对 spatial reasoning 类任务增益最大。
- 视频字幕 / 评测代理:CHAI 用 Critique-based Human-AI Oversight 把字幕从 pre-caption 到 post-caption 走通,Qwen3-VL 经 SFT/DPO/inference-time scaling 训练后报告超过 Gemini-3.1-Pro;dWorldEval 把机器人策略评测搬到离散扩散 world model 上做 sim proxy,LIBERO/RoboTwin/真机三组都赢 WorldEval / Ctrl-World / WorldGym。
📌 Top picks (交叉命中)
- EmbodiedMidtrain: Bridging the Gap between Vision-Language Models and Vision-Language-Action Models via Mid-training(HF #2 / 1 upvote / hf+s2 / hf_trending_rank:2 + watchlist_keyword:reasoning,vla)→ VLM 中训对齐补 VLA 数据 gap,三机器人基准超大模型基线。Yiyang Du 等提出可学习 proximity estimator 在 VLM 数据池里挑出最 VLA-aligned 子集做中训,gain 从训练最早期就出现并持续扩大,dataset 与 sample 两级 alignment 信号都被捕捉。
- Memanto: Typed Semantic Memory with Information-Theoretic Retrieval for Long-Horizon Agents(HF #3 / 1 upvote / hf+s2 / hf_trending_rank:3 + watchlist_keyword:agent,inference)→ 类型语义记忆 + 信息论检索,LongMemEval 89.8% 越图谱栈。13 类预定义 memory schema + 自动冲突解决 + 时间版本化,挑战"agent memory 必须图谱化"的主流假设,单查询 SOTA、无 ingestion 延迟。
- Building a Precise Video Language with Human-AI Oversight(HF #5 / 3 upvote / hf+s2 / hf_trending_rank:5 + watchlist_keyword:inference,dpo)→ CHAI 人机批评精修视频字幕,Qwen3-VL 微调超 Gemini-3.1-Pro。Zhiqiu Lin / Yilun Du / Deva Ramanan 等用 critique 分工把字幕生成下放给模型、人专注校验,配套数据训出的 Qwen3-VL 在 caption / reward / critique 三角度都进步,最终用回 Wan 视频生成模型支持 400 词长 prompt。
- dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model(HF #11 / 2 upvote / hf+s2 / hf_trending_rank:11 + watchlist_keyword:inference,world model)→ 离散扩散世界模型替代真机评测,LIBERO/RoboTwin 全面胜出。多模态统一 token + 单一 transformer denoiser + 稀疏 keyframe memory + progress token 自动判成功,给"千环境千任务策略评测"提供可扩展 sim proxy。
- Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond(HF #15 / 139 upvote 当日最高 / hf+s2 / hf_trending_rank:15 + watchlist_keyword:agent,world model)→ 世界模型 levels×laws 分类,串通 RL/视频/Web/科研社区。L1 Predictor / L2 Simulator / L3 Evolver 三级能力 × 物理/数字/社会/科学四规律,综述 400+ 论文,提出 decision-centric evaluation 与最小可复现评测包。
- Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets(HF #6 / 7 upvote / hf+s2 / hf_trending_rank:6 + watchlist_keyword:reasoning)→ 长文 QA 用 SQL 关系库存证,36M token 越次优 32 分。SLIDERS 把文档抽到关系数据库 + reconciliation stage 修复重复/不一致/不完整记录,三个长上下文基准平均超 GPT-4.1 6.6 分,3.9M / 36M token 大基准比次优基线高 19 / 32 分。Monica S. Lam (Stanford) 通讯。
- Sessa: Selective State Space Attention(HF #7 / 1 upvote / hf+s2 / hf_trending_rank:7 + watchlist_keyword:long context)→ 注意力嵌入 RNN 反馈,长程依赖呈幂律衰减。Sessa 把 attention 放进 recurrent feedback path,理论证明在配对 regime 下 memory tail 呈 O(ℓ⁻ᵝ) (0<β<1),比 Transformer / Mamba 衰减更慢;同时是当前唯一支持 distance-invariant 影响轮廓的模型类。
- LLM Safety From Within: Detecting Harmful Content with Internal Representations(HF #12 / 21 upvote / hf+s2 / hf_trending_rank:12 + watchlist_keyword:inference)→ 用 LLM 内部层做轻量 guard,250 倍参数压缩。SIREN 用 linear probe 找 safety neurons + 自适应分层加权,参数量比 SOTA guard model 小 250×,且支持流式检测、对未见基准泛化更强。
🏷 Watchlist 分类命中
候选 JSON 中
categories字段全部为空(HF Daily 入口未带 arXiv 分类),按watchlist_keyword分组。
watchlist:agent
- AgentSearchBench: A Benchmark for AI Agent Search in the Wild(HF #13 / 8 upvote / hf+s2 / hf_trending_rank:13 + watchlist_keyword:agent)→ 近万真实 agent 的搜索基准,揭示语义检索与执行差距。从近 10k 真实 agent 池构造 benchmark,把 agent search 形式化为 retrieval + reranking 双任务,用 execution-grounded relevance 评测,发现 description-based 方法与实际能力差距明显,轻量 behavioral probe 可显著提升排序质量。
- AgriIR: A Scalable Framework for Domain-Specific Knowledge Retrieval(HF #10 / 1 upvote / hf+s2 / hf_trending_rank:10 + watchlist_keyword:agent)→ 1B 模型 + 模块化 RAG,做农业问答的低成本垂域栈。把 RAG 拆成 query refinement / sub-query planning / retrieval / synthesis / evaluation 五个 declarative 模块,1B 参数级 LM + 自适应 retriever 拿到可审计、可部署结果。
watchlist:reasoning
- Learning Evidence Highlighting for Frozen LLMs(HF #14 / 0 upvote / hf+s2 / hf_trending_rank:14 + watchlist_keyword:reasoning)→ RL 训练 highlight tag actor,无须改 solver 即提增推理。HiLight 把"找证据"从"做推理"中解耦:训练轻量 Emphasis Actor 在原 context 里插 highlight tag,frozen Solver 在加 emphasis 的输入上做下游推理;用 solver task reward 走 RL,不需 evidence label,policy 可 zero-shot 迁移到包括 API solver 在内的不同模型族。
🔗 延伸阅读 (Semantic Scholar 相似论文)
本段今日无高置信度增量信号(S2 相似论文未返回)。/tmp/paper_candidates.json 中无 similar_papers 字段,按 SKILL.md 硬性约束不再单独 fetch S2,留空并标记 coverage_gaps: ["s2_similar_unavailable"]。
🧑🔬 新出现的作者 / 团队
候选 affiliations 字段全部为空,机构匹配跳过;改用 Top picks 一作 / 通讯作者 vs
tracked_authors列表的对比。
- Zhiqiu Lin(Carnegie Mellon University,systems-labs)— Top pick 第 3 篇 Building a Precise Video Language with Human-AI Oversight 的项目页一作(linzhiqiu.github.io/papers/chai),主导 CHAI 数据 + 训练 + inference-time 全栈,最近一年视频理解方向产出连续。证据:arxiv abs、project page。
- Monica S. Lam(Stanford University,systems-labs / NL+DB 交叉)— Top pick 第 6 篇 SLIDERS 的资深通讯,把长文档 QA 推到 36M token 规模并显著超过 GPT-4.1,是长上下文从 chunk-aggregation 转向 structured-reasoning 的代表方向。证据:arxiv abs(cross_checked=false,需人工 review)。
📉 覆盖缺口与不确定性
s2_similar_unavailable:候选 JSON 无similar_papers字段,延伸阅读段空。arxiv_categories_missing:候选 22 条categories字段全空,Watchlist 分类命中段降级为按watchlist_keyword分组。affiliations_missing:候选 22 条affiliations字段全空,无法匹配tracked_affiliations/tracked_labs_runtime,tracked_labs_seen留空数组。- 信心降级标志:
candidates_all_hf_seeded(候选全部走 HF Daily + S2 入口,缺独立 arXiv listing 候选,存在选择性偏差);no_arxiv_categories;no_affiliations_for_lab_match。
来源与交叉验证说明
本期 22 条候选全部带 hf+s2 双源标签:HF Daily 提供候选与 trending 排名(curated),Semantic Scholar 补 s2_paper_id / s2_tldr / venue 字段(metadata),arXiv 给出 abstract 与 PDF(primary)。结论锚在 arXiv abstract,未把 HF trending 当结果证据;S2 引用度普遍 0(新预印本未索引),因此不作降权理由。无 arXiv listing 单独抓取,需在下次循环里加直接 hit cs.AI/cs.CL/cs.LG/cs.CV/cs.RO listing API 以补 categories 与不在 HF 榜上的论文。Top picks 顺序严格按候选 JSON 已排好的 ranking_score,未自行重排。