[论文·2026-05-14]

论文雷达日报|2026-05-14

一句话结论:agent / reasoning 与 inference / serving 两条主线在 HF Daily 当日榜单同时放电——PersonalAI 2.0 / RealICU / FrameSkip 占据 trending 前列;inference 侧 Attention Once Is All You Need 用持久 KV 对 vLLM 系列喊出 5.9× 加速,并出现一篇 position paper 主张把 joules/token 写进 inference benchmark。

摘要

  • HF Daily trending 前 10 名里有 5 篇直接进 Top picks(PersonalAI 2.0 #6 / RealICU #5 / FrameSkip #8 / PNAPO #9 / MemReread #15),agent-reasoning 主题密度异常高。
  • inference / serving 侧出现三条互补叙事:Attention Once Is All You Need 推 streaming-only 引擎、MinT 推百万级 LoRA 服务化、FlowCompile 推 workflow compile-time 优化。
  • 位置 paper《LLM Inference Should Be Evaluated as Energy-to-Token Production》把 KV 压缩 / 量化 / routing 重新框成「能效杠杆」,对 inference benchmark 评测口径下战书。
  • VLA / embodied 也有持续高密度产出(FrameSkip + GTA-VLA + Realtime-VLA FLASH + DAWN),主线从架构迁向「数据帧/推理调度/世界模型闭环」三个 lever。
  • Semantic Scholar 当日无相似论文返回,延伸阅读段降级;HF 候选无 affiliations 字段,新作者扫描跳过。

📌 Top picks (交叉命中)

PersonalAI 2.0: Enhancing knowledge graph traversal/retrieval with planning mechanism for Personalized LLM Agents

arxiv:2605.13481 · HF #6、1 upvotes、score 7.4 · 命中:hf_trending_rank:6, watchlist_keyword:reasoning,agent, nice_to_have:benchmark,evaluation

  • 中文速读:知识图谱遍历驱动的 GraphRAG agent,6 个基准上 SOTA。
  • 入选理由:hf_trending:6 + watchlist:reasoning/agent + benchmark/evaluation 三命中,且自报在 6 个 RAG benchmark 上击败 LightRAG / RAPTOR / HippoRAG2。
  • 链接:https://arxiv.org/abs/2605.13481 · https://huggingface.co/papers/2605.13481

RealICU: Do LLM Agents Understand Long-Context ICU Data? A Benchmark Beyond Behavior Imitation

arxiv:2605.13542 · HF #5、3 upvotes、score 7.0 · 命中:hf_trending_rank:5, watchlist_keyword:reasoning,agent, nice_to_have:benchmark

  • 中文速读:MIMIC-IV 上的事后标注 ICU 推理基准,曝光 LLM 召回/锚定偏差。
  • 入选理由:hf_trending:5 + watchlist:reasoning/agent,把临床决策从模仿历史动作改成 hindsight 标注,方法层还配套 ICU-Evo 结构化记忆 agent。
  • 链接:https://arxiv.org/abs/2605.13542 · https://huggingface.co/papers/2605.13542

FrameSkip: Learning from Fewer but More Informative Frames in VLA Training

arxiv:2605.13757 · HF #8、19 upvotes、score 6.7 · 命中:hf_trending_rank:8, watchlist_keyword:inference,vla, nice_to_have:benchmark

  • 中文速读:VLA 训练帧筛选层,20% 帧把三基准平均成功率从 66.5 拉到 76.2。
  • 入选理由:hf_trending:8 + watchlist:inference/vla,纯 dataloader 改动不动架构、不改推理流程,跨 RoboCasa-GR1 / SimplerEnv / LIBERO 验证。
  • 链接:http://arxiv.org/abs/2605.13757v1 · https://huggingface.co/papers/2605.13757

Attention Once Is All You Need: Efficient Streaming Inference with Stateful Transformers

arxiv:2605.13784 · score 6.5 · 命中:watchlist_keyword:inference,kv cache,scheduler, nice_to_have:benchmark

  • 中文速读:持久 KV 流式推理引擎,query 延迟与上下文长度解耦,比 vLLM 等快 5.9×。
  • 入选理由:watchlist:inference/kv cache/scheduler 三命中,提出有状态会话 + Flash Queries 预算抢空 GPU 周期,配 cell-budget 多租户调度器。
  • 链接:http://arxiv.org/abs/2605.13784v1 · https://huggingface.co/papers/2605.13784

FlowCompile: An Optimizing Compiler for Structured LLM Workflows

arxiv:2605.13647 · score 6.5 · 命中:watchlist_keyword:reasoning,agent,inference, nice_to_have:benchmark

  • 中文速读:把 LLM workflow 当编译目标,离线产出多档延迟/准确度配置,最高 6.4× 提速。
  • 入选理由:watchlist:reasoning/agent/inference,从 routing 推到 compile-time DSE 的视角切换,给出可复用配置集而不是单点路由。
  • 链接:http://arxiv.org/abs/2605.13647v1 · https://huggingface.co/papers/2605.13647

Position: LLM Inference Should Be Evaluated as Energy-to-Token Production

arxiv:2605.11733 · HF #38、2 upvotes、score 6.5 · 命中:watchlist_keyword:reasoning,quantization,inference, nice_to_have:benchmark

  • 中文速读:主张以 joules/token 评测推理,把 KV 压缩与量化并入能效杠杆。
  • 入选理由:watchlist:reasoning/quantization/inference,position paper 级别号召,给 inference benchmark 增加 PUE 调整后的功耗维度。
  • 链接:https://arxiv.org/abs/2605.11733 · https://huggingface.co/papers/2605.11733

Offline Preference Optimization for Rectified Flow with Noise-Tracked Pairs

arxiv:2605.09433 · HF #9、6 upvotes、score 6.1 · 命中:hf_trending_rank:9, watchlist_keyword:dpo,preference optimization

  • 中文速读:RF 模型的 DPO:保留先验噪声对,训练算力下降仍提升对齐指标。
  • 入选理由:hf_trending:9 + watchlist:dpo/preference optimization,专为 rectified flow 的直线轨迹特性设计 prior-noise-aware 对齐范式。
  • 链接:https://arxiv.org/abs/2605.09433 · https://huggingface.co/papers/2605.09433

MemReread: Enhancing Agentic Long-Context Reasoning via Memory-Guided Rereading

arxiv:2605.10268 · HF #15、2 upvotes、score 5.5 · 命中:hf_trending_rank:15, watchlist_keyword:reasoning,agent

  • 中文速读:流式阅读 + RL 触发重读的长上下文 agent,绕开 retrieval 仍恢复证据。
  • 入选理由:hf_trending:15 + watchlist:reasoning/agent,对 memory-while-reading 范式补刀,主打 question decomposition 触发重读 + 线性时间。
  • 链接:https://arxiv.org/abs/2605.10268 · https://huggingface.co/papers/2605.10268

🏷 Watchlist 分类命中

agent / reasoning(4 篇)

inference / serving(4 篇)

vla / embodied(2 篇)

long-context / ICL(1 篇)

🔗 延伸阅读 (Semantic Scholar 相似论文)

本段今日无高置信度增量信号(S2 相似论文未返回)。Top picks 里仅 FAAST 一条带 s2_url 但 similar_papers 字段为 None,无法构造非空延伸阅读列表;已在 coverage_gaps 写入 s2_similar_unavailable

🧑‍🔬 新出现的作者 / 团队

本日发现扫描未发现达标候选人。HuggingFace Daily 抓回的 145 条候选 affiliations 字段全部为空数组,arXiv API 也未附机构信息,因此 paper_groups_seed.yaml 中 frontier-labs / oss-ai-labs / robotics-labs / systems-labs 四组匹配规则全部跳过。tracked_authors 名单同理未触发——本批次没有任何作者名直接命中 watchlist。

📉 覆盖缺口与不确定性

  • s2_similar_unavailable — Semantic Scholar Graph API 在 fetch 阶段未为 Top picks 返回 similar_papers,本日延伸阅读段空。
  • affiliations_absent_in_hf_metadata — HF Daily 抓取链路里候选机构字段全空,新作者 / 机构发现脚本无可消费证据,主动跳过。

来源与交叉验证说明

今日 arXiv + HuggingFace Daily 双源正常返回 145 条候选,Semantic Scholar 仅返回 4 条带 s2_url 的元数据且 similar_papers 全空——延伸阅读段落降级为空,已写入 coverage_gaps。

所有 Top picks 结论锚定 arXiv abstract(primary 源),HF trending 排名仅作热度参考、不当作结果证据;tldr_cn 由 abstract 压缩翻译,未引用 S2 tldr(本批次为空)。