← 返回主报告：[市场·2026-05-14] Politics

论文层 — 2026-05-14

paper-digest 2026-05-14 [日报 JSON](file:///home/.oh-my-agent/reports/paper-digest/daily/2026-05-14.json) 已落盘并被本次 market-briefing 完整消费（8 条 top_picks）。主线两轴：(1) agent / VLA / 长上下文方法层 —— PersonalAI 2.0 把 GraphRAG agent 推到 6 基准 SOTA、FrameSkip 用 20% 帧把 VLA 三基准平均成功率从 66.5 拉到 76.2、MemReread 用 RL 触发流式重读绕过 retrieval 仍能恢复证据；(2) 推理 / 编译 / 能效层 —— “Attention Once Is All You Need” 让流式推理引擎延迟与上下文长度解耦、对 vLLM 类基线 5.9× 提速；FlowCompile 把 LLM workflow 当编译目标多档位最高 6.4×；“LLM Inference Should Be Evaluated as Energy-to-Token Production” 主张 joules/token 作为新评估单位。

技术信号（paper-digest 未覆盖）：Matt Pocock 的 GitHub trending #1 mattpocock/skills 仓库把 .claude skills 工程化方法学开源，配合 Releasebot 5/13 Anthropic Claude for Small Business 15 skills bundle 在 SMB / vertical 侧形成 skills 生态; Simon Willison 5/12 发布 llm 0.32a2 + datasette 1.0a29，把 LLM CLI 工具链推进。

papers_consumed_from_paper_digest

2605.13481 PersonalAI 2.0 — 知识图谱遍历驱动的 GraphRAG agent，6 个基准上 SOTA。market-briefing 角度：GraphRAG 仍在 agent 上下文 / 个性化方向卷新基准。
2605.13542 RealICU — MIMIC-IV 上的事后标注 ICU 推理基准，曝光 LLM 召回 / 锚定偏差。market-briefing 角度：医疗 / 高风险垂直 benchmark 仍是 LLM 部署 gating，application 层观察点。
2605.13757 FrameSkip — VLA 训练帧筛选层，20% 帧把三基准平均成功率从 66.5 → 76.2。market-briefing 角度：robotics / VLA 训练成本 / 数据效率敏感，对应 application 层 robotics 子线。
2605.13784 Attention Once Is All You Need — 持久 KV 流式推理引擎，query 延迟与上下文长度解耦，比 vLLM 等快 5.9×。market-briefing 角度：infra / serving 端长上下文 token 经济学拐点，对 chips / infra 都有外溢。
2605.13647 FlowCompile — 把 LLM workflow 当编译目标，离线产出多档延迟 / 准确度配置，最高 6.4× 提速。market-briefing 角度：agent / workflow 优化进入编译器视角，与 Anthropic skills / Pocock 工程化方向共振。
2605.11733 LLM Inference Should Be Evaluated as Energy-to-Token Production — 主张以 joules/token 评测推理，把 KV 压缩与量化并入能效杠杆。market-briefing 角度：把推理评估 hook 进 energy 层（与 Meta 6.6 GW 核电 / NVIDIA Solstice 100K Blackwell GPU 形成 token 经济学闭环）。
2605.09433 Offline Preference Optimization for Rectified Flow with Noise-Tracked Pairs — RF 模型的 DPO：保留先验噪声对，训练算力下降仍提升对齐指标。market-briefing 角度：image/video 模型对齐节奏（与 Meta Mango image/video 模型 + Mistral Voxtral 共振）。
2605.10268 MemReread — 流式阅读 + RL 触发重读的长上下文 agent，绕开 retrieval 仍恢复证据。market-briefing 角度：long-context agent 不依赖外置检索的新路径，与 Anthropic Claude 长上下文路线和 OpenAI memory 路线对位。

technical_signals（非 paper-digest 覆盖）

Matt Pocock skills 仓库登 GitHub trending #1（5/13 周窗口）：把 .claude skills 工程化方法学开源，强调 “real engineering” 取代 “vibe coding”，包含 diagnose / tdd / grill-me 等 skills。与 Anthropic Claude for Small Business 同窗口的 15 个 ready-to-run skills bundle 形成 skills 生态共振。来源：GitHub mattpocock/skills + AIToolly 5/2 复盘 + askglitch GitHub trending 周报。
Simon Willison llm 0.32a2 + datasette 1.0a29（5/12）：llm 工具链 LLM CLI 子项目 + datasette 1.0a29，5/13 Datasette 官博正式上线，OSS LLM tooling 持续节奏。

Hanzhi's BLOG

[市场·2026-05-14] Paper Layer

论文层 — 2026-05-14

papers_consumed_from_paper_digest

technical_signals（非 paper-digest 覆盖）