论文雷达日报|2026-05-16
一句话结论:本日 126 篇候选高度集中在「reasoning + agent + 评测 benchmark」三主轴,HF Daily 头部两篇 (WildTableBench、Lighthouse Attention) 与 arXiv 多篇视觉推理 / 测试时缩放工作交叉命中——是新一轮 evaluation infra & inference-time scaling 周期。
摘要
- 主线一:评测 infrastructure 集中爆发。 Top 8 里 5 篇都是 benchmark / 评测框架(WildTableBench, CurveBench, MemEye, Talk is (Not) Cheap, ATLAS 评估),覆盖野生表格、拓扑推理、agent 记忆、LLM 攻击四个空白点。
- 主线二:test-time compute / inference-time scaling 持续走热。 OpenDeepThink (Bradley-Terry 并行选择) 与 Dual-Dimensional Consistency (DDC) 同日推出,分别从 selection bottleneck 与 budget-quality trade-off 两个角度切入,建议合读。
- 主线三:HF Daily 头部分布与 arXiv 新鲜度并行。 HF trending #1-3 (Spherical Flow Matching, WildTableBench, Lighthouse Attention) 全部进入 Top 12,arXiv 新预印本 (15040-15198 段) 也密集贡献,说明今日不是单源驱动。
- 主线四:watchlist 长尾命中分布健康。 reasoning (27) / agent (27) / inference (17) 主导,长尾 dpo / vla / quantization / world model / moe 各 2 篇,缺乏 long-context 大爆点(仅 Lighthouse Attention 1 篇)。
- 数据健康度: 三源全部返回(arxiv 83 / hf 25 / arxiv+hf 14 / hf+s2 4),S2 端 metadata 仅 4 篇有 tldr 与 url,相似论文图谱基本不可用——故本日延伸阅读为空。
📌 Top picks (交叉命中)
WildTableBench: Benchmarking Multimodal Foundation Models on Table Understanding In the Wild(HF #2 / 6 upvotes / 同时被 S2 索引) → 首个野外表格图像 QA benchmark,评测 21 个前沿 MFM。
CurveBench: A Benchmark for Exact Topological Reasoning over Nested Jordan Curves(HF #14 / 6 upvotes / 视觉拓扑推理空白点) → 756 张 Jordan 曲线图像测拓扑容纳树预测。
ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both(HF #46 / 17 upvotes / cs.CV+CL+AI 三栖) → 一种触发词让同模型在 agentic 与 latent 视觉推理间切换。
OpenDeepThink: Parallel Reasoning via Bradley–Terry Aggregation(arXiv only / cs.AI / test-time compute 直接命中) → 用 Bradley-Terry 成对比较突破并行采样的选择瓶颈。
MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory(HF #35 / 47 upvotes / MIT+Meta 署名 hint) → 评测 agent 是否真保留下游所需的视觉证据。
Talk is (Not) Cheap: A Taxonomy and Benchmark Coverage Audit for LLM Attacks(arXiv only / cs.CR+CL / 4×6 STRIDE 矩阵) → 用 507 叶分类树审计 LLM 攻击 benchmark 集体覆盖。
Dual-Dimensional Consistency: Balancing Budget and Quality in Adaptive Inference-Time Scaling(arXiv only / 推理时缩放主轴) → 把采样宽度与深度统一成 dual-dim 一致性目标。
Orchard: An Open-Source Agentic Modeling Framework(arXiv only / Baolin Peng / Wenlin Yao 署名) → 开源 agentic 训练框架,对标闭源 codebase 的训练侧缺口。
🏷 Watchlist 分类命中
reasoning / agent(主轴,27+27 命中)
未进 Top 8 的强候选:
- Long Context Pre-Training with Lighthouse Attention — HF #3 / S2 已索引;提出训练期对称选择型分层注意力,long-context 主题今日唯一爆点。
- MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models — HF #28;与 Top 5 的 MemEye 同主题,互补的 long-term 视角。
- Aligning Latent Geometry for Spherical Flow Matching in Image Generation — HF #1(trending 之首,但仅 dpo 关键词命中,归类生成而非推理,留 watchlist)。
inference / test-time scaling(17 命中)
- 已由 OpenDeepThink + DDC 在 Top picks 覆盖;剩余多为应用论文,本段不再展开。
长尾主题(dpo / vla / quantization / world model / moe,各 2 篇)
- VLA:IntentVLA (2605.14712)、Hand-in-the-Loop (2605.15157) — 机器人操作策略层增量,未交叉命中 HF trending。
- Quantization:Forgetting That Sticks (2605.15138, 量化-永久遗忘 unlearning)、Outlier Injection 攻击 (2605.15152) — 两端视角少见同日出现。
- World model:Geometric-Consistency 评估 (2605.15185) + Causal Forcing++ (2605.15141) — 视频世界模型的「评测 + 蒸馏」组合。
- MoE:HiSem (2605.15024)、稀疏 MoE 多物理 (2605.15179) — 应用域 MoE,非新架构。
🔗 延伸阅读 (Semantic Scholar 相似论文)
本段今日无高置信度增量信号(S2 相似论文未返回——126 篇候选中仅 4 篇有 s2_url,相似图谱不可用)。
🧑🔬 新出现的作者 / 团队
本日发现扫描未发现达标候选人。候选 JSON 的 affiliations 字段普遍为空(HF Daily 与 arXiv abs 页都不附机构),且现有 tracked_authors / tracked_affiliations 未在 Top 8 直接命中——按 discovery_rules.md 不为凑数硬塞。
但有两条值得放进后续观察:
- Baolin Peng / Wenlin Yao / Qianhui Wu / Hao Cheng(Orchard 作者列)— 此前在 Microsoft Research 系工作过,本次开源 agentic 框架值得后续追踪。
- Junzhe Huang / Xiaoxiao Sun(WildTableBench 一作 / 二作)— HF #2 trending 同日开榜,团队归属待人工 review。
📉 覆盖缺口与不确定性
- s2_similar_unavailable:S2 metadata 端今日 4/126 命中率,相似论文图谱不可用——延伸阅读段空缺。
- affiliations_missing_globally:候选 JSON 的
affiliations字段几乎全空,新作者发现段无法基于机构归属做交叉验证,只能给出弱信号 hint。 - citation_layer_too_fresh:本日 Top 8 全部
citation_count=0或 null(皆为新预印本),按 source policy 不作为降权理由,但意味着「引用速率」维度今日无信号。
来源与交叉验证说明
本期数据来自三源 (arXiv 83 + HF Daily 25 + arXiv∩HF 14 + HF∩S2 4),总候选 126。结论锚在 primary (arXiv 原文 abstract),HF trending 仅作 curated 排序信号,S2 仅作 metadata 补充。无单源 fatal 降级,但 S2 tldr / similar 覆盖率偏低,延伸阅读段相应空缺。seen-pool 14 天回看 252 条历史,本日 0 篇 seen_before=true——候选完全 fresh。