论文雷达日报｜2026-05-16

一句话结论：本日 126 篇候选高度集中在「reasoning + agent + 评测 benchmark」三主轴，HF Daily 头部两篇 (WildTableBench、Lighthouse Attention) 与 arXiv 多篇视觉推理 / 测试时缩放工作交叉命中——是新一轮 evaluation infra & inference-time scaling 周期。

摘要

主线一：评测 infrastructure 集中爆发。 Top 8 里 5 篇都是 benchmark / 评测框架（WildTableBench, CurveBench, MemEye, Talk is (Not) Cheap, ATLAS 评估），覆盖野生表格、拓扑推理、agent 记忆、LLM 攻击四个空白点。
主线二：test-time compute / inference-time scaling 持续走热。 OpenDeepThink (Bradley-Terry 并行选择) 与 Dual-Dimensional Consistency (DDC) 同日推出，分别从 selection bottleneck 与 budget-quality trade-off 两个角度切入，建议合读。
主线三：HF Daily 头部分布与 arXiv 新鲜度并行。 HF trending #1-3 (Spherical Flow Matching, WildTableBench, Lighthouse Attention) 全部进入 Top 12，arXiv 新预印本 (15040-15198 段) 也密集贡献，说明今日不是单源驱动。
主线四：watchlist 长尾命中分布健康。 reasoning (27) / agent (27) / inference (17) 主导，长尾 dpo / vla / quantization / world model / moe 各 2 篇，缺乏 long-context 大爆点（仅 Lighthouse Attention 1 篇）。
数据健康度： 三源全部返回（arxiv 83 / hf 25 / arxiv+hf 14 / hf+s2 4），S2 端 metadata 仅 4 篇有 tldr 与 url，相似论文图谱基本不可用——故本日延伸阅读为空。

📌 Top picks (交叉命中)

WildTableBench: Benchmarking Multimodal Foundation Models on Table Understanding In the Wild（HF #2 / 6 upvotes / 同时被 S2 索引） → 首个野外表格图像 QA benchmark，评测 21 个前沿 MFM。

CurveBench: A Benchmark for Exact Topological Reasoning over Nested Jordan Curves（HF #14 / 6 upvotes / 视觉拓扑推理空白点） → 756 张 Jordan 曲线图像测拓扑容纳树预测。

ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both（HF #46 / 17 upvotes / cs.CV+CL+AI 三栖） → 一种触发词让同模型在 agentic 与 latent 视觉推理间切换。

OpenDeepThink: Parallel Reasoning via Bradley–Terry Aggregation（arXiv only / cs.AI / test-time compute 直接命中） → 用 Bradley-Terry 成对比较突破并行采样的选择瓶颈。

MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory（HF #35 / 47 upvotes / MIT+Meta 署名 hint） → 评测 agent 是否真保留下游所需的视觉证据。

Talk is (Not) Cheap: A Taxonomy and Benchmark Coverage Audit for LLM Attacks（arXiv only / cs.CR+CL / 4×6 STRIDE 矩阵） → 用 507 叶分类树审计 LLM 攻击 benchmark 集体覆盖。

Dual-Dimensional Consistency: Balancing Budget and Quality in Adaptive Inference-Time Scaling（arXiv only / 推理时缩放主轴） → 把采样宽度与深度统一成 dual-dim 一致性目标。

Orchard: An Open-Source Agentic Modeling Framework（arXiv only / Baolin Peng / Wenlin Yao 署名） → 开源 agentic 训练框架，对标闭源 codebase 的训练侧缺口。

🏷 Watchlist 分类命中

reasoning / agent（主轴，27+27 命中）

未进 Top 8 的强候选：

Long Context Pre-Training with Lighthouse Attention — HF #3 / S2 已索引；提出训练期对称选择型分层注意力，long-context 主题今日唯一爆点。
MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models — HF #28；与 Top 5 的 MemEye 同主题，互补的 long-term 视角。
Aligning Latent Geometry for Spherical Flow Matching in Image Generation — HF #1（trending 之首，但仅 dpo 关键词命中，归类生成而非推理，留 watchlist）。

inference / test-time scaling（17 命中）

已由 OpenDeepThink + DDC 在 Top picks 覆盖；剩余多为应用论文，本段不再展开。

长尾主题（dpo / vla / quantization / world model / moe，各 2 篇）

VLA：IntentVLA (2605.14712)、Hand-in-the-Loop (2605.15157) — 机器人操作策略层增量，未交叉命中 HF trending。
Quantization：Forgetting That Sticks (2605.15138, 量化-永久遗忘 unlearning)、Outlier Injection 攻击 (2605.15152) — 两端视角少见同日出现。
World model：Geometric-Consistency 评估 (2605.15185) + Causal Forcing++ (2605.15141) — 视频世界模型的「评测 + 蒸馏」组合。
MoE：HiSem (2605.15024)、稀疏 MoE 多物理 (2605.15179) — 应用域 MoE，非新架构。

🔗 延伸阅读 (Semantic Scholar 相似论文)

本段今日无高置信度增量信号（S2 相似论文未返回——126 篇候选中仅 4 篇有 s2_url，相似图谱不可用）。

🧑‍🔬 新出现的作者 / 团队

本日发现扫描未发现达标候选人。候选 JSON 的 affiliations 字段普遍为空（HF Daily 与 arXiv abs 页都不附机构），且现有 tracked_authors / tracked_affiliations 未在 Top 8 直接命中——按 discovery_rules.md 不为凑数硬塞。

但有两条值得放进后续观察：

Baolin Peng / Wenlin Yao / Qianhui Wu / Hao Cheng（Orchard 作者列）— 此前在 Microsoft Research 系工作过，本次开源 agentic 框架值得后续追踪。
Junzhe Huang / Xiaoxiao Sun（WildTableBench 一作 / 二作）— HF #2 trending 同日开榜，团队归属待人工 review。

📉 覆盖缺口与不确定性

s2_similar_unavailable：S2 metadata 端今日 4/126 命中率，相似论文图谱不可用——延伸阅读段空缺。
affiliations_missing_globally：候选 JSON 的 affiliations 字段几乎全空，新作者发现段无法基于机构归属做交叉验证，只能给出弱信号 hint。
citation_layer_too_fresh：本日 Top 8 全部 citation_count=0 或 null（皆为新预印本），按 source policy 不作为降权理由，但意味着「引用速率」维度今日无信号。

来源与交叉验证说明

本期数据来自三源 (arXiv 83 + HF Daily 25 + arXiv∩HF 14 + HF∩S2 4)，总候选 126。结论锚在 primary (arXiv 原文 abstract)，HF trending 仅作 curated 排序信号，S2 仅作 metadata 补充。无单源 fatal 降级，但 S2 tldr / similar 覆盖率偏低，延伸阅读段相应空缺。seen-pool 14 天回看 252 条历史，本日 0 篇 seen_before=true——候选完全 fresh。

Hanzhi's BLOG

[论文·2026-05-16]