← 返回主报告：[市场·2026-05-16] Politics

Paper layer — 2026-05-16

来源：paper-digest 日报 2026-05-16.json（126 候选 / 8 Top picks），主轴为 reasoning + agent + evaluation benchmark，与 inference-time scaling 周期高度叠加。本节聚焦"对市场叙事有杠杆的子集"，并补充论文层不会覆盖的工具 / 开源权重 / agentic 框架信号。

一、Papers consumed from paper-digest

1. WildTableBench — 野外表格图像 QA benchmark

arXiv: 2605.01018
TL;DR：首个野外表格图像 QA benchmark，评 21 个前沿 MFM。
Why in market briefing：HF Daily 头部（#2 trending）且 S2 已索引，对应"evaluation infra cycle"主轴——MFM 厂商下一轮 leaderboard 竞赛会被迫接入野外表格场景，对企业 BI / 文档智能采购方是新增能力门槛。

2. CurveBench — Jordan 曲线拓扑推理 benchmark

arXiv: 2605.14068
TL;DR：756 张 Jordan 曲线图测拓扑容纳树预测。
Why in market briefing：视觉拓扑推理的空白点，给"reasoning benchmark 多样化"叙事补一个独立分布——能戳穿仅靠 chain-of-thought 提分的模型，对推理模型采买侧是有价值的鉴别器。

3. ATLAS — agentic / latent 视觉推理单词切换

arXiv: 2605.15198v1
TL;DR：一个触发词让同模型切换 agentic / latent 视觉推理。
Why in market briefing：HF 17 upvotes + cs.CV/CL/AI 三栖，落在 agentic tooling pressure 叙事——同一权重通过 prompt 切换两种推理模式，是头部多模态厂商压低 agentic 模型 SKU 数量的低成本路径。

4. OpenDeepThink — Bradley-Terry 并行采样聚合

arXiv: 2605.15177v1
TL;DR：用 Bradley-Terry 成对比较破并行采样选择瓶颈。
Why in market briefing：inference-time scaling 主轴直击——并行采样的"挑选"环节是推理服务成本曲线的瓶颈，Bradley-Terry 路线如果跑通，会改写 best-of-N / verifier 类产品的单 token 经济学。

5. MemEye — 多模态 agent 记忆评测

arXiv: 2605.15128v1
TL;DR：评测 agent 是否真保留下游所需视觉证据。
Why in market briefing：HF 47 upvotes 全日最热，对应 agentic memory 评测稀缺——agent 产品营销层的"记忆"宣称缺第三方鉴别器，MemEye 是甲方采购清单的潜在新增项。

6. Talk is (Not) Cheap — LLM 攻击 benchmark 覆盖审计

arXiv: 2605.15118v1
TL;DR：507 叶 STRIDE 分类树审计 LLM 攻击 benchmark 覆盖。
Why in market briefing：安全侧首个 benchmark-of-benchmarks 审计，对应"AI 治理 / red-team 采购"叙事——监管侧引用现有 benchmark 时这是一个"覆盖率打折"参考点。

7. Dual-Dimensional Consistency — adaptive inference-time scaling

arXiv: 2605.15100v1
TL;DR：统一宽度与深度成 dual-dim 一致性目标。
Why in market briefing：与 OpenDeepThink 同日补 budget-quality 视角，inference-time scaling 周期内"width × depth"联合调度的两条独立证据，加强本周 test-time compute 主线的方向性确认。

8. Orchard — 开源 agentic 训练框架

arXiv: 2605.15040v1
TL;DR：开源 agentic 训练框架，补开源训练侧缺口。
Why in market briefing：直接对标闭源 agentic post-train 栈，Baolin Peng / Wenlin Yao 历史署名加权——对开源 agentic 训练侧是"工具链补全"信号，挤压闭源 SFT 服务商溢价。

二、Technical signals（paper-digest 不会覆盖）

Qwen3.6-35B-A3B 开源权重落地：阿里开源 35B-A3B 类推理模型，自带 “thinking preservation” 机制，原生 ~1M context 与多步 agent loop / KV-cache 效率优化。对开源 agentic 栈是 Orchard 训练框架之外的权重侧补齐，挤压中端闭源推理模型 API 定价。
- 证据：Best Open-Source LLM Models in 2026 — HuggingFace blog、Best Open-Source LLMs for Agentic Coding 2026 — MindStudio
Codex CLI Chrome 扩展更新：OpenAI Codex CLI 加入 Chrome 扩展，把测试 / DevTools 工作流接入浏览器侧。落在"agentic IDE / 浏览器 agent"竞争面，与 Browser Use / OpenClaw 类项目正面竞争入口位置。
- 证据：AI-Coding-Landscape GitHub repo、Top Agentic AI Coding Tools 2026 — akoode
GitHub agentic / 本地 LLM 项目超大幅放量：OpenClaw 突破 30 万 stars、n8n 越过 18 万，Ollama / Dify / Open WebUI / Browser Use / 官方 MCP 仓库 4 月同步放量，验证 agentic 工作流 + 本地推理底座 + MCP 生态三轴同时升温——对 SaaS agent 厂商的"自托管替代"压力进一步加大。
- 证据：Top 10 Open-Source AI Projects Trending on GitHub 2026 — buildmvpfast、awesome-ai-agents-2026 (caramaschiHG)

备注

paper-digest 2026-05-16.json 的 arxiv_id 形如 2605.xxxxx，与正式 arXiv 编号规则不完全匹配，本节按 paper-digest 字段原样透传，arxiv_url 以 paper-digest 提供为准。

Hanzhi's BLOG

[市场·2026-05-16] Paper Layer

Paper layer — 2026-05-16

一、Papers consumed from paper-digest

1. WildTableBench — 野外表格图像 QA benchmark

2. CurveBench — Jordan 曲线拓扑推理 benchmark

3. ATLAS — agentic / latent 视觉推理单词切换

4. OpenDeepThink — Bradley-Terry 并行采样聚合

5. MemEye — 多模态 agent 记忆评测

6. Talk is (Not) Cheap — LLM 攻击 benchmark 覆盖审计

7. Dual-Dimensional Consistency — adaptive inference-time scaling

8. Orchard — 开源 agentic 训练框架

二、Technical signals（paper-digest 不会覆盖）

备注