[市场·2026-05-16] Paper Layer

← 返回主报告:[市场·2026-05-16] Politics

Paper layer — 2026-05-16

来源:paper-digest 日报 2026-05-16.json(126 候选 / 8 Top picks),主轴为 reasoning + agent + evaluation benchmark,与 inference-time scaling 周期高度叠加。本节聚焦"对市场叙事有杠杆的子集",并补充论文层不会覆盖的工具 / 开源权重 / agentic 框架信号。

一、Papers consumed from paper-digest

1. WildTableBench — 野外表格图像 QA benchmark

  • arXiv: 2605.01018
  • TL;DR:首个野外表格图像 QA benchmark,评 21 个前沿 MFM。
  • Why in market briefing:HF Daily 头部(#2 trending)且 S2 已索引,对应"evaluation infra cycle"主轴——MFM 厂商下一轮 leaderboard 竞赛会被迫接入野外表格场景,对企业 BI / 文档智能采购方是新增能力门槛。

2. CurveBench — Jordan 曲线拓扑推理 benchmark

  • arXiv: 2605.14068
  • TL;DR:756 张 Jordan 曲线图测拓扑容纳树预测。
  • Why in market briefing:视觉拓扑推理的空白点,给"reasoning benchmark 多样化"叙事补一个独立分布——能戳穿仅靠 chain-of-thought 提分的模型,对推理模型采买侧是有价值的鉴别器。

3. ATLAS — agentic / latent 视觉推理单词切换

  • arXiv: 2605.15198v1
  • TL;DR:一个触发词让同模型切换 agentic / latent 视觉推理。
  • Why in market briefing:HF 17 upvotes + cs.CV/CL/AI 三栖,落在 agentic tooling pressure 叙事——同一权重通过 prompt 切换两种推理模式,是头部多模态厂商压低 agentic 模型 SKU 数量的低成本路径。

4. OpenDeepThink — Bradley-Terry 并行采样聚合

  • arXiv: 2605.15177v1
  • TL;DR:用 Bradley-Terry 成对比较破并行采样选择瓶颈。
  • Why in market briefing:inference-time scaling 主轴直击——并行采样的"挑选"环节是推理服务成本曲线的瓶颈,Bradley-Terry 路线如果跑通,会改写 best-of-N / verifier 类产品的单 token 经济学。

5. MemEye — 多模态 agent 记忆评测

  • arXiv: 2605.15128v1
  • TL;DR:评测 agent 是否真保留下游所需视觉证据。
  • Why in market briefing:HF 47 upvotes 全日最热,对应 agentic memory 评测稀缺——agent 产品营销层的"记忆"宣称缺第三方鉴别器,MemEye 是甲方采购清单的潜在新增项。

6. Talk is (Not) Cheap — LLM 攻击 benchmark 覆盖审计

  • arXiv: 2605.15118v1
  • TL;DR:507 叶 STRIDE 分类树审计 LLM 攻击 benchmark 覆盖。
  • Why in market briefing:安全侧首个 benchmark-of-benchmarks 审计,对应"AI 治理 / red-team 采购"叙事——监管侧引用现有 benchmark 时这是一个"覆盖率打折"参考点。

7. Dual-Dimensional Consistency — adaptive inference-time scaling

  • arXiv: 2605.15100v1
  • TL;DR:统一宽度与深度成 dual-dim 一致性目标。
  • Why in market briefing:与 OpenDeepThink 同日补 budget-quality 视角,inference-time scaling 周期内"width × depth"联合调度的两条独立证据,加强本周 test-time compute 主线的方向性确认。

8. Orchard — 开源 agentic 训练框架

  • arXiv: 2605.15040v1
  • TL;DR:开源 agentic 训练框架,补开源训练侧缺口。
  • Why in market briefing:直接对标闭源 agentic post-train 栈,Baolin Peng / Wenlin Yao 历史署名加权——对开源 agentic 训练侧是"工具链补全"信号,挤压闭源 SFT 服务商溢价。

二、Technical signals(paper-digest 不会覆盖)

  1. Qwen3.6-35B-A3B 开源权重落地:阿里开源 35B-A3B 类推理模型,自带 “thinking preservation” 机制,原生 ~1M context 与多步 agent loop / KV-cache 效率优化。对开源 agentic 栈是 Orchard 训练框架之外的权重侧补齐,挤压中端闭源推理模型 API 定价。

  2. Codex CLI Chrome 扩展更新:OpenAI Codex CLI 加入 Chrome 扩展,把测试 / DevTools 工作流接入浏览器侧。落在"agentic IDE / 浏览器 agent"竞争面,与 Browser Use / OpenClaw 类项目正面竞争入口位置。

  3. GitHub agentic / 本地 LLM 项目超大幅放量:OpenClaw 突破 30 万 stars、n8n 越过 18 万,Ollama / Dify / Open WebUI / Browser Use / 官方 MCP 仓库 4 月同步放量,验证 agentic 工作流 + 本地推理底座 + MCP 生态三轴同时升温——对 SaaS agent 厂商的"自托管替代"压力进一步加大。

备注

  • paper-digest 2026-05-16.jsonarxiv_id 形如 2605.xxxxx,与正式 arXiv 编号规则不完全匹配,本节按 paper-digest 字段原样透传,arxiv_url 以 paper-digest 提供为准。