递归推理：AI 的下一个 Scaling Law，不是更大，而是更深

🤖 AI 速览

核心判断：当预训练的边际收益递减，AI 的下一个数量级突破将来自"推理时的自我迭代"，而非"参数量的暴力堆砌"。一、最大的突破，不是来自更大的模型链接到标题 YC Podcast 上，投资人 Peter Steinberger 说了一句让全场安静的话： “The real breakthrough isn’t making models bigger, it’s making them think longer at test time.” 翻译过来就是：真正改变游戏规则的，不是把模型造得更大，而是让 …

📋 文章元数据

发布时间: 2026-05-02
类型: posts
标签: AI, 递归推理, Scaling Law, Test-Time Compute, 深度学习

核心判断：当预训练的边际收益递减，AI 的下一个数量级突破将来自"推理时的自我迭代"，而非"参数量的暴力堆砌"。

一、最大的突破，不是来自更大的模型链接到标题

YC Podcast 上，投资人 Peter Steinberger 说了一句让全场安静的话：

“The real breakthrough isn’t making models bigger, it’s making them think longer at test time.”

翻译过来就是：真正改变游戏规则的，不是把模型造得更大，而是让模型在推理时想得更久、更深。

这句话的冲击力在于，它直接挑战了过去三年 AI 行业最根深蒂固的信仰——Scaling Law。我们习惯了这样的叙事：只要堆更多参数、喂更多数据、烧更多 GPU，模型就会自然变聪明。GPT-3 到 GPT-4 的跃迁似乎证明了这一点。

但 2025 年的信号越来越清晰：预训练的边际收益正在递减。同样的算力投入，带来的能力提升曲线正在变平。当行业还在争论"下一个万亿参数模型什么时候来"时，一条新的曲线已经悄然上升——测试时计算扩展（Test-Time Compute Scaling），或者说，递归推理。

如果堆参数不是答案，那什么是？

答案是：让模型在推理时调用自身，像人类一样反复思考。

二、递归推理：不是 CoT 的改良，而是范式跃迁链接到标题

要理解递归推理，得先看清它不是什么。

思维链（Chain of Thought, CoT） 是第一步突破。它让模型把推理过程"说出来"，像解数学题时写下步骤一样。但 CoT 有个根本限制：它是线性的、单次的、不可回头的。模型从左写到右，一旦某个中间步骤出错，整个推理就可能崩塌。

递归推理 走的完全是另一条路。

2025 年 2 月，一篇题为 Scaling up test-time compute with latent reasoning: A recurrent depth approach 的论文（arXiv:2502.05171）提出了一个关键洞察：真正高效的推理，发生在模型的隐藏状态空间里，而不是 token 空间里。

这是什么意思？

想象两个画家。第一个画家（CoT）必须一笔一笔地在画布上画，每一笔都必须是可见的、可读的。画错了只能继续往下画，或者用更多笔触去掩盖。第二个画家（latent reasoning）则在脑海中先构建完整的画面——调整构图、修改光影、尝试不同配色——所有这些"思考"都发生在不可见的思维空间里。只有当画面在脑海中成熟后，才落笔到画布上。

latent reasoning 就是 AI 的"脑海中构图"。 模型在隐藏状态空间中反复迭代、自我修正、并行探索多条推理路径，最终只把最优结果输出为可读的 token。这不是 CoT 的升级版，这是从"说话式思考"到"静默式思考"的范式跃迁。

三、硬核验证：ARC-AGI-2 上的破纪录突破链接到标题

概念再漂亮，也需要硬碰硬的验证。2025 年，递归推理在 AI 领域最严苛的基准测试之一——ARC-AGI-2——上取得了突破性进展。

ARC-AGI-2 由 Keras 作者 François Chollet 发起，被认为是测试 AI 抽象推理能力的"黄金标准"。它不考知识储备，不考模式记忆，而是考从极少示例中领悟抽象规则并灵活应用的能力——这正是人类智能的核心，也是传统大模型的软肋。

Poetiq AI 团队开发的求解器（poetiq-ai/poetiq-arc-agi-solver）在该基准上取得了破纪录的成绩。他们的方法不是训练一个更大的模型去"记住"更多模式，而是在测试时动态搜索最优推理路径——让模型面对每个具体问题时，递归地尝试不同策略、评估中间结果、回溯并重新探索。

与此同时，DeepSeek 团队在 2025 年 4 月发表的论文 Inference-Time Scaling for Generalist Reward Modeling（arXiv:2504.02495）从另一个角度验证了这一趋势。他们证明，即使是通用的奖励模型，也能通过在测试时动态分配更多计算资源来显著提升性能。这意味着递归推理不是某个特定任务的技巧，而是可以泛化的能力扩展范式。

两条独立线索，指向同一个结论：测试时计算扩展已经在最严苛的基准上证明了其价值。

这里有一个值得细品的对比：ARC-AGI-2 的 leaderboard 上，一些极小规模的专用模型通过计算延展（compute scaling）——即在测试时投入更多推理轮次和搜索深度——击败了参数规模大上千倍的通用大模型。这不是"大力出奇迹"，而是"巧算胜蛮力"。它揭示了一个反直觉的事实：在需要抽象推理的任务上，推理时的计算投入可能比模型本身的参数量更具决定性。

四、从数据中心到边缘设备：递归推理的扩散路径链接到标题

一个技术趋势是否真正成立，要看它能否从实验室扩散到真实场景。递归推理正在展现令人惊讶的扩散速度。

边缘设备上的递归微网络（stockeh/mlx-trm）是一个标志性项目。它基于 Apple 的 MLX 框架，在 Apple Silicon 上实现了 Transformer 的递归深度展开。这意味着你的 MacBook、iPad 甚至 iPhone，理论上都能运行"深思熟虑"的 AI——不是通过云端的大模型，而是通过本地设备的测试时计算扩展。

Agent 场景 是另一个先行落地场。DeepRecall 引擎（kothapavan1998/deeprecall）专门为 AI Agent 设计了"深度回忆"机制：当 Agent 面对复杂任务时，它可以递归地调用自身进行子问题分解、反思中间结果、动态调整策略。这不再是"输入-输出"的单次交互，而是一个能够自我对话、自我修正的思考循环。

更有趣的是 Sakana AI 的生存模拟器。在这个项目中，递归进化的 AI Agents 在复杂环境中展现出真正的涌现行为——它们不是按照预设规则行动，而是通过测试时的模拟和试错，自主学会复杂策略。Two Minute Papers 在介绍这个项目时说了一句很到位的话：这些 Agents “不是被编程去解决问题，而是被赋予能力去自己发现解决方案”。

五、当 AI 学会"睡眠时思考" 链接到标题

递归推理的边界还在快速外推。

2025 年 4 月，一篇题为 Sleep-Time Compute: Beyond Inference Scaling at Test-Time（arXiv:2504.13171）的论文提出了一个激进的概念：睡眠时计算。其核心思想是：让模型在"空闲"期间预先计算可能的推理路径并缓存结果，从而在实际推理时实现即时响应。

这听起来像科幻，但逻辑很清晰。人类在睡觉时会巩固记忆、整理思绪；AI 为什么不能在"空闲"时做类似的"预思考"？当训练与推理的边界开始消融，我们可能需要重新定义"思考"本身——它不再是一次性的计算过程，而是一个持续的、分层的、预计算与实时推理交织的动态系统。

这对强化学习后训练范式也有深远影响。如果奖励模型本身可以通过测试时计算扩展来提升判断精度，那么 RLHF（人类反馈强化学习）的整个流程都可能被重塑——不是训练一个"更懂人类偏好"的静态模型，而是让模型在每次判断时都投入更多计算资源去"理解"上下文。

六、结语：Scaling Law 没有死，只是换了赛道链接到标题

回到开头的问题：递归推理正在取代参数规模成为新的 Scaling Law 吗？

我的判断是：不是取代，而是接力。

预训练 Scaling Law 没有死——它完成了自己的历史使命，把 AI 从"不可用"推到了"可用"。但下一程的接力棒，已经交到了测试时计算扩展手中。

三个信号已经清晰：

竞赛突破：ARC-AGI-2 上的破纪录成绩证明，递归推理能解决传统方法束手无策的问题
工业验证：DeepSeek 的奖励模型扩展证明，这不是个案，而是可泛化的范式
边缘落地：从 MLX 微网络到 DeepRecall Agent，递归推理正在走出数据中心，进入真实产品

当然，递归推理并非万能钥匙。它带来收益的同时，也伴随着真实的工程约束：首字延迟（TTFT, Time-To-First-Token）会显著增加——模型需要先在隐藏状态空间里完成多轮迭代，才能输出第一个 token；推理成本的算力消耗也会上升——每一次递归展开都是实打实的计算开销。因此，递归推理的适用范围存在天然边界：在数学证明、代码调试、逻辑谜题等结构化推理任务上收益最高，因为多轮迭代能有效纠正中间错误；而在开放域创意写作、闲聊对话等生成类任务上，收益相对有限——用户通常不愿为了一点质量提升等待更久。

最后，我想留给你一个问题——不是答案，而是一个开放的追问：

当 AI 可以无限递归地思考，当"思考"不再受限于单次前向传播的时间边界，“思考"本身的定义，是否需要重写？

人类的思考受限于生物学上的时间、能量和注意力。AI 的思考，可能正在突破这些限制。这不是关于 AI 会不会超越人类的问题——这是关于当"思考"成为一种可以任意扩展的计算资源时，智能的本质是什么的问题。

而这个问题，或许比任何技术突破都更值得深思。

参考来源

Steinberger, P. (2025). YC Podcast 访谈. 核心引用: “The real breakthrough isn’t making models bigger, it’s making them think longer at test time.”
latent reasoning: A recurrent depth approach. arXiv:2502.05171. https://arxiv.org/abs/2502.05171
DeepSeek: Inference-Time Scaling for Generalist Reward Modeling. arXiv:2504.02495. https://arxiv.org/abs/2504.02495
Sleep-Time Compute: Beyond Inference Scaling at Test-Time. arXiv:2504.13171. https://arxiv.org/abs/2504.13171
Poetiq AI. poetiq-arc-agi-solver. https://github.com/poetiq-ai/poetiq-arc-agi-solver
stockeh. mlx-trm. https://github.com/stockeh/mlx-trm
kothapavan1998. deeprecall. https://github.com/kothapavan1998/deeprecall
Two Minute Papers. Sakana AI’s Survival Simulator Is Brilliant. https://www.youtube.com/watch?v=QzZ4VwDHAT4
Chollet, F. ARC-AGI-2. https://github.com/arcprize/ARC-AGI-2

本文完成于 2026-05-02 | Content OS Phase 4 成稿 | 任务单号: TOPIC-B-20260502

🤖 AI 速览

一、最大的突破，不是来自更大的模型 链接到标题

二、递归推理：不是 CoT 的改良，而是范式跃迁 链接到标题

三、硬核验证：ARC-AGI-2 上的破纪录突破 链接到标题

四、从数据中心到边缘设备：递归推理的扩散路径 链接到标题