🤖 AI 速览

核心判断:当预训练的边际收益递减,AI 的下一个数量级突破将来自"推理时的自我迭代",而非"参数量的暴力堆砌"。 一、最大的突破,不是来自更大的模型 链接到标题 YC Podcast 上,投资人 Peter Steinberger 说了一句让全场安静的话: “The real breakthrough isn’t making models bigger, it’s making them think longer at test time.” 翻译过来就是:真正改变游戏规则的,不是把模型造得更大,而是让 …
📋 文章元数据
发布时间
2026-05-02
类型
posts
标签
AI, 递归推理, Scaling Law, Test-Time Compute, 深度学习

核心判断:当预训练的边际收益递减,AI 的下一个数量级突破将来自"推理时的自我迭代",而非"参数量的暴力堆砌"。


一、最大的突破,不是来自更大的模型 链接到标题

YC Podcast 上,投资人 Peter Steinberger 说了一句让全场安静的话:

“The real breakthrough isn’t making models bigger, it’s making them think longer at test time.”

翻译过来就是:真正改变游戏规则的,不是把模型造得更大,而是让模型在推理时想得更久、更深。

这句话的冲击力在于,它直接挑战了过去三年 AI 行业最根深蒂固的信仰——Scaling Law。我们习惯了这样的叙事:只要堆更多参数、喂更多数据、烧更多 GPU,模型就会自然变聪明。GPT-3 到 GPT-4 的跃迁似乎证明了这一点。

但 2025 年的信号越来越清晰:预训练的边际收益正在递减。同样的算力投入,带来的能力提升曲线正在变平。当行业还在争论"下一个万亿参数模型什么时候来"时,一条新的曲线已经悄然上升——测试时计算扩展(Test-Time Compute Scaling),或者说,递归推理

如果堆参数不是答案,那什么是?

答案是:让模型在推理时调用自身,像人类一样反复思考。


二、递归推理:不是 CoT 的改良,而是范式跃迁 链接到标题

要理解递归推理,得先看清它不是什么。

思维链(Chain of Thought, CoT) 是第一步突破。它让模型把推理过程"说出来",像解数学题时写下步骤一样。但 CoT 有个根本限制:它是线性的、单次的、不可回头的。模型从左写到右,一旦某个中间步骤出错,整个推理就可能崩塌。

递归推理 走的完全是另一条路。

2025 年 2 月,一篇题为 Scaling up test-time compute with latent reasoning: A recurrent depth approach 的论文(arXiv:2502.05171)提出了一个关键洞察:真正高效的推理,发生在模型的隐藏状态空间里,而不是 token 空间里。

这是什么意思?

想象两个画家。第一个画家(CoT)必须一笔一笔地在画布上画,每一笔都必须是可见的、可读的。画错了只能继续往下画,或者用更多笔触去掩盖。第二个画家(latent reasoning)则在脑海中先构建完整的画面——调整构图、修改光影、尝试不同配色——所有这些"思考"都发生在不可见的思维空间里。只有当画面在脑海中成熟后,才落笔到画布上。

latent reasoning 就是 AI 的"脑海中构图"。 模型在隐藏状态空间中反复迭代、自我修正、并行探索多条推理路径,最终只把最优结果输出为可读的 token。这不是 CoT 的升级版,这是从"说话式思考"到"静默式思考"的范式跃迁


三、硬核验证:ARC-AGI-2 上的破纪录突破 链接到标题

概念再漂亮,也需要硬碰硬的验证。2025 年,递归推理在 AI 领域最严苛的基准测试之一——ARC-AGI-2——上取得了突破性进展。

ARC-AGI-2 由 Keras 作者 François Chollet 发起,被认为是测试 AI 抽象推理能力的"黄金标准"。它不考知识储备,不考模式记忆,而是考从极少示例中领悟抽象规则并灵活应用的能力——这正是人类智能的核心,也是传统大模型的软肋。

Poetiq AI 团队开发的求解器(poetiq-ai/poetiq-arc-agi-solver)在该基准上取得了破纪录的成绩。他们的方法不是训练一个更大的模型去"记住"更多模式,而是在测试时动态搜索最优推理路径——让模型面对每个具体问题时,递归地尝试不同策略、评估中间结果、回溯并重新探索。

与此同时,DeepSeek 团队在 2025 年 4 月发表的论文 Inference-Time Scaling for Generalist Reward Modeling(arXiv:2504.02495)从另一个角度验证了这一趋势。他们证明,即使是通用的奖励模型,也能通过在测试时动态分配更多计算资源来显著提升性能。这意味着递归推理不是某个特定任务的技巧,而是可以泛化的能力扩展范式

两条独立线索,指向同一个结论:测试时计算扩展已经在最严苛的基准上证明了其价值。

这里有一个值得细品的对比:ARC-AGI-2 的 leaderboard 上,一些极小规模的专用模型通过计算延展(compute scaling)——即在测试时投入更多推理轮次和搜索深度——击败了参数规模大上千倍的通用大模型。这不是"大力出奇迹",而是"巧算胜蛮力"。它揭示了一个反直觉的事实:在需要抽象推理的任务上,推理时的计算投入可能比模型本身的参数量更具决定性


四、从数据中心到边缘设备:递归推理的扩散路径 链接到标题

一个技术趋势是否真正成立,要看它能否从实验室扩散到真实场景。递归推理正在展现令人惊讶的扩散速度。

边缘设备上的递归微网络(stockeh/mlx-trm)是一个标志性项目。它基于 Apple 的 MLX 框架,在 Apple Silicon 上实现了 Transformer 的递归深度展开。这意味着你的 MacBook、iPad 甚至 iPhone,理论上都能运行"深思熟虑"的 AI——不是通过云端的大模型,而是通过本地设备的测试时计算扩展。

Agent 场景 是另一个先行落地场。DeepRecall 引擎(kothapavan1998/deeprecall)专门为 AI Agent 设计了"深度回忆"机制:当 Agent 面对复杂任务时,它可以递归地调用自身进行子问题分解、反思中间结果、动态调整策略。这不再是"输入-输出"的单次交互,而是一个能够自我对话、自我修正的思考循环

更有趣的是 Sakana AI 的生存模拟器。在这个项目中,递归进化的 AI Agents 在复杂环境中展现出真正的涌现行为——它们不是按照预设规则行动,而是通过测试时的模拟和试错,自主学会复杂策略。Two Minute Papers 在介绍这个项目时说了一句很到位的话:这些 Agents “不是被编程去解决问题,而是被赋予能力去自己发现解决方案”。


五、当 AI 学会"睡眠时思考" 链接到标题

递归推理的边界还在快速外推。

2025 年 4 月,一篇题为 Sleep-Time Compute: Beyond Inference Scaling at Test-Time(arXiv:2504.13171)的论文提出了一个激进的概念:睡眠时计算。其核心思想是:让模型在"空闲"期间预先计算可能的推理路径并缓存结果,从而在实际推理时实现即时响应。

这听起来像科幻,但逻辑很清晰。人类在睡觉时会巩固记忆、整理思绪;AI 为什么不能在"空闲"时做类似的"预思考"?当训练与推理的边界开始消融,我们可能需要重新定义"思考"本身——它不再是一次性的计算过程,而是一个持续的、分层的、预计算与实时推理交织的动态系统。

这对强化学习后训练范式也有深远影响。如果奖励模型本身可以通过测试时计算扩展来提升判断精度,那么 RLHF(人类反馈强化学习)的整个流程都可能被重塑——不是训练一个"更懂人类偏好"的静态模型,而是让模型在每次判断时都投入更多计算资源去"理解"上下文


六、结语:Scaling Law 没有死,只是换了赛道 链接到标题

回到开头的问题:递归推理正在取代参数规模成为新的 Scaling Law 吗?

我的判断是:不是取代,而是接力。

预训练 Scaling Law 没有死——它完成了自己的历史使命,把 AI 从"不可用"推到了"可用"。但下一程的接力棒,已经交到了测试时计算扩展手中。

三个信号已经清晰:

  1. 竞赛突破:ARC-AGI-2 上的破纪录成绩证明,递归推理能解决传统方法束手无策的问题
  2. 工业验证:DeepSeek 的奖励模型扩展证明,这不是个案,而是可泛化的范式
  3. 边缘落地:从 MLX 微网络到 DeepRecall Agent,递归推理正在走出数据中心,进入真实产品

当然,递归推理并非万能钥匙。它带来收益的同时,也伴随着真实的工程约束:首字延迟(TTFT, Time-To-First-Token)会显著增加——模型需要先在隐藏状态空间里完成多轮迭代,才能输出第一个 token;推理成本的算力消耗也会上升——每一次递归展开都是实打实的计算开销。因此,递归推理的适用范围存在天然边界:在数学证明、代码调试、逻辑谜题等结构化推理任务上收益最高,因为多轮迭代能有效纠正中间错误;而在开放域创意写作、闲聊对话等生成类任务上,收益相对有限——用户通常不愿为了一点质量提升等待更久。

最后,我想留给你一个问题——不是答案,而是一个开放的追问:

当 AI 可以无限递归地思考,当"思考"不再受限于单次前向传播的时间边界,“思考"本身的定义,是否需要重写?

人类的思考受限于生物学上的时间、能量和注意力。AI 的思考,可能正在突破这些限制。这不是关于 AI 会不会超越人类的问题——这是关于当"思考"成为一种可以任意扩展的计算资源时,智能的本质是什么的问题。

而这个问题,或许比任何技术突破都更值得深思。


参考来源


本文完成于 2026-05-02 | Content OS Phase 4 成稿 | 任务单号: TOPIC-B-20260502