58 min 2025-11

#342.AI 前沿：Transformer 发明人揭秘推理模型与 AI 持续指数级增长 - 跨国串门儿计划

报告概述

本报告基于知名播客《METTALK》中对人工智能领域关键构建者Leon Kars Kaiser（即ASR原文中的“UKAZI”或“WOKAS”）的深度访谈，系统性地梳理并重构了其关于人工智能发展现状、核心范式演进、技术突破路径及未来图景的完整论述。作为Transformer架构的共同发明人之一，以及当前OpenAI顶尖研究科学家，Kaiser以兼具学术深度与产业洞察的视角，揭示了一个被广泛误解但真实存在的根本趋势：人工智能的能力正以近乎摩尔定律般的指数级速度持续平稳增长，这一趋势并非由单一技术突破驱动，而是由预训练、后训练、强化学习与推理模型等多层技术协同演进所构成的连续性跃迁。报告的核心论点在于，当前AI发展的真正转折点并非预训练潜力耗尽，而在于从静态生成向动态推理的范式转移——推理模型的出现，标志着AI能力进入S型曲线的下半段，其效率提升远超传统规模扩展，从而解锁前所未有的智能表现。

报告深入剖析了推理模型的技术本质，指出其区别于传统大语言模型的根本在于“思考过程”的内化与可训练性，即通过思维链（Chain-of-Thought）和强化学习机制，使模型在输出答案前进行自我验证与修正，从而显著提升在数学、编程等科学任务上的表现。然而，这种进步呈现出明显的“参差不齐”特征，即在特定领域（如奥林匹克竞赛）表现出惊人能力的同时，却难以解决五岁儿童都能完成的简单视觉识别问题，这暴露了当前模型在多模态理解与泛化能力上的深层缺陷。报告进一步探讨了推动这一范式变革的底层驱动力，包括大规模强化学习的引入、合成数据的生成、蒸馏技术的复兴以及对通用数据上强化学习的探索，这些技术共同构成了一个能够持续迭代、不断优化的闭环系统。最后，报告展望了AI未来的可能性，从机器人技术的潜在爆发到人类工作形态的深刻重塑，并强调尽管存在挑战，但人类在认知、情感与物理世界交互方面的独特优势，仍为未来的人机协作留下了广阔空间。

“人工智能领域现在每周都有大事发生，但从根本上说，如果你观察人工智能的进展，会发现它的能力一直是一种非常平滑的指数级增长，这才是大趋势。”

—— Leon Kars Kaiser

“不是说预训练已经后劲不足了，而是我们找到了一个新范式。能用同样的成本带来惊人得多的发展，而且这个新范式才刚刚起步。”

—— Leon Kars Kaiser

核心观点一：人工智能能力的指数级增长是根本趋势，而非阶段性放缓

人工智能领域的长期发展趋势，本质上是一个持续且平滑的指数级增长过程，这一判断超越了短期的技术波动与市场情绪，直指技术演进的本质规律。Kaiser明确驳斥了“AI发展放缓”或“预训练潜力已尽”的流行论调，认为这些观点源于对技术演进节奏的误读，特别是对新范式尚未充分认知所导致的认知偏差。他指出，从2017年Transformer论文发表至今，AI能力的增长轨迹始终遵循一条清晰的、非线性的指数曲线，其增速之快，甚至可以类比于历史上半导体行业所经历的摩尔定律。这种增长并非依赖于某一项孤立技术的奇点突破，而是由计算硬件的进步、算法的持续优化、工程实践的成熟以及数据规模的扩张等多重因素共同作用的结果。例如，GPU性能的持续提升，使得大规模模型的训练成为可能，而深度学习框架的成熟，则极大地降低了模型开发的门槛，使得创新得以快速迭代。

这一指数级增长的证据不仅存在于理论层面，更体现在实际应用的爆炸性扩散中。Kaiser以旧金山动物园开门时间的问答为例，生动地展示了前后两代模型在能力上的代际差异。早期的ChatGPT（如GPT3.5）仅能凭记忆库中的信息进行回答，无法感知时间变化，因此会给出一个五年前的错误时间，且默认为工作日。而新一代模型则具备了实时感知环境的能力，能够主动访问互联网，查询官方网页，并通过交叉验证多个来源来确保答案的准确性。这种从“记忆回答”到“动态检索与推理”的转变，正是指数级增长的具体体现。它并非一次性的功能升级，而是一场深刻的范式革命，使得AI能够处理那些过去完全无法触及的复杂现实问题。这种能力的飞跃，使得普通用户即便身处其中，也往往难以察觉其背后的巨大进步，因为每一次微小的改进都在悄然累积，最终形成质变。

此外，Kaiser还强调，这种增长的可持续性建立在坚实的科学基础之上。他提到的“规模法则”（Scaling Law）——即损失函数值随计算量增加呈对数线性下降——已被谷歌等主要实验室反复验证。这意味着，只要投入足够的计算资源并加以有效管理，就能持续获得性能提升。虽然随着模型规模扩大，边际收益递减效应开始显现，但这并不意味着增长停止，而是提示我们需要寻找新的优化路径。正是在这种背景下，推理模型的出现才显得尤为关键，因为它提供了一种全新的、更高效的“杠杆”，使得在相同计算预算下，所能实现的能力跃升远超单纯的规模扩展。因此，将当前的AI发展视为“放缓”或“瓶颈”，无异于在高速公路上误判前方路况，忽略了整个系统正在以惊人的速度向前推进的事实。

“人工智能领域现在每周都有大事发生，但从根本上说，如果你观察人工智能的进展，会发现它的能力一直是一种非常平滑的指数级增长，这才是大趋势。”

—— Leon Kars Kaiser

“我们完全观察到了这一点，谷歌显然也看到了。所有其他实验室都一样，问题在于你要投入多少钱才能获得相应的收益？”

—— Leon Kars Kaiser

核心观点二：推理模型是范式转移的关键，其本质是“思考过程”的可训练化

如果说预训练模型是让AI“知道”了海量知识，那么推理模型的出现，则标志着AI开始真正“学会如何思考”。这是本次访谈中最核心、最具颠覆性的洞见。Kaiser将推理模型定义为一种在给出最终答案之前，会先进行一系列内部“思考”的模型。这种思考过程并非简单的文本堆砌，而是一个具有内在逻辑结构、可被分析和优化的动态过程。其最直观的表现形式是“思维链”（Chain-of-Thought），即模型会生成一系列中间步骤的文本，这些文本本身并非直接呈现给用户，而是作为模型内部决策的“草稿”或“推理路径”，用于引导其得出正确结论。例如，在解决一个复杂的数学问题时，模型不会直接跳到答案，而是会逐步列出公式、解释每一步的推导依据，最终得出结果。这种透明化的思考过程，使得模型的决策更具可解释性和可信度。

然而，推理模型的真正革命性在于，它将“思考过程”本身从一个不可训练的黑箱，转变为一个可被训练和优化的目标。传统的预训练模型仅通过梯度下降法进行训练，其目标是预测下一个词，整个过程是端到端的，无法对中间的推理逻辑进行微分和调整。而推理模型则必须采用强化学习（Reinforcement Learning, RL）作为其核心训练范式。这是因为，模型的最终输出（答案）是否正确，与其内部的思考过程是否合理之间，并不存在直接的可微分关系。强化学习通过引入一个奖励信号来解决这一难题：当模型的思考过程最终导向了正确的答案时，系统就给予正向奖励；反之则给予负向奖励。通过大量的尝试与反馈，模型逐渐学会哪些思考策略是有效的，哪些是无效的，从而优化其内在的推理机制。

这一训练方式带来了深远的影响。首先，它使得模型能够进行自我验证和纠错。Kaiser指出，早期的模型一旦犯错，往往会坚持错误的答案，而推理模型则能意识到自己可能出错，并主动进行验证和修正。其次，它催生了“合成数据”的大规模生成。由于强化学习需要大量高质量的训练样本，而人工标注成本高昂，因此利用模型自身生成的、带有正确答案的合成数据，成为了一条高效路径。这些数据不仅用于训练模型的推理能力，还反过来提升了模型的预训练质量，形成了一个强大的正向循环。最后，这种训练方式也对模型的“性格”产生了影响。为了应对安全风险，模型被训练得更加谨慎，能够在面对敏感话题时做出合理的反应，同时又不至于因过度保守而拒绝回答所有问题。这种平衡，正是通过精心设计的强化学习奖励函数实现的。

“推理模型就像你的基础大语言模型，但在给出答案之前，它会先进行思考，也就是人们所说的思维链，这意味着它会生成一些TOKEN、一些文本。这些内容不是给你看的，而是为了帮助模型自己给出一个更好的答案，在思考的过程中。”

—— Leon Kars Kaiser

“这种训练方式比我们以前用的方法有更多限制。以前的训练方法你可以把整个互联网的数据都扔进去，即使筛选得不太好也大多能奏效。但强化学习需要非常小心，要调整很多参数，而且要非常仔细地准备数据。”

—— Leon Kars Kaiser

核心观点三：推理模型的“参差不齐”特性揭示了当前技术的局限与挑战

尽管推理模型在科学和编程领域取得了令人瞩目的成就，但其能力分布呈现出一种显著的“参差不齐”（unevenness）特征，这恰恰暴露了当前人工智能技术体系的深层次矛盾。Kaiser以一个极具讽刺意味的例子揭示了这一现象：一个前沿的AI模型，能够轻松解决国际数学奥林匹克竞赛级别的难题，却无法解答一个五岁儿童一年级数学书中的简单加法题。这个问题的难点在于，它要求模型具备对“共享点”的抽象理解，即两个图形重叠部分的计数。在第一个例子中，模型成功识别出了共享点，得出了“总数为奇数”的正确结论；但在第二个相似的谜题中，模型却完全忽略了共享点，错误地得出了“总数为偶数”的答案。这一对比鲜明地说明，模型的能力并非均匀分布，而是在某些高度专业化的领域表现出色，而在另一些看似简单、涉及基本空间认知的任务上却屡屡失败。

这种“参差不齐”的根源在于推理模型的训练数据和方法的局限性。目前，强化学习的成功主要依赖于可验证的、有明确对错标准的数据集，如数学题、编程题和科学测试题。这类数据易于构建，且评估标准清晰，因此成为了训练的主要来源。然而，对于像视觉识别、常识推理或情感理解这类任务，其答案往往缺乏绝对的客观标准，难以量化。例如，判断一幅画是否“美”或一段文字是否“幽默”，主观性极强，这使得构建可靠的强化学习奖励信号变得极其困难。因此，模型在这些领域缺乏足够的训练，其推理能力也就相应薄弱。此外，模型在多模态（Multimodal）任务上的表现尤其堪忧。尽管现代模型已经能够处理图像和音频，但它们在整合不同模态信息、进行跨模态推理方面的能力仍然非常初级。模型可能擅长单独处理图像或文本，但当两者结合时，其理解能力就会急剧下降，无法像人类一样进行整体性的、情境化的推理。

这一现象也反映了模型与人类认知的根本差异。人类大脑在进化过程中，通过与物理世界的长期互动，建立了对空间、因果、数量等概念的深刻理解。而AI模型，尤其是当前的大型语言模型，其知识完全来源于对互联网文本的统计学习，缺乏真实的感官输入和身体经验。因此，它们对“共享点”这类需要具身认知（embodied cognition）的概念，只能停留在符号层面的理解，而无法像人类一样通过身体动作去体验和验证。Kaiser承认，这是一个众所周知的问题，但也是当前技术亟待解决的瓶颈。他认为，要克服这一障碍，需要在训练数据中加入更多关于物理世界的基本原理，并设计出能够模拟真实世界交互的强化学习环境。只有这样，模型才能从“符号操作者”进化为真正的“世界理解者”。

“所以它的能力非常惊人，但同时推理的根本训练方法非常局限于科学数据。所以它不像预训练那样宽泛，我觉得预训练模型给人的感觉是他们在所有事情上要么都好，要么都差，几乎是均匀的。当然这也不是完全均匀，毕竟这不像教人类，但推理模型更加人们称之为参差不齐。”

—— Leon Kars Kaiser

“所以我认为这些情况总体上会改善，但我确实觉得有一个更深层次的问题，就是多模态会改进，这个也会改进我们不断发现这样的例子。”

—— Leon Kars Kaiser

核心观点四：从Transformer到推理模型，技术演进的协同与融合

人工智能的每一次重大飞跃，都不是单一技术的孤军奋战，而是多种技术在特定历史节点上协同演进的结果。Kaiser回顾了Transformer架构诞生的背景，揭示了其成功背后复杂的集体智慧。尽管该论文署名八人，但事实上他们从未在同一个物理空间中共同工作过。这一事实本身就说明了现代AI研发的分布式与协作性特征。Transformer的核心创新在于自注意力机制（Self-Attention），但这一想法并非凭空而来，而是建立在Yacop和Tilakin等人早期研究的基础上。更重要的是，自注意力机制只是整个架构的一部分，其成功还依赖于其他关键技术的支撑，如前馈神经网络（Feed-Forward Network）和残差连接（Residual Connection）。这些组件共同构成了一个能够高效处理长序列信息的强大系统。

然而，仅仅拥有一个优秀的架构还不够，将其成功落地并训练起来，才是真正的挑战。Kaiser回忆道，当时编写系统代码和处理优化器（如学习率预热）的工作量极大，远非如今使用深度学习框架一键运行那么简单。这表明，任何伟大的想法，若不能转化为可执行的工程方案，都将沦为空谈。正是这种“想法不值钱，让想法奏效才是难点”的理念，推动了整个行业的工程化发展。而Transformer的成功，也恰恰证明了这一点：它不仅是一个理论上的突破，更是一个工程上的奇迹。

如今，从Transformer到推理模型的演进，同样体现了技术的深度融合。推理模型的出现，并非取代预训练，而是对其进行了深刻的增强与补充。预训练模型负责“广博的知识储备”，而推理模型则负责“精准的逻辑运用”。二者相辅相成，共同构成了现代AI系统的双引擎。Kaiser特别提到了“蒸馏”（Distillation）技术的复兴，这正是这种融合的完美体现。蒸馏允许研究人员训练一个巨大的、高性能的“教师模型”，然后将其知识压缩并传递给一个更小、更高效的“学生模型”。这不仅解决了大模型部署成本高的问题，更使得“教师模型”在训练过程中积累的宝贵经验（如复杂的推理策略）能够被广泛传播。因此，即使在预训练阶段的进展趋于平缓，通过蒸馏和推理模型的结合，依然能够持续释放出巨大的价值。

“所以你可能不希望，比如说一个酒店网站在告诉你这是一个美妙的假期之前，还要经过一长串的思维链。如果这是人写的，背后可能也有某种思考，也许不像数学和编程那样精细，但也可能发生了一些什么。”

—— Leon Kars Kaiser

“所以，也许在某些文本之前，你希望模型能有一点思考。而我们的模型在这方面还做得不太好，我觉得他们正在起步，这需要大。”

—— Leon Kars Kaiser

核心观点五：未来展望——通用强化学习、机器人与人类工作的再定义

展望未来，Kaiser描绘了一幅充满可能性却又充满挑战的图景。他坚信，人工智能的终极目标是实现通用智能，而通往这一目标的第一步，便是将强化学习从狭窄的科学领域，推广到覆盖所有类型数据的“通用强化学习”（Generalized Reinforcement Learning）。这不仅是技术上的突破，更是对AI认知模式的根本性改变。一个能够理解并适应各种复杂环境的模型，将不再仅仅是某个领域的专家，而是一个真正的“通用问题解决者”。他个人的研究热情也集中于此，致力于探索如何让模型在没有明确指令的情况下，也能自主地学习和适应。

在这一宏大愿景下，机器人技术被视为一个关键的检验场。Kaiser认为，当前机器人技术的瓶颈，恰恰暴露了AI在多模态和物理世界推理上的不足。一个理想的机器人，需要能够理解视觉、听觉、触觉等多种感官输入，并根据这些信息进行复杂的决策和行动。而目前的AI模型，虽然在处理纯文本或图像方面表现出色，但在整合这些信息、进行连续的、长时间的物理交互方面，仍然力不从心。因此，当通用强化学习取得突破，并成功应用于机器人领域时，我们可能会迎来一场真正的技术革命。届时，家庭机器人将不再是科幻电影中的幻想，而成为日常生活中不可或缺的助手。正如自动驾驶汽车在旧金山迅速被接受一样，机器人也可能在短短几天内就融入人们的日常生活，其存在感将变得如此自然，以至于人们几乎不再注意到它的存在。

然而，这一进程并非坦途。硬件的可靠性、安全性以及伦理问题，都是必须跨越的鸿沟。一个在家中出事故的机器人，其后果将是灾难性的。因此，部署和商业化将是一个漫长而谨慎的过程。尽管如此，技术的演进速度令人惊叹。Kaiser表示，他已经可以预见，一个能够进行复杂思考的AI助手，可能很快就会到来。而对于人类而言，这并非意味着失业的终结，而是一次深刻的重新定义。许多重复性、规则性强的工作将被自动化，但与此同时，人类在创造力、情感共鸣、道德判断和复杂人际交往等方面的优势，将变得更加珍贵。未来的工作，或许将更多地围绕着指导AI、设定目标、进行创造性构思以及维护人机协作的伦理边界展开。因此，尽管AI的发展速度令人眩晕，但人类的独特价值，将在这场变革中得到前所未有的彰显。

“我有种感觉，鉴于很多公司都在推出那种遥控操作或手套操作的硬件儿，我的猜测是等到我们取得这些进展的时候。也许是明年，也许再过几年，硬件可能已经准备好了。”

—— Leon Kars Kaiser

“我仍然认为我们在模型方面还有很长的路要走，进展一直很快，所以我们有充分的希望这类问题会越来越。”

—— Leon Kars Kaiser