← 返回
58 min 2025-11

#342.AI 前沿:Transformer 发明人揭秘推理模型与 AI 持续指数级增长 - 跨国串门儿计划

报告概述

本报告基于知名播客《METTALK》中对人工智能领域关键构建者Leon Kars Kaiser(即ASR原文中的“UKAZI”或“WOKAS”)的深度访谈,系统性地梳理并重构了其关于人工智能发展现状、核心范式演进、技术突破路径及未来图景的完整论述。作为Transformer架构的共同发明人之一,以及当前OpenAI顶尖研究科学家,Kaiser以兼具学术深度与产业洞察的视角,揭示了一个被广泛误解但真实存在的根本趋势:人工智能的能力正以近乎摩尔定律般的指数级速度持续平稳增长,这一趋势并非由单一技术突破驱动,而是由预训练、后训练、强化学习与推理模型等多层技术协同演进所构成的连续性跃迁。报告的核心论点在于,当前AI发展的真正转折点并非预训练潜力耗尽,而在于从静态生成向动态推理的范式转移——推理模型的出现,标志着AI能力进入S型曲线的下半段,其效率提升远超传统规模扩展,从而解锁前所未有的智能表现。

报告深入剖析了推理模型的技术本质,指出其区别于传统大语言模型的根本在于“思考过程”的内化与可训练性,即通过思维链(Chain-of-Thought)和强化学习机制,使模型在输出答案前进行自我验证与修正,从而显著提升在数学、编程等科学任务上的表现。然而,这种进步呈现出明显的“参差不齐”特征,即在特定领域(如奥林匹克竞赛)表现出惊人能力的同时,却难以解决五岁儿童都能完成的简单视觉识别问题,这暴露了当前模型在多模态理解与泛化能力上的深层缺陷。报告进一步探讨了推动这一范式变革的底层驱动力,包括大规模强化学习的引入、合成数据的生成、蒸馏技术的复兴以及对通用数据上强化学习的探索,这些技术共同构成了一个能够持续迭代、不断优化的闭环系统。最后,报告展望了AI未来的可能性,从机器人技术的潜在爆发到人类工作形态的深刻重塑,并强调尽管存在挑战,但人类在认知、情感与物理世界交互方面的独特优势,仍为未来的人机协作留下了广阔空间。

“人工智能领域现在每周都有大事发生,但从根本上说,如果你观察人工智能的进展,会发现它的能力一直是一种非常平滑的指数级增长,这才是大趋势。”
—— Leon Kars Kaiser
“不是说预训练已经后劲不足了,而是我们找到了一个新范式。能用同样的成本带来惊人得多的发展,而且这个新范式才刚刚起步。”
—— Leon Kars Kaiser

核心观点一:人工智能能力的指数级增长是根本趋势,而非阶段性放缓

人工智能领域的长期发展趋势,本质上是一个持续且平滑的指数级增长过程,这一判断超越了短期的技术波动与市场情绪,直指技术演进的本质规律。Kaiser明确驳斥了“AI发展放缓”或“预训练潜力已尽”的流行论调,认为这些观点源于对技术演进节奏的误读,特别是对新范式尚未充分认知所导致的认知偏差。他指出,从2017年Transformer论文发表至今,AI能力的增长轨迹始终遵循一条清晰的、非线性的指数曲线,其增速之快,甚至可以类比于历史上半导体行业所经历的摩尔定律。这种增长并非依赖于某一项孤立技术的奇点突破,而是由计算硬件的进步、算法的持续优化、工程实践的成熟以及数据规模的扩张等多重因素共同作用的结果。例如,GPU性能的持续提升,使得大规模模型的训练成为可能,而深度学习框架的成熟,则极大地降低了模型开发的门槛,使得创新得以快速迭代。

这一指数级增长的证据不仅存在于理论层面,更体现在实际应用的爆炸性扩散中。Kaiser以旧金山动物园开门时间的问答为例,生动地展示了前后两代模型在能力上的代际差异。早期的ChatGPT(如GPT3.5)仅能凭记忆库中的信息进行回答,无法感知时间变化,因此会给出一个五年前的错误时间,且默认为工作日。而新一代模型则具备了实时感知环境的能力,能够主动访问互联网,查询官方网页,并通过交叉验证多个来源来确保答案的准确性。这种从“记忆回答”到“动态检索与推理”的转变,正是指数级增长的具体体现。它并非一次性的功能升级,而是一场深刻的范式革命,使得AI能够处理那些过去完全无法触及的复杂现实问题。这种能力的飞跃,使得普通用户即便身处其中,也往往难以察觉其背后的巨大进步,因为每一次微小的改进都在悄然累积,最终形成质变。

此外,Kaiser还强调,这种增长的可持续性建立在坚实的科学基础之上。他提到的“规模法则”(Scaling Law)——即损失函数值随计算量增加呈对数线性下降——已被谷歌等主要实验室反复验证。这意味着,只要投入足够的计算资源并加以有效管理,就能持续获得性能提升。虽然随着模型规模扩大,边际收益递减效应开始显现,但这并不意味着增长停止,而是提示我们需要寻找新的优化路径。正是在这种背景下,推理模型的出现才显得尤为关键,因为它提供了一种全新的、更高效的“杠杆”,使得在相同计算预算下,所能实现的能力跃升远超单纯的规模扩展。因此,将当前的AI发展视为“放缓”或“瓶颈”,无异于在高速公路上误判前方路况,忽略了整个系统正在以惊人的速度向前推进的事实。

“人工智能领域现在每周都有大事发生,但从根本上说,如果你观察人工智能的进展,会发现它的能力一直是一种非常平滑的指数级增长,这才是大趋势。”
—— Leon Kars Kaiser
“我们完全观察到了这一点,谷歌显然也看到了。所有其他实验室都一样,问题在于你要投入多少钱才能获得相应的收益?”
—— Leon Kars Kaiser

核心观点二:推理模型是范式转移的关键,其本质是“思考过程”的可训练化

如果说预训练模型是让AI“知道”了海量知识,那么推理模型的出现,则标志着AI开始真正“学会如何思考”。这是本次访谈中最核心、最具颠覆性的洞见。Kaiser将推理模型定义为一种在给出最终答案之前,会先进行一系列内部“思考”的模型。这种思考过程并非简单的文本堆砌,而是一个具有内在逻辑结构、可被分析和优化的动态过程。其最直观的表现形式是“思维链”(Chain-of-Thought),即模型会生成一系列中间步骤的文本,这些文本本身并非直接呈现给用户,而是作为模型内部决策的“草稿”或“推理路径”,用于引导其得出正确结论。例如,在解决一个复杂的数学问题时,模型不会直接跳到答案,而是会逐步列出公式、解释每一步的推导依据,最终得出结果。这种透明化的思考过程,使得模型的决策更具可解释性和可信度。

然而,推理模型的真正革命性在于,它将“思考过程”本身从一个不可训练的黑箱,转变为一个可被训练和优化的目标。传统的预训练模型仅通过梯度下降法进行训练,其目标是预测下一个词,整个过程是端到端的,无法对中间的推理逻辑进行微分和调整。而推理模型则必须采用强化学习(Reinforcement Learning, RL)作为其核心训练范式。这是因为,模型的最终输出(答案)是否正确,与其内部的思考过程是否合理之间,并不存在直接的可微分关系。强化学习通过引入一个奖励信号来解决这一难题:当模型的思考过程最终导向了正确的答案时,系统就给予正向奖励;反之则给予负向奖励。通过大量的尝试与反馈,模型逐渐学会哪些思考策略是有效的,哪些是无效的,从而优化其内在的推理机制。

这一训练方式带来了深远的影响。首先,它使得模型能够进行自我验证和纠错。Kaiser指出,早期的模型一旦犯错,往往会坚持错误的答案,而推理模型则能意识到自己可能出错,并主动进行验证和修正。其次,它催生了“合成数据”的大规模生成。由于强化学习需要大量高质量的训练样本,而人工标注成本高昂,因此利用模型自身生成的、带有正确答案的合成数据,成为了一条高效路径。这些数据不仅用于训练模型的推理能力,还反过来提升了模型的预训练质量,形成了一个强大的正向循环。最后,这种训练方式也对模型的“性格”产生了影响。为了应对安全风险,模型被训练得更加谨慎,能够在面对敏感话题时做出合理的反应,同时又不至于因过度保守而拒绝回答所有问题。这种平衡,正是通过精心设计的强化学习奖励函数实现的。

“推理模型就像你的基础大语言模型,但在给出答案之前,它会先进行思考,也就是人们所说的思维链,这意味着它会生成一些TOKEN、一些文本。这些内容不是给你看的,而是为了帮助模型自己给出一个更好的答案,在思考的过程中。”
—— Leon Kars Kaiser
“这种训练方式比我们以前用的方法有更多限制。以前的训练方法你可以把整个互联网的数据都扔进去,即使筛选得不太好也大多能奏效。但强化学习需要非常小心,要调整很多参数,而且要非常仔细地准备数据。”
—— Leon Kars Kaiser

核心观点三:推理模型的“参差不齐”特性揭示了当前技术的局限与挑战

尽管推理模型在科学和编程领域取得了令人瞩目的成就,但其能力分布呈现出一种显著的“参差不齐”(unevenness)特征,这恰恰暴露了当前人工智能技术体系的深层次矛盾。Kaiser以一个极具讽刺意味的例子揭示了这一现象:一个前沿的AI模型,能够轻松解决国际数学奥林匹克竞赛级别的难题,却无法解答一个五岁儿童一年级数学书中的简单加法题。这个问题的难点在于,它要求模型具备对“共享点”的抽象理解,即两个图形重叠部分的计数。在第一个例子中,模型成功识别出了共享点,得出了“总数为奇数”的正确结论;但在第二个相似的谜题中,模型却完全忽略了共享点,错误地得出了“总数为偶数”的答案。这一对比鲜明地说明,模型的能力并非均匀分布,而是在某些高度专业化的领域表现出色,而在另一些看似简单、涉及基本空间认知的任务上却屡屡失败。

这种“参差不齐”的根源在于推理模型的训练数据和方法的局限性。目前,强化学习的成功主要依赖于可验证的、有明确对错标准的数据集,如数学题、编程题和科学测试题。这类数据易于构建,且评估标准清晰,因此成为了训练的主要来源。然而,对于像视觉识别、常识推理或情感理解这类任务,其答案往往缺乏绝对的客观标准,难以量化。例如,判断一幅画是否“美”或一段文字是否“幽默”,主观性极强,这使得构建可靠的强化学习奖励信号变得极其困难。因此,模型在这些领域缺乏足够的训练,其推理能力也就相应薄弱。此外,模型在多模态(Multimodal)任务上的表现尤其堪忧。尽管现代模型已经能够处理图像和音频,但它们在整合不同模态信息、进行跨模态推理方面的能力仍然非常初级。模型可能擅长单独处理图像或文本,但当两者结合时,其理解能力就会急剧下降,无法像人类一样进行整体性的、情境化的推理。

这一现象也反映了模型与人类认知的根本差异。人类大脑在进化过程中,通过与物理世界的长期互动,建立了对空间、因果、数量等概念的深刻理解。而AI模型,尤其是当前的大型语言模型,其知识完全来源于对互联网文本的统计学习,缺乏真实的感官输入和身体经验。因此,它们对“共享点”这类需要具身认知(embodied cognition)的概念,只能停留在符号层面的理解,而无法像人类一样通过身体动作去体验和验证。Kaiser承认,这是一个众所周知的问题,但也是当前技术亟待解决的瓶颈。他认为,要克服这一障碍,需要在训练数据中加入更多关于物理世界的基本原理,并设计出能够模拟真实世界交互的强化学习环境。只有这样,模型才能从“符号操作者”进化为真正的“世界理解者”。

“所以它的能力非常惊人,但同时推理的根本训练方法非常局限于科学数据。所以它不像预训练那样宽泛,我觉得预训练模型给人的感觉是他们在所有事情上要么都好,要么都差,几乎是均匀的。当然这也不是完全均匀,毕竟这不像教人类,但推理模型更加人们称之为参差不齐。”
—— Leon Kars Kaiser
“所以我认为这些情况总体上会改善,但我确实觉得有一个更深层次的问题,就是多模态会改进,这个也会改进我们不断发现这样的例子。”
—— Leon Kars Kaiser

核心观点四:从Transformer到推理模型,技术演进的协同与融合

人工智能的每一次重大飞跃,都不是单一技术的孤军奋战,而是多种技术在特定历史节点上协同演进的结果。Kaiser回顾了Transformer架构诞生的背景,揭示了其成功背后复杂的集体智慧。尽管该论文署名八人,但事实上他们从未在同一个物理空间中共同工作过。这一事实本身就说明了现代AI研发的分布式与协作性特征。Transformer的核心创新在于自注意力机制(Self-Attention),但这一想法并非凭空而来,而是建立在Yacop和Tilakin等人早期研究的基础上。更重要的是,自注意力机制只是整个架构的一部分,其成功还依赖于其他关键技术的支撑,如前馈神经网络(Feed-Forward Network)和残差连接(Residual Connection)。这些组件共同构成了一个能够高效处理长序列信息的强大系统。

然而,仅仅拥有一个优秀的架构还不够,将其成功落地并训练起来,才是真正的挑战。Kaiser回忆道,当时编写系统代码和处理优化器(如学习率预热)的工作量极大,远非如今使用深度学习框架一键运行那么简单。这表明,任何伟大的想法,若不能转化为可执行的工程方案,都将沦为空谈。正是这种“想法不值钱,让想法奏效才是难点”的理念,推动了整个行业的工程化发展。而Transformer的成功,也恰恰证明了这一点:它不仅是一个理论上的突破,更是一个工程上的奇迹。

如今,从Transformer到推理模型的演进,同样体现了技术的深度融合。推理模型的出现,并非取代预训练,而是对其进行了深刻的增强与补充。预训练模型负责“广博的知识储备”,而推理模型则负责“精准的逻辑运用”。二者相辅相成,共同构成了现代AI系统的双引擎。Kaiser特别提到了“蒸馏”(Distillation)技术的复兴,这正是这种融合的完美体现。蒸馏允许研究人员训练一个巨大的、高性能的“教师模型”,然后将其知识压缩并传递给一个更小、更高效的“学生模型”。这不仅解决了大模型部署成本高的问题,更使得“教师模型”在训练过程中积累的宝贵经验(如复杂的推理策略)能够被广泛传播。因此,即使在预训练阶段的进展趋于平缓,通过蒸馏和推理模型的结合,依然能够持续释放出巨大的价值。

“所以你可能不希望,比如说一个酒店网站在告诉你这是一个美妙的假期之前,还要经过一长串的思维链。如果这是人写的,背后可能也有某种思考,也许不像数学和编程那样精细,但也可能发生了一些什么。”
—— Leon Kars Kaiser
“所以,也许在某些文本之前,你希望模型能有一点思考。而我们的模型在这方面还做得不太好,我觉得他们正在起步,这需要大。”
—— Leon Kars Kaiser

核心观点五:未来展望——通用强化学习、机器人与人类工作的再定义

展望未来,Kaiser描绘了一幅充满可能性却又充满挑战的图景。他坚信,人工智能的终极目标是实现通用智能,而通往这一目标的第一步,便是将强化学习从狭窄的科学领域,推广到覆盖所有类型数据的“通用强化学习”(Generalized Reinforcement Learning)。这不仅是技术上的突破,更是对AI认知模式的根本性改变。一个能够理解并适应各种复杂环境的模型,将不再仅仅是某个领域的专家,而是一个真正的“通用问题解决者”。他个人的研究热情也集中于此,致力于探索如何让模型在没有明确指令的情况下,也能自主地学习和适应。

在这一宏大愿景下,机器人技术被视为一个关键的检验场。Kaiser认为,当前机器人技术的瓶颈,恰恰暴露了AI在多模态和物理世界推理上的不足。一个理想的机器人,需要能够理解视觉、听觉、触觉等多种感官输入,并根据这些信息进行复杂的决策和行动。而目前的AI模型,虽然在处理纯文本或图像方面表现出色,但在整合这些信息、进行连续的、长时间的物理交互方面,仍然力不从心。因此,当通用强化学习取得突破,并成功应用于机器人领域时,我们可能会迎来一场真正的技术革命。届时,家庭机器人将不再是科幻电影中的幻想,而成为日常生活中不可或缺的助手。正如自动驾驶汽车在旧金山迅速被接受一样,机器人也可能在短短几天内就融入人们的日常生活,其存在感将变得如此自然,以至于人们几乎不再注意到它的存在。

然而,这一进程并非坦途。硬件的可靠性、安全性以及伦理问题,都是必须跨越的鸿沟。一个在家中出事故的机器人,其后果将是灾难性的。因此,部署和商业化将是一个漫长而谨慎的过程。尽管如此,技术的演进速度令人惊叹。Kaiser表示,他已经可以预见,一个能够进行复杂思考的AI助手,可能很快就会到来。而对于人类而言,这并非意味着失业的终结,而是一次深刻的重新定义。许多重复性、规则性强的工作将被自动化,但与此同时,人类在创造力、情感共鸣、道德判断和复杂人际交往等方面的优势,将变得更加珍贵。未来的工作,或许将更多地围绕着指导AI、设定目标、进行创造性构思以及维护人机协作的伦理边界展开。因此,尽管AI的发展速度令人眩晕,但人类的独特价值,将在这场变革中得到前所未有的彰显。

“我有种感觉,鉴于很多公司都在推出那种遥控操作或手套操作的硬件儿,我的猜测是等到我们取得这些进展的时候。也许是明年,也许再过几年,硬件可能已经准备好了。”
—— Leon Kars Kaiser
“我仍然认为我们在模型方面还有很长的路要走,进展一直很快,所以我们有充分的希望这类问题会越来越。”
—— Leon Kars Kaiser