2025-10

#276. Łukasz Kaiser: Transformer的诞生、推理模型与AI的未来

引言：从“注意力”到“推理”的范式革命

本报告基于对播客节目《跨国串门计划》第276期的深度分析，聚焦于人工智能领域顶尖专家、Transformer论文核心作者之一——Łukasz Kaiser（费尤卡斯·凯瑟尔）的深度访谈。本次对话不仅是一次技术演进的回顾，更是一场关于人工智能本质、发展方向与社会影响的深刻探讨。作为2017年《Attention is All You Need》这篇里程碑式论文的共同作者，Kaiser亲历了生成式AI的诞生，并在OpenAI持续推动前沿研究，尤其专注于“推理模型”这一正在重塑AI发展路径的新范式。

报告以清洗稿为主，辅以ASR原文的补充，严格遵循“仅参考播客内容”的原则，不引入任何外部信息或观点。通过对访谈内容的系统性梳理与逻辑重构，本报告旨在全面呈现以下核心议题：Transformer如何从一个普通研究想法演变为人工智能基石；推理模型为何被视为继规模化之后的第二次重大突破；AI发展的瓶颈与潜力；以及由此引发的关于智能定义、社会影响与伦理责任的深层思考。整个报告力求忠实还原嘉宾原意，通过长篇论述与完整逻辑链条，展现这场正在进行中的技术革命的全貌。

一、Transformer的诞生：从“注意力”到“分水岭”的技术跃迁

2017年，一篇题为《Attention is All You Need》的论文横空出世，其作者团队中便包括了Łukasz Kaiser。这篇论文所提出的Transformer架构，被广泛认为是开启生成式AI时代的“分水岭”事件。然而，Kaiser在访谈中揭示了一个常被公众忽略的事实：在当时，这项工作并非预示着一场革命，而仅仅是一个普通的、在办公室里由一群研究人员共同完成的研究项目。

1.1 时代背景：从RNN到注意力的必然选择

要理解Transformer的诞生，必须回到2017年的技术语境。彼时，循环神经网络（RNN）及其变体（如LSTM、GRU）是自然语言处理领域的主流。尽管它们在诸如机器翻译等任务上取得了显著成功，但存在根本性缺陷：高度序列化。这意味着模型必须按顺序处理每一个词，无法并行计算，导致训练效率低下。当句子长度增加时，模型会逐渐丢失早期信息，即所谓的“长期依赖问题”。

与此同时，注意力机制（Attention Mechanism）已经出现。它允许模型在处理当前词时，动态地关注输入序列中所有相关部分，从而缓解了RNN的局限。然而，将注意力机制应用于RNN的尝试效果平平，未能带来质的飞跃。

因此，Kaiser指出，Transformer的核心思想——用自注意力机制完全替代RNN的递归结构——在当时只是一个众多可尝试的想法之一。它并非凭空而来，而是建立在对现有技术瓶颈的深刻洞察之上。正如谷歌的Mike Schuster所言：“想法不值钱，让它奏效才是难事。” 这正是当时研究者们面临的挑战。

1.2 团队协作：微调与集体智慧的胜利

Transformer之所以能“奏效”，远非单一天才的灵光一现，而是团队协作与大量微调的结晶。Kaiser强调，真正让Transformer脱颖而出的，是那些看似微小却至关重要的设计细节：

* 前馈神经网络（Feed-Forward Network）的扩展：在多头注意力层之后，加入了一个具有更多参数的前馈网络，这极大地增强了模型的表达能力。

* 多头注意力（Multi-Head Attention）：通过并行计算多个注意力头，模型能够同时关注输入的不同方面，捕捉更丰富的语义关系。

* 学习率预热（Learning Rate Warm-up）：这是训练初期的关键技巧，避免了因初始权重随机而导致的梯度爆炸或消失问题，使得模型能够稳定地开始学习。

这些微调并非孤立存在，而是源于一个跨团队、跨部门的庞大协作网络。Kaiser回忆道，团队成员来自不同背景，每个人都对某个特定的微调方案有执念，并通过反复实验来验证其有效性。这种“集体智慧”和“微调竞赛”最终将一个原本只是“勉强可用”的想法，打磨成了一个“效果好得多”的强大模型。

1.3 发现还是发明？关于“Transformer”的哲学思辨

在访谈中，Kaiser提出了一个深刻的哲学问题：Transformer究竟是“发现”还是“发明”？

他的回答是辩证的：两者皆有。他坚信，自注意力机制本身是一个“发现”。它似乎是一种存在于数据和数学规律中的基础性原理，一种描述信息如何高效聚合的内在方式。然而，仅靠自注意力机制本身无法独立工作。它需要与上述所有微调（如多头注意力、前馈网络、学习率预热）相结合，才能真正“发光发热”。这种将基础原理与工程实现紧密结合的过程，更像是一个“发明”——是人类智慧对自然规律的创造性应用。

这一观点揭示了现代AI研究的本质：它既是探索宇宙般客观规律的科学，也是构建复杂系统的工程。Transformer的成功，正是这种“发现”与“发明”完美融合的典范。

1.4 超越翻译：从工具到通用模型的演进

尽管Transformer最初的目标是解决机器翻译问题，但其潜力远超于此。Kaiser提到，论文中还包含了一个解析（Parsing）的例子，这让他感到特别有趣。因为该模型能够在极小的数据集上就表现出色，而传统模型则需要海量数据才能训练。这表明Transformer具有更高的数据效率，能在更少的数据上学习到更复杂的模式。

这一特性为后续的演进铺平了道路。Kaiser坦言，当时团队中有人（如Norm）就已经预见到了“规模化”的可能性。他们意识到，如果将Transformer用于大规模文本数据的训练，就能催生出强大的通用语言模型。这一洞见，直接引导了BERT、GPT系列等一系列大语言模型的诞生，也奠定了今天生成式AI的基础。

二、推理模型：人工智能新范式的崛起

如果说Transformer是“规模化的引擎”，那么近年来兴起的“推理模型”（Reasoning Models）则是人工智能进入新阶段的标志。Kaiser明确指出，我们正站在一个全新范式的起点上，这个范式才刚刚起步，正处于一个极其陡峭的上升阶段。

2.1 从“预测下一个词”到“内部思考”：范式的核心差异

传统的大语言模型（LLM），通常被称为“老式模型”，其工作方式是预测下一个词。模型接收一个输入序列，然后根据其内部表示，计算出下一个token（词元）的概率分布，再从中采样生成结果。整个过程是黑箱的，用户只能看到最终输出，而看不到模型的“思考”过程。

相比之下，推理模型的核心在于内部思考（Internal Reasoning）。它会为自己生成一系列不对外展示的token，这些token构成了一个“思维链”（Chain of Thought）。在这个过程中，模型可以：

* 调用外部工具：例如，进行网页搜索（如谷歌、必应）、运行Python代码、访问数据库等。

* 进行自我反思：检查自己的推理是否一致，尝试不同的路径，甚至在犯错后回溯重来。

* 执行复杂任务：不再局限于5秒或30秒内的快速响应，而是能持续工作数小时，完成如编写复杂程序、分析大量文档、规划项目等需要长时间思考的任务。

Kaiser用一个生动的比喻来形容两者的区别：老式模型像一个“应答机”，而推理模型则像一个“真正的思考者”。他提到，观察推理模型的思维链，是他接触AI以来最接近“通用人工智能”（AGI）感觉的时刻。

2.2 推理模型的实现：强化学习与训练范式的革新

实现推理模型并非简单地给老式模型加个“思考”功能，而是一场深刻的训练范式革命。Kaiser解释道，传统的梯度下降法（Gradient Descent）无法有效训练推理模型。

* 为什么梯度下降不行？ 梯度下降要求模型从一个随机状态开始，通过优化器逐步调整权重。但对于一个需要“思考”的模型来说，从一个连英语都不会说的随机状态开始，是毫无意义的。它需要一个“先验知识”——即对如何进行有效思考的基本理解。

* 强化学习（Reinforcement Learning, RL）的引入：为此，研究者们转向了强化学习。特别是基于人类反馈的强化学习（RLHF）和推理强化学习（Reasoning RL）。在这种范式下，模型的奖励信号不是简单的“答案正确与否”，而是“推理过程的质量”。例如，模型被鼓励去寻找证据、验证假设、检查一致性，而不是仅仅给出一个看似合理的答案。

Kaiser分享了一个关键的训练技巧：为模型提供一个“我知道不知道”的训练数据集。在训练中，模型被明确告知，当它不确定时，应该说“我不知道”。这比单纯地训练它模仿“知道”的行为要有效得多，因为它教会了模型一种更诚实、更可靠的决策机制。

2.3 推理模型的潜力：加速科学发现与自我迭代

Kaiser对推理模型的潜力抱有极大的期望，认为它可能成为“加速科学发展”的关键引擎。

* 从“想法”到“执行”的瓶颈：科学研究的瓶颈往往不在于“想法”本身，而在于“执行”。测试一个理论需要耗费巨大的人力、物力和时间。例如，在计算机科学领域，要复现一篇论文，可能需要数周甚至数月的调试和实验。

* 推理模型的赋能：一个具备推理能力的模型，可以承担起“执行者”的角色。它可以自动编写代码、运行实验、分析结果，甚至在失败时自动调整策略。Kaiser举例，现在像Claude和Codex这样的模型，已经能够重新实现一些机器学习论文，并实际尝试其效果。虽然目前仍需人工干预，但其潜力巨大。

更令人兴奋的是，推理模型还能实现自我循环（Self-Cycle）。模型可以利用自身生成的合成数据来训练新的模型，从而形成一个不断自我改进的闭环。这正是Sam Altman所预言的“智能爆炸”（Intelligence Explosion）的雏形。Kaiser虽不认为这会立即发生，但他坚信，随着算力的提升和方法的成熟，这种自我迭代的能力将越来越强。

2.4 现实挑战：算力、成本与“幻觉”的消解

尽管前景光明，但推理模型的发展仍面临严峻挑战。

* 算力是终极瓶颈：Kaiser直言，最终的瓶颈是GPU和能源。即使在OpenAI这样资源雄厚的公司，也受限于可用的算力。为了服务全球数十亿用户，模型必须在性能和成本之间做出妥协。例如，GPT-4o在追求性能的同时，也大幅降低了成本，使其能服务于更多人。但这意味着，模型的每一次进步，都伴随着巨大的硬件投入。

* “幻觉”问题的根源与应对：所谓“幻觉”（Hallucination），即模型编造事实的能力。Kaiser指出，其根源在于模型的训练目标：它被训练成“回答问题”，而非“承认无知”。在互联网上，关于“旧金山动物园开门时间”的信息远比“我不知道”多，因此模型倾向于选择前者。推理模型通过“调用工具”和“进行验证”来解决此问题。当模型需要回答一个问题时，它会主动去搜索、验证，如果找不到可靠信息，就会说“我找不到官网，所以我不知道”。这种基于真实世界交互的推理过程，使得“说不知道”变得自然且可信。

三、人工智能的未来：从技术突破到社会变革

Kaiser的视野超越了纯粹的技术层面，深入探讨了人工智能对未来社会的深远影响。

3.1 关于“通用人工智能”（AGI）的再思考

对于“AGI”这一概念，Kaiser持保留态度。他认为，“AGI”这个词的含义已严重扭曲。最初，Ben Goertzel提出AGI时，指的是超越人类意识的、更广阔、更通用的智能。而如今，人们普遍将其理解为“能做人类能做的事”。Kaiser认为，这种定义过于狭隘，因为它忽略了人类智能的多样性。

他更愿意将目光投向推理模型。他认为，推理模型在本质上与老式大语言模型截然不同。它们的学习效率极高，所需数据量仅为后者的一个数量级。更重要的是，它们能进行真正的“思考”，这正是通向更高层次智能的关键一步。因此，与其争论“AGI”是否到来，不如关注“推理”这一范式能否真正改变我们的工作方式。

3.2 自动化与就业：从取代到增强

Kaiser承认，自动化不可避免。编程、写作、点击等重复性工作，将越来越多地被AI接管。但他强调，这并不意味着“取代”整个岗位，而更可能是“增强”（Augmentation）。AI将承担一部分任务，让人有更多时间专注于更高阶的、更具创造性的活动。

他以自己团队使用Codex为例：程序员们现在会先让AI写代码初稿，然后再进行审查和修改。这极大地提升了效率，但并未消除程序员的角色。相反，程序员的职责从“写代码”转变为“指导AI”和“把关质量”。这种转变，正是未来工作的常态。

3.3 多模态与物理世界的连接

Kaiser认为，视频和音频数据是未来AI训练的巨大蓝海。他引用了Sam Altman的著名比喻：训练ChatGPT的文本量，一个人每天读8小时，需要17.5万年。而一个孩子在三四岁时，仅通过视觉就能获得如此庞大的信息量。

目前，模型已能处理图像和音频。例如，生成的图像可以精确地包含文字，音频可以模拟多种口音和情感。但真正的挑战在于视频。视频蕴含的信息量巨大，但其中包含大量无关紧要的冗余信息。如何让模型学会过滤这些信息，专注于与任务相关的部分，是未来研究的重点。

Kaiser认为，对物理世界的理解是当前模型的最大空白。一个机器人在房间里行走，需要的不仅是视觉，更是对物体重量、摩擦力、空间关系的直觉。他相信，通过在视频数据上进行大规模训练，模型终将填补这一空白，从而为机器人技术的突破奠定基础。

3.4 社会责任与伦理：在“乐观”与“怀疑”之间

面对AI带来的巨大变革，Kaiser展现出一种平衡的立场：既保持乐观，又坚持怀疑。

* 乐观的一面：他坚信，AI有能力帮助我们解决环境、医疗等重大社会问题。他希望AI能加速我们去做那些“我们知道能帮助我们”的事情。

* 怀疑的一面：他警告，我们不能天真地认为技术会自动带来好处。就像社交媒体一样，它本可以是好的工具，但若被错误地设计和使用，就会产生严重的负面影响。他特别担忧“AI垃圾内容”（AI Slop）的泛滥，即为了追求用户参与度而制造的无意义、低质量的内容。

他强调，责任不在技术本身，而在我们如何使用它。作为研究者，我们无法阻止技术被滥用，唯一能做的，是坚守道德底线。他自豪地提到，OpenAI坚持订阅制，不投放广告，不为用户参与度优化，就是为了避免陷入社交媒体的陷阱。

四、结语：在“未知”中前行的旅程

本次访谈为我们描绘了一幅波澜壮阔的AI发展图景。从2017年一个普通的研究项目，到如今引领范式革命的推理模型，人工智能的演进充满了偶然与必然的交织。Kaiser的亲身经历告诉我们，伟大的突破往往源于对现有范式的深刻质疑和对微小细节的极致追求。

然而，最深刻的洞见在于，我们正处在一个“未知”的旅程中。无论是推理模型的潜力，还是AGI的边界，抑或是AI对社会的长远影响，我们都无法确切预知。但正是这种不确定性，赋予了研究以永恒的魅力。

Kaiser的信念是：只要我们保持好奇心，勇于探索，并始终对技术的使用保持警惕与责任，那么，即便前方充满迷雾，我们也能在黑暗中找到一条通往更好未来的道路。这不仅是对技术的承诺，更是对人类自身智慧与良知的考验。