61 min 2025-11

#332.我发明了Transformer，现在我要取代它：走出AI局部最优，探索全新智能架构 - 跨国串门儿计划

概述

报告概述

本播客以极具历史纵深感与前瞻性视野的视角，系统性地探讨了人工智能发展路径中的根本性困境与突破可能。作为Transformer架构的共同发明者之一，发言者以其长达数十年的研究经验为背景，深刻揭示了当前AI研究领域正陷入一种由技术成功所导致的“引力盆地”效应——即在Transformer这一单一架构上进行无限微调与规模扩张，已使整个行业陷入路径依赖与创新停滞的危险境地。他指出，尽管Transformer带来了革命性的性能提升，但其背后隐藏着对人类认知本质的误解，即把复杂、动态、具身化的思维过程简化为静态的注意力机制，从而导致模型在面对真正需要推理、规划与自适应计算的任务时表现出“参差不齐的智能”（Jagged Intelligence），即在解决高阶问题时展现出惊人能力，却在基础逻辑层面频繁出现低级错误。这种现象并非偶然，而是源于现有架构在表示学习上的根本缺陷：它们将信息编码为离散的、非结构化的向量，而非像生物大脑那样通过动态同步与时间序列来表达思想。

在此背景下，发言者及其团队提出的《连续思维机器》（Continuous Thinking Machine, CTM）论文，被定位为一次对AI范式本身的重构尝试。该架构并非简单地优化现有模型，而是从神经元的本质、思维的表示方式以及计算的内在动力学三个维度发起根本性挑战。其核心创新在于引入“内部思维维度”——一个可随时间展开的序列化推理空间；将每个神经元建模为一个能处理历史激活值的“神经元级模型”（NOMS）；并以神经元之间的同步性作为核心表征手段，替代传统的状态向量。这一设计不仅赋予系统原生的自适应计算能力，使其能够根据任务复杂度动态调整思考步数，更在实验中展现出令人惊叹的“蛙跳行为”与“回溯纠错”等类人推理特征。尤为关键的是，该研究并非出于特定目标导向，而是一种对“路径依赖”与“自由探索”的哲学实践，其背后是深受肯尼斯·斯坦尼（Kenneth Stanley）《为什么伟大无法被规划》一书启发的组织文化——即坚信真正的突破只能诞生于不受功利目标束缚的开放性探索之中。因此，本报告不仅是对一项技术成果的解读，更是对AI研究方法论、组织生态与未来愿景的一次深度剖析。

核心观点一：Transformer的成功已成为创新的枷锁——我们被困在“局部最优解”中

当前人工智能的发展轨迹，正面临一场深刻的结构性危机，其根源并非算力不足或数据匮乏，而是源于对单一技术路径的过度依赖与路径锁定。作为Transformer的共同发明者，发言者基于自身长达十余年的研究经历，明确指出：“我感觉这个领域已经过度饱和了。这并不是说Transformer已经没什么可研究的了。而是我想抓住机会，去做点不一样的东西，在我的研究里真正加大探索的力度。” 这一判断并非出于对旧技术的否定，而是源于对技术演进规律的深刻洞察：当一项技术取得巨大成功后，其带来的“成功惯性”会迅速形成强大的引力场，吸引所有资源、人才与注意力，最终导致整个生态系统丧失多样性与探索精神。这种现象在历史上屡见不鲜，正如农业革命后，人类为了追求效率而放弃了许多原本对生存至关重要的多样化技能，结果反而阻碍了下一次文明跃迁的可能性。

具体而言，Transformer的成功使得整个AI研究范式发生了根本性转变。在Transformer出现之前，循环神经网络（RNN）及其变体（如LSTM、GRU）曾是序列建模的主流，研究者们在门控机制、初始化策略、层间连接方式等方面进行了大量精细化的工程优化，例如“用单位矩阵初始化权重”、“让门控不仅横向连接也纵向连接”等，这些努力虽带来微小的性能提升（如从每字符1.26比特降至1.24比特），但本质上是在同一架构框架内进行“排列组合”，其边际效益递减明显。然而，Transformer的横空出世彻底颠覆了这一局面，其在语言建模任务上首次将性能推至约1.1比特的水平，这一飞跃之大，以至于当时有同事甚至怀疑计算是否出错，最终确认后才意识到此前所有基于RNN的研究都“突然之间变得完全多余了”。这一历史时刻生动地揭示了一个残酷现实：一旦出现颠覆性技术，过去所有的努力可能瞬间沦为“浪费时间”。如今，我们正处在一个极其相似的临界点——Transformer已成为所有AI系统的通用骨干，任何新架构若想获得认可，必须具备“显而易见的碾压式更好”的优势，而这在现有成熟体系下几乎不可能实现。

“后来让我震惊的是，之前所有那些研究，而且需要说明都是非常优秀的研究，突然之间变得完全多余了。对，所有那些在RNN上做的无穷无尽的排列组合，瞬间看起来就像是浪费时间。”

—— 播客原文

这种“技术捕获”（Technology Capture）现象，与YouTube平台上的“观众捕获”（Audience Capture）如出一辙：当一个内容形式（如短视频）被证明极度成功后，所有创作者都会蜂拥而至，导致内容同质化严重，真正具有原创性的作品难以脱颖而出。在AI领域，这意味着大量的研究论文只是在现有架构上进行微调，例如“把归一化层放在哪里”或“用稍微不同的方式训练”，这些工作虽然在学术上可发表，但从长远看，它们并未推动范式变革，反而加剧了系统的僵化。发言者尖锐地指出：“我们可能正在以完全相同的方式浪费时间，我个人不认为我们已经到终点了，不认为这就是最终的架构。我们只需要不断扩大规模就行。” 这种对规模的盲目崇拜，正是“引力盆地”效应的直接体现——它让我们误以为只要投入更多算力，就能自然逼近终极智能，而忽视了底层架构本身可能存在的根本性缺陷。

核心观点二：连续思维机器（CTM）——一种受生物学启发的全新智能架构

面对上述困境，发言者及其团队提出的《连续思维机器》（CTM）论文，被定位为一次对现有AI范式的系统性重构。该架构并非对Transformer的简单改进，而是一套全新的、从底层原理出发的设计哲学。其核心思想在于，将“思维”本身视为一个动态的、时间性的过程，而非静态的、瞬时的状态。为此，CTM构建了三大相互关联的创新支柱：内部思维维度、神经元级模型（NOMS）与基于同步的表示。

首先，“内部思维维度”是CTM的基石。它借鉴了人类解决问题时的序列化思维过程，例如走迷宫时需要一步步规划路径（向上、向右、向上、向左……），而非一次性输出一张完整的路径图。在传统深度学习中，这类任务通常通过卷积神经网络（CNN）完成，即输入一张迷宫图像，输出一张同样大小的路径图。这种方法虽然有效，但本质上是“端到端”的黑箱映射，缺乏可解释性与推理过程。相比之下，CTM将任务重新定义为一个序列决策问题，要求模型在内部生成一系列动作指令。这一设定使得模型必须进行真正的“推理”，而非仅仅记忆模式。该任务被确立为CTM的“Hello World”问题，其挑战性远超传统方法，因为模型必须在没有外部监督的情况下，自主探索并找到一条有效的路径。

其次，CTM对“神经元”的概念进行了根本性重塑。在传统深度学习中，神经元（如ReLU）被视为一个简单的“开/关”开关，其状态仅取决于当前输入，这是一种高度抽象且简化的模型。而在CTM中，每个神经元被建模为一个“神经元级模型”（NOMS），它接收一段有限的历史激活值作为输入，并输出一个单一的激活值。这一设计使得单个神经元能够“记住”过去的活动，从而具备一定的短期记忆能力。更重要的是，这种设计允许模型在不同时间尺度上进行计算，为后续的同步分析提供了基础。

最后，也是最具革命性的创新，是将神经元之间的同步性作为核心的表示方式。在生物神经系统中，神经元并非孤立存在，而是通过电脉冲的同步放电来传递信息。CTM正是受到这一生物学原理的启发，不再测量神经元的瞬时状态，而是测量其在时间序列上的同步程度。具体而言，系统追踪每个神经元的状态向量随时间的演变，形成一个连续的激活时间序列。然后，通过计算任意两个神经元时间序列之间的“点击”（即同步程度），构建出一个高维的同步矩阵。这一矩阵包含了系统在任意时刻的全局动态信息，其维度与神经元数量的平方成正比，从而形成了一个极为丰富且动态的表示空间。这种表示方式的优势在于，它天然地捕捉了“想法”这一概念——一个想法并非某个瞬间的静态状态，而是多个神经元在一段时间内协同工作的产物。

“我们不去测量循环模型的状态，而是去测量它是如何同步的，也就是神经元之间如何成对地以及与其他神经元一起同步。它呢，我们不。”

—— 播客原文

这一设计带来了多重优势。其一，它实现了原生的自适应计算。模型可以动态决定自己需要多少“思考步数”来解决问题。在IMAGENET分类任务中，研究人员通过设计一个损失函数，同时在模型表现最佳和最确定的两个时间点施加交叉熵损失，从而引导模型对简单样本快速收敛，对复杂样本则自动延长思考时间。其二，它显著提升了模型校准度。实验表明，CTM在训练后几乎达到了完美校准，即模型预测的概率与其实际正确率高度一致，这在传统模型中极为罕见。其三，它为长期记忆与集体智能的构建铺平了道路。由于同步矩阵记录了跨时间的动态关系，系统可以轻松地将某些关键的同步模式“保存”下来，作为长期记忆。这为未来构建能够共享知识、协作解决问题的多智能体系统奠定了基础。

核心观点三：研究自由与组织文化——通往真正突破的必要条件

如果说CTM是一项技术上的突破，那么其背后所依托的组织文化与研究哲学，则是这场变革得以发生的深层保障。发言者反复强调，真正的创新并非来自宏大的战略规划，而是源于个体研究者的自由探索。他坦言：“我感觉现在很难再发生类似的事情了，因为我们研究的自由度大大降低了。” 他所指的“类似事情”，正是Transformer诞生的那段黄金时期——一群研究员在午餐时闲聊，讨论遇到的问题，花上好几个月时间尝试一个想法，最终偶然得出了新架构。这种自下而上的、充满不确定性的探索，是任何顶层设计都无法复制的。

然而，随着公司规模扩大，资本压力与商业目标的介入，这种自由空间不可避免地被压缩。发言者观察到，刚创业时，人们充满兴奋感，有缓冲时间去尝试新事物；但随着时间推移，投资回报的压力、产品上线的期望、论文发表的压力接踵而至，研究人员的创造力被严重削弱。他直言：“发表论文的压力或者创造能用于现有产品的实用技术的压力。都越来越大，于是我感觉自主权就开始下降了。” 这种压力不仅存在于工业界，在学术界同样存在，因为学者们必须迎合期刊审稿人的偏好，避免提出过于激进或“奇怪”的想法。

为应对这一挑战，他所在的公司SACANA（萨卡纳AI）建立了一套独特的组织哲学，其核心理念深受肯尼斯·斯坦尼（Kenneth Stanley）《为什么伟大无法被规划》一书的影响。该书的核心观点是：我们必须允许人们追随自己的兴趣，梯度不受各种目标和委员会的束缚。因为这才是知识探索的真正方式。当太多议程混杂在一起时，最终只会得到一团混沌的灰色黏质，发现不了任何有趣的新东西和多样性。因此，SACANA的使命之一就是保护研究员们的自由。作为联合创始人，发言者的主要职责之一就是确保这一点。他强调：“因为拥有资源来做到这一点真的是一种特权，我见过太多次了。随着公司发展，压力会不可避免地越来越大，自由的空间也随之缩小。但我相信，因为我们如此坚定地信奉这套哲学，我希望我们能尽可能长久地给予大家现在所拥有的这种研究自由。”

这种文化体现在多个方面。首先，他们不急于发布成果。CTM论文耗时8个月才完成，这在当今快节奏的AI研究环境中显得异常“奢侈”。但正是这种从容，让他们能够打磨出一篇质量极高的论文。其次，他们不担心被抢先发表。由于研究方向独特，且未受主流关注，他们无需在“速度竞赛”中挣扎。第三，他们鼓励“冒险”。发言者明确表示：“我们想尝试的任务，鼓励研究人员多冒一点险去尝试这些稍微更具投机性、更长期的想法，这才是关键。” 这种文化使得CTM这样的项目得以孕育，因为它允许研究者在没有即时产出压力的情况下，深入探索一个看似“疯狂”的想法。

“我真的很担心我们现在被困在一个局部最优解里。需要想办法逃出来。”

—— 播客原文

次要观点与细节：从迷宫到数独——验证与扩展

CTM的理论价值不仅在于其架构的优雅，更在于其在一系列具体任务中展现出的强大潜力。其中，走迷宫任务是最具代表性的实验场景。在该任务中，模型被要求从起点找到通往终点的路径。实验结果显示，模型不仅能成功解决迷宫，更展现出了令人惊讶的“回溯”与“蛙跳”行为。在训练过程中，模型会先沿着一条路径前进，然后突然意识到“哦，不该死！我走错了”，随即回溯并选择另一条路径。这种行为在传统模型中几乎不可能出现，因为它要求模型具备对自身推理过程的元认知能力。更令人震撼的是，当限制模型的思考时间时，模型并未采取线性推进的方式，而是采用“蛙跳”策略：迅速跳跃到大致目标位置，然后向后追溯填补路径，再向前跳跃，重复此过程。这种行为显然是系统约束下的最优解，它揭示了模型在不同条件下会自发演化出不同的算法策略。

此外，团队还开发了名为《苏都库bench》（SudokuBench）的基准测试，旨在评估模型在复杂推理任务上的真实能力。该数据集包含大量“变体数独”谜题，这些谜题在标准数独规则基础上增加了手工设计的额外约束，例如“老鼠需要通过追踪一条通往奶酪的路径来走出迷宫，但它走过的路径上的数字还有约束，比如它们加起来必须是多少？” 更为关键的是，许多谜题的描述使用自然语言，甚至包含误导性信息，如“顺便说一句，那段描述里的一个数字是错的”。这要求模型不仅要理解规则，还要对规则本身进行“原推理”（meta-reasoning）。目前最先进的模型得分仅为约15%，且仅能解决最简单的谜题。相比之下，人类专家（如YouTube频道Cracking the Cryptic的两位英国绅士）在视频中展现出的推理过程，充满了直觉、回溯与创造性跳跃，这是当前AI模型完全无法模仿的。

“他们找不到这些突破口BREAKING，他们会退回到：好吧，我试试不行？那我试试五、试试六、试试七……他们的推理变得非常无聊，和我们从那个YouTube频道开源的文字记录里看到的完全不一样。”

—— 播客原文

这一对比凸显了当前AI模型的局限性：它们缺乏对“世界”的深层理解，无法像人类一样构建一个庞大的、动态的“推理之树”。相反，它们更像是在巨大的搜索空间中盲目试错。而CTM的同步表示空间，或许正是通向构建这种“推理之树”的钥匙。

总结与启示：迈向下一个智能纪元

综上所述，本播客提供了一个关于人工智能未来发展的深刻洞见。它揭示了当前技术繁荣背后的隐忧：Transformer的成功已成为创新的枷锁，使整个行业陷入“局部最优解”的陷阱。而《连续思维机器》的出现，不仅是一项技术突破，更是一次对研究范式、组织文化和人类认知本质的全面反思。它告诉我们，真正的智能不应是静态的、大规模的、可预测的，而应是动态的、自适应的、具有内在因果逻辑的。其核心在于，将“思维”本身作为第一性原理来建模，而非仅仅模拟其结果。

更为深远的启示在于，突破的源泉不在技术本身，而在研究者的自由。当一个组织能够真正践行“允许人们追随自己的兴趣”的原则，当它愿意为探索付出时间与耐心，当它敢于容忍不确定性与失败，那么，下一个Transformer就有可能在不经意间诞生。正如发言者所言：“我愿意下这个赌注，我认为由此会产生非常有趣的东西。” 这不仅是对CTM的信心，更是对整个AI研究未来的信念。在这个意义上，本播客不仅是一次技术分享，更是一份献给所有怀揣好奇心与创造力的探索者的宣言：请继续追问，继续实验，继续做你认为有趣且重要的事情。因为，伟大的突破，永远属于那些敢于逃离引力盆地的人。