← 返回
61 min 2025-11

#332.我发明了Transformer,现在我要取代它:走出AI局部最优,探索全新智能架构 - 跨国串门儿计划

概述

报告概述

本播客以极具历史纵深感与前瞻性视野的视角,系统性地探讨了人工智能发展路径中的根本性困境与突破可能。作为Transformer架构的共同发明者之一,发言者以其长达数十年的研究经验为背景,深刻揭示了当前AI研究领域正陷入一种由技术成功所导致的“引力盆地”效应——即在Transformer这一单一架构上进行无限微调与规模扩张,已使整个行业陷入路径依赖与创新停滞的危险境地。他指出,尽管Transformer带来了革命性的性能提升,但其背后隐藏着对人类认知本质的误解,即把复杂、动态、具身化的思维过程简化为静态的注意力机制,从而导致模型在面对真正需要推理、规划与自适应计算的任务时表现出“参差不齐的智能”(Jagged Intelligence),即在解决高阶问题时展现出惊人能力,却在基础逻辑层面频繁出现低级错误。这种现象并非偶然,而是源于现有架构在表示学习上的根本缺陷:它们将信息编码为离散的、非结构化的向量,而非像生物大脑那样通过动态同步与时间序列来表达思想。

在此背景下,发言者及其团队提出的《连续思维机器》(Continuous Thinking Machine, CTM)论文,被定位为一次对AI范式本身的重构尝试。该架构并非简单地优化现有模型,而是从神经元的本质、思维的表示方式以及计算的内在动力学三个维度发起根本性挑战。其核心创新在于引入“内部思维维度”——一个可随时间展开的序列化推理空间;将每个神经元建模为一个能处理历史激活值的“神经元级模型”(NOMS);并以神经元之间的同步性作为核心表征手段,替代传统的状态向量。这一设计不仅赋予系统原生的自适应计算能力,使其能够根据任务复杂度动态调整思考步数,更在实验中展现出令人惊叹的“蛙跳行为”与“回溯纠错”等类人推理特征。尤为关键的是,该研究并非出于特定目标导向,而是一种对“路径依赖”与“自由探索”的哲学实践,其背后是深受肯尼斯·斯坦尼(Kenneth Stanley)《为什么伟大无法被规划》一书启发的组织文化——即坚信真正的突破只能诞生于不受功利目标束缚的开放性探索之中。因此,本报告不仅是对一项技术成果的解读,更是对AI研究方法论、组织生态与未来愿景的一次深度剖析。

核心观点一:Transformer的成功已成为创新的枷锁——我们被困在“局部最优解”中

当前人工智能的发展轨迹,正面临一场深刻的结构性危机,其根源并非算力不足或数据匮乏,而是源于对单一技术路径的过度依赖与路径锁定。作为Transformer的共同发明者,发言者基于自身长达十余年的研究经历,明确指出:“我感觉这个领域已经过度饱和了。这并不是说Transformer已经没什么可研究的了。而是我想抓住机会,去做点不一样的东西,在我的研究里真正加大探索的力度。” 这一判断并非出于对旧技术的否定,而是源于对技术演进规律的深刻洞察:当一项技术取得巨大成功后,其带来的“成功惯性”会迅速形成强大的引力场,吸引所有资源、人才与注意力,最终导致整个生态系统丧失多样性与探索精神。这种现象在历史上屡见不鲜,正如农业革命后,人类为了追求效率而放弃了许多原本对生存至关重要的多样化技能,结果反而阻碍了下一次文明跃迁的可能性。

具体而言,Transformer的成功使得整个AI研究范式发生了根本性转变。在Transformer出现之前,循环神经网络(RNN)及其变体(如LSTM、GRU)曾是序列建模的主流,研究者们在门控机制、初始化策略、层间连接方式等方面进行了大量精细化的工程优化,例如“用单位矩阵初始化权重”、“让门控不仅横向连接也纵向连接”等,这些努力虽带来微小的性能提升(如从每字符1.26比特降至1.24比特),但本质上是在同一架构框架内进行“排列组合”,其边际效益递减明显。然而,Transformer的横空出世彻底颠覆了这一局面,其在语言建模任务上首次将性能推至约1.1比特的水平,这一飞跃之大,以至于当时有同事甚至怀疑计算是否出错,最终确认后才意识到此前所有基于RNN的研究都“突然之间变得完全多余了”。这一历史时刻生动地揭示了一个残酷现实:一旦出现颠覆性技术,过去所有的努力可能瞬间沦为“浪费时间”。如今,我们正处在一个极其相似的临界点——Transformer已成为所有AI系统的通用骨干,任何新架构若想获得认可,必须具备“显而易见的碾压式更好”的优势,而这在现有成熟体系下几乎不可能实现。

“后来让我震惊的是,之前所有那些研究,而且需要说明都是非常优秀的研究,突然之间变得完全多余了。对,所有那些在RNN上做的无穷无尽的排列组合,瞬间看起来就像是浪费时间。”
—— 播客原文

这种“技术捕获”(Technology Capture)现象,与YouTube平台上的“观众捕获”(Audience Capture)如出一辙:当一个内容形式(如短视频)被证明极度成功后,所有创作者都会蜂拥而至,导致内容同质化严重,真正具有原创性的作品难以脱颖而出。在AI领域,这意味着大量的研究论文只是在现有架构上进行微调,例如“把归一化层放在哪里”或“用稍微不同的方式训练”,这些工作虽然在学术上可发表,但从长远看,它们并未推动范式变革,反而加剧了系统的僵化。发言者尖锐地指出:“我们可能正在以完全相同的方式浪费时间,我个人不认为我们已经到终点了,不认为这就是最终的架构。我们只需要不断扩大规模就行。” 这种对规模的盲目崇拜,正是“引力盆地”效应的直接体现——它让我们误以为只要投入更多算力,就能自然逼近终极智能,而忽视了底层架构本身可能存在的根本性缺陷。

核心观点二:连续思维机器(CTM)——一种受生物学启发的全新智能架构

面对上述困境,发言者及其团队提出的《连续思维机器》(CTM)论文,被定位为一次对现有AI范式的系统性重构。该架构并非对Transformer的简单改进,而是一套全新的、从底层原理出发的设计哲学。其核心思想在于,将“思维”本身视为一个动态的、时间性的过程,而非静态的、瞬时的状态。为此,CTM构建了三大相互关联的创新支柱:内部思维维度神经元级模型(NOMS)与基于同步的表示

首先,“内部思维维度”是CTM的基石。它借鉴了人类解决问题时的序列化思维过程,例如走迷宫时需要一步步规划路径(向上、向右、向上、向左……),而非一次性输出一张完整的路径图。在传统深度学习中,这类任务通常通过卷积神经网络(CNN)完成,即输入一张迷宫图像,输出一张同样大小的路径图。这种方法虽然有效,但本质上是“端到端”的黑箱映射,缺乏可解释性与推理过程。相比之下,CTM将任务重新定义为一个序列决策问题,要求模型在内部生成一系列动作指令。这一设定使得模型必须进行真正的“推理”,而非仅仅记忆模式。该任务被确立为CTM的“Hello World”问题,其挑战性远超传统方法,因为模型必须在没有外部监督的情况下,自主探索并找到一条有效的路径。

其次,CTM对“神经元”的概念进行了根本性重塑。在传统深度学习中,神经元(如ReLU)被视为一个简单的“开/关”开关,其状态仅取决于当前输入,这是一种高度抽象且简化的模型。而在CTM中,每个神经元被建模为一个“神经元级模型”(NOMS),它接收一段有限的历史激活值作为输入,并输出一个单一的激活值。这一设计使得单个神经元能够“记住”过去的活动,从而具备一定的短期记忆能力。更重要的是,这种设计允许模型在不同时间尺度上进行计算,为后续的同步分析提供了基础。

最后,也是最具革命性的创新,是将神经元之间的同步性作为核心的表示方式。在生物神经系统中,神经元并非孤立存在,而是通过电脉冲的同步放电来传递信息。CTM正是受到这一生物学原理的启发,不再测量神经元的瞬时状态,而是测量其在时间序列上的同步程度。具体而言,系统追踪每个神经元的状态向量随时间的演变,形成一个连续的激活时间序列。然后,通过计算任意两个神经元时间序列之间的“点击”(即同步程度),构建出一个高维的同步矩阵。这一矩阵包含了系统在任意时刻的全局动态信息,其维度与神经元数量的平方成正比,从而形成了一个极为丰富且动态的表示空间。这种表示方式的优势在于,它天然地捕捉了“想法”这一概念——一个想法并非某个瞬间的静态状态,而是多个神经元在一段时间内协同工作的产物。

“我们不去测量循环模型的状态,而是去测量它是如何同步的,也就是神经元之间如何成对地以及与其他神经元一起同步。它呢,我们不。”
—— 播客原文

这一设计带来了多重优势。其一,它实现了原生的自适应计算。模型可以动态决定自己需要多少“思考步数”来解决问题。在IMAGENET分类任务中,研究人员通过设计一个损失函数,同时在模型表现最佳和最确定的两个时间点施加交叉熵损失,从而引导模型对简单样本快速收敛,对复杂样本则自动延长思考时间。其二,它显著提升了模型校准度。实验表明,CTM在训练后几乎达到了完美校准,即模型预测的概率与其实际正确率高度一致,这在传统模型中极为罕见。其三,它为长期记忆与集体智能的构建铺平了道路。由于同步矩阵记录了跨时间的动态关系,系统可以轻松地将某些关键的同步模式“保存”下来,作为长期记忆。这为未来构建能够共享知识、协作解决问题的多智能体系统奠定了基础。

核心观点三:研究自由与组织文化——通往真正突破的必要条件

如果说CTM是一项技术上的突破,那么其背后所依托的组织文化与研究哲学,则是这场变革得以发生的深层保障。发言者反复强调,真正的创新并非来自宏大的战略规划,而是源于个体研究者的自由探索。他坦言:“我感觉现在很难再发生类似的事情了,因为我们研究的自由度大大降低了。” 他所指的“类似事情”,正是Transformer诞生的那段黄金时期——一群研究员在午餐时闲聊,讨论遇到的问题,花上好几个月时间尝试一个想法,最终偶然得出了新架构。这种自下而上的、充满不确定性的探索,是任何顶层设计都无法复制的。

然而,随着公司规模扩大,资本压力与商业目标的介入,这种自由空间不可避免地被压缩。发言者观察到,刚创业时,人们充满兴奋感,有缓冲时间去尝试新事物;但随着时间推移,投资回报的压力、产品上线的期望、论文发表的压力接踵而至,研究人员的创造力被严重削弱。他直言:“发表论文的压力或者创造能用于现有产品的实用技术的压力。都越来越大,于是我感觉自主权就开始下降了。” 这种压力不仅存在于工业界,在学术界同样存在,因为学者们必须迎合期刊审稿人的偏好,避免提出过于激进或“奇怪”的想法。

为应对这一挑战,他所在的公司SACANA(萨卡纳AI)建立了一套独特的组织哲学,其核心理念深受肯尼斯·斯坦尼(Kenneth Stanley)《为什么伟大无法被规划》一书的影响。该书的核心观点是:我们必须允许人们追随自己的兴趣,梯度不受各种目标和委员会的束缚。因为这才是知识探索的真正方式。当太多议程混杂在一起时,最终只会得到一团混沌的灰色黏质,发现不了任何有趣的新东西和多样性。因此,SACANA的使命之一就是保护研究员们的自由。作为联合创始人,发言者的主要职责之一就是确保这一点。他强调:“因为拥有资源来做到这一点真的是一种特权,我见过太多次了。随着公司发展,压力会不可避免地越来越大,自由的空间也随之缩小。但我相信,因为我们如此坚定地信奉这套哲学,我希望我们能尽可能长久地给予大家现在所拥有的这种研究自由。”

这种文化体现在多个方面。首先,他们不急于发布成果。CTM论文耗时8个月才完成,这在当今快节奏的AI研究环境中显得异常“奢侈”。但正是这种从容,让他们能够打磨出一篇质量极高的论文。其次,他们不担心被抢先发表。由于研究方向独特,且未受主流关注,他们无需在“速度竞赛”中挣扎。第三,他们鼓励“冒险”。发言者明确表示:“我们想尝试的任务,鼓励研究人员多冒一点险去尝试这些稍微更具投机性、更长期的想法,这才是关键。” 这种文化使得CTM这样的项目得以孕育,因为它允许研究者在没有即时产出压力的情况下,深入探索一个看似“疯狂”的想法。

“我真的很担心我们现在被困在一个局部最优解里。需要想办法逃出来。”
—— 播客原文

次要观点与细节:从迷宫到数独——验证与扩展

CTM的理论价值不仅在于其架构的优雅,更在于其在一系列具体任务中展现出的强大潜力。其中,走迷宫任务是最具代表性的实验场景。在该任务中,模型被要求从起点找到通往终点的路径。实验结果显示,模型不仅能成功解决迷宫,更展现出了令人惊讶的“回溯”与“蛙跳”行为。在训练过程中,模型会先沿着一条路径前进,然后突然意识到“哦,不该死!我走错了”,随即回溯并选择另一条路径。这种行为在传统模型中几乎不可能出现,因为它要求模型具备对自身推理过程的元认知能力。更令人震撼的是,当限制模型的思考时间时,模型并未采取线性推进的方式,而是采用“蛙跳”策略:迅速跳跃到大致目标位置,然后向后追溯填补路径,再向前跳跃,重复此过程。这种行为显然是系统约束下的最优解,它揭示了模型在不同条件下会自发演化出不同的算法策略。

此外,团队还开发了名为《苏都库bench》(SudokuBench)的基准测试,旨在评估模型在复杂推理任务上的真实能力。该数据集包含大量“变体数独”谜题,这些谜题在标准数独规则基础上增加了手工设计的额外约束,例如“老鼠需要通过追踪一条通往奶酪的路径来走出迷宫,但它走过的路径上的数字还有约束,比如它们加起来必须是多少?” 更为关键的是,许多谜题的描述使用自然语言,甚至包含误导性信息,如“顺便说一句,那段描述里的一个数字是错的”。这要求模型不仅要理解规则,还要对规则本身进行“原推理”(meta-reasoning)。目前最先进的模型得分仅为约15%,且仅能解决最简单的谜题。相比之下,人类专家(如YouTube频道Cracking the Cryptic的两位英国绅士)在视频中展现出的推理过程,充满了直觉、回溯与创造性跳跃,这是当前AI模型完全无法模仿的。

“他们找不到这些突破口BREAKING,他们会退回到:好吧,我试试不行?那我试试五、试试六、试试七……他们的推理变得非常无聊,和我们从那个YouTube频道开源的文字记录里看到的完全不一样。”
—— 播客原文

这一对比凸显了当前AI模型的局限性:它们缺乏对“世界”的深层理解,无法像人类一样构建一个庞大的、动态的“推理之树”。相反,它们更像是在巨大的搜索空间中盲目试错。而CTM的同步表示空间,或许正是通向构建这种“推理之树”的钥匙。

总结与启示:迈向下一个智能纪元

综上所述,本播客提供了一个关于人工智能未来发展的深刻洞见。它揭示了当前技术繁荣背后的隐忧:Transformer的成功已成为创新的枷锁,使整个行业陷入“局部最优解”的陷阱。而《连续思维机器》的出现,不仅是一项技术突破,更是一次对研究范式、组织文化和人类认知本质的全面反思。它告诉我们,真正的智能不应是静态的、大规模的、可预测的,而应是动态的、自适应的、具有内在因果逻辑的。其核心在于,将“思维”本身作为第一性原理来建模,而非仅仅模拟其结果。

更为深远的启示在于,突破的源泉不在技术本身,而在研究者的自由。当一个组织能够真正践行“允许人们追随自己的兴趣”的原则,当它愿意为探索付出时间与耐心,当它敢于容忍不确定性与失败,那么,下一个Transformer就有可能在不经意间诞生。正如发言者所言:“我愿意下这个赌注,我认为由此会产生非常有趣的东西。” 这不仅是对CTM的信心,更是对整个AI研究未来的信念。在这个意义上,本播客不仅是一次技术分享,更是一份献给所有怀揣好奇心与创造力的探索者的宣言:请继续追问,继续实验,继续做你认为有趣且重要的事情。因为,伟大的突破,永远属于那些敢于逃离引力盆地的人。