迈向「生成认知」(Enactive)的人工智能
强化学习之父、图灵奖得主 Richard Sutton 与 Banafsheh Rafiee 的一篇哲学立场论文。它主张把认知科学里的「生成认知」(enactive cognition)思想引入 AI:知觉不是大脑被动接收输入、构建内部世界模型,而是「通过行动来知觉」——智能体在与世界的持续互动中、靠掌握自己的动作如何改变感官体验来理解世界。作者提炼出四个核心概念——经验、行动—知觉不可分、自主性、具身——指出从规则系统到大语言模型的主流 AI 基本忽视了它们,而强化学习与这套思想存在「结构性共鸣」(但远非等价),并呼吁把生成认知更深地嵌入 RL 与 AI。
问题:主流 AI 继承了一种「被动知觉」的旧哲学
现代 AI 默认了一个少有人质疑的认知图景——表征主义(知觉=内部建模)(representationalism):大脑像一台中央处理器,接收感官输入、加工成关于世界的内部表征、再据此生成行动计划。这套图景把知觉者和外部世界划清界限,把知觉简化为「准确地构建和操作内部模型」。
作者要挑战的正是这一点。他们援引生成认知(知觉即行动)(enactivism,Varela 1991)与现象学(Husserl、Heidegger 的「在世存在」、Merleau-Ponty 的「身体是体验世界的媒介」)、Gibson 的生态学知觉论等一脉思想,主张知觉是一种主动、熟练的、与世界的交互,而非对涌入数据的被动登记。判断知觉好坏的标准,不是「内部表征有多逼真」,而是「智能体与环境熟练打交道的能力有多强」。
论文的批评对象覆盖面很广:从经典规则系统,到今天的大语言模型,都被归为「把认知当作脱离了身体互动与内在规范性的内部处理」。这不是一篇技术论文,而是一份给 RL 与 AI 的研究纲领。
核心框架:从「先知觉后行动」到「行动与知觉相互构成」
生成认知的根本命题是:认知、知觉、行动三者相互构成(mutually constitutive)。知觉既不在行动之前、也不只是为行动导航,而是与行动在与环境的持续互动中一同展开。换句话说,知觉就是掌握感觉运动权变(动作如何改变感官)(sensorimotor contingencies)——比如「眼睛向左移,视野中的物体就向右移」这种规律。要知觉,就是熟练地驾驭这些规律,而不是被动接收数据。
作者把对比浓缩成一句借自机器人学家 Rodney Brooks 的话:「世界本身就是它最好的模型」。任何内部模型都无法穷尽世界的丰富与开放变化;最可靠、最新、最细粒度的信息永远在世界本身里,而不在内部替身里。所以智能体必须持续与世界互动,靠实时反馈不断校准。下图对比了两种认知图景。
核心机制:四个概念,以及 AI 各流派落在哪
四个核心概念,与对应的 AI 现状:
它真正在说什么:RL 是「结构共鸣」,但只对了一半
全文的落点很克制,没有「LLM 是死路、RL 是答案」式的口号。作者的判断是:主流 AI 基本没领会生成认知的洞见,而 RL 表现出几处结构性共鸣——让智能体靠试错生成自己的经验、把行动放到学习中心、用奖励引入时间延展的评价。
但这种契合是部分的,三处明确的缺口:(1) 评价仍通过奖励函数外部指定,没有扎根于智能体自身的组织;(2) 行动—知觉不可分未真正实现,知觉通常仍被当成先于行动;(3) 具身被当成实现细节,而非认知的构成条件。
换句话说,这是一篇给 Sutton 自己阵营(RL/「经验时代」)的内部提醒:RL 是离生成认知最近的范式,但要真正抵达,还得把「规范性从何而来」「知觉与行动如何更深地交织」「身体/具身对软件智能体意味着什么」这些问题补上。这也呼应了 Sutton 一贯的主线——智能应当来自智能体与世界的互动经验,而非灌入的人类知识。
「生成式视频模型能续写一个模式,而生成式智能体能在模式破裂时决定下一步该做什么。」——这句话是全文对「会预测」与「会行动地理解」之分野最锋利的概括。
争议与局限:一份纲领,而非可检验的方案
作者自己坦承了最大的短板:本文只articulate 了概念、把它们关联到现有 AI 框架,并没有把它们操作化(operationalize)。也就是说,它给出的是方向感和词汇表,不是可训练、可评测的方法。
几个悬而未决、决定这套想法能否落地的问题(作者列在结论里):(1) 怎样才算「更高程度的行动—知觉不可分」?(2) 什么样的 benchmark 能衡量「熟练的交互」而非「模式复现」?(3) 对人工智能体而言,「自我维持」指什么——电量、硬件完整性,还是习得的能力?(4) AI 里的「具身」算什么——一个机器人身体,还是一个带工具和 API 的软件智能体?
其他可商榷处:文章大量借重现象学与认知科学(Merleau-Ponty、Varela、Gibson),对偏工程的读者门槛不低;它对 LLM 的批评(「只是追踪规律、无法自评」)虽切中要害,但 LLM 阵营会反驳——带工具调用、可执行反馈、RLHF 的现代 agent 系统已经在部分弥合这些缺口,而第 (4) 问恰恰承认了「软件智能体 + 工具/API」可能就是一种新的具身。这篇论文的价值更多在于提供一套审视 AI 的透镜,而非给出可立即采用的技术。