← 返回
概念论文解读

迈向「生成认知」(Enactive)的人工智能

Toward Enactive Artificial Intelligence
Authors
Banafsheh Rafiee, Richard S. Sutton
Institutions
University of Alberta · Amii (Alberta Machine Intelligence Institute) · Keen Technologies
Venue
arXiv 2026 (cs.AI) · 2026-05-22
Links
TL;DR

强化学习之父、图灵奖得主 Richard Sutton 与 Banafsheh Rafiee 的一篇哲学立场论文。它主张把认知科学里的「生成认知」(enactive cognition)思想引入 AI:知觉不是大脑被动接收输入、构建内部世界模型,而是「通过行动来知觉」——智能体在与世界的持续互动中、靠掌握自己的动作如何改变感官体验来理解世界。作者提炼出四个核心概念——经验、行动—知觉不可分、自主性、具身——指出从规则系统到大语言模型的主流 AI 基本忽视了它们,而强化学习与这套思想存在「结构性共鸣」(但远非等价),并呼吁把生成认知更深地嵌入 RL 与 AI。

30 秒速览
作者
Banafsheh Rafiee、Richard S. Sutton(2024 图灵奖得主、RL 教科书作者)
机构
University of Alberta / Amii / Keen Technologies
发表
arXiv preprint,2026-05-22,cs.AI
类型
概念 / 立场论文(无实验、无代码,是一份研究纲领)
一句话
AI 该向「身体在世界中行动」的认知观靠拢;RL 走在最前,但只走了一半。
01

问题:主流 AI 继承了一种「被动知觉」的旧哲学

现代 AI 默认了一个少有人质疑的认知图景——表征主义(知觉=内部建模)(representationalism):大脑像一台中央处理器,接收感官输入、加工成关于世界的内部表征、再据此生成行动计划。这套图景把知觉者和外部世界划清界限,把知觉简化为「准确地构建和操作内部模型」。

作者要挑战的正是这一点。他们援引生成认知(知觉即行动)(enactivism,Varela 1991)与现象学(Husserl、Heidegger 的「在世存在」、Merleau-Ponty 的「身体是体验世界的媒介」)、Gibson 的生态学知觉论等一脉思想,主张知觉是一种主动、熟练的、与世界的交互,而非对涌入数据的被动登记。判断知觉好坏的标准,不是「内部表征有多逼真」,而是「智能体与环境熟练打交道的能力有多强」。

论文的批评对象覆盖面很广:从经典规则系统,到今天的大语言模型,都被归为「把认知当作脱离了身体互动与内在规范性的内部处理」。这不是一篇技术论文,而是一份给 RL 与 AI 的研究纲领。

02

核心框架:从「先知觉后行动」到「行动与知觉相互构成」

生成认知的根本命题是:认知、知觉、行动三者相互构成(mutually constitutive)。知觉既不在行动之前、也不只是为行动导航,而是与行动在与环境的持续互动中一同展开。换句话说,知觉就是掌握感觉运动权变(动作如何改变感官)(sensorimotor contingencies)——比如「眼睛向左移,视野中的物体就向右移」这种规律。要知觉,就是熟练地驾驭这些规律,而不是被动接收数据。

作者把对比浓缩成一句借自机器人学家 Rodney Brooks 的话:「世界本身就是它最好的模型」。任何内部模型都无法穷尽世界的丰富与开放变化;最可靠、最新、最细粒度的信息永远在世界本身里,而不在内部替身里。所以智能体必须持续与世界互动,靠实时反馈不断校准。下图对比了两种认知图景。

表征主义:知觉先于行动生成认知:行动即知觉世界感官输入大脑 = 中央处理器构建内部表征行动指令行动智能体世界行动知觉相互构成 · 实时耦合
左:经典表征主义把知觉当成「世界→感官→内部模型→行动指令」的单向流水线。右:生成认知把智能体与世界看作一个相互构成的实时回路,行动与知觉交织不可分。
03

核心机制:四个概念,以及 AI 各流派落在哪

作者挑出四个对 AI 最相关的生成认知概念,并逐一检视主流 AI、机器人学、强化学习与之的契合程度。注意:作者反复强调这些比较是结构性的(找共同的组织模式),不是宣称理论等价。

四个核心概念,与对应的 AI 现状:

1
① 经验(Experience):智能体得用自己采集的数据持续学
认知扎根于智能体与环境的持续互动。监督学习只触及了「数据=经验的副产品」这层皮,却依赖人类采集和标注的固定数据集,把认知当成「一次性从数据里学完」。RL 把经验放到了学习的核心——智能体主动行动、采集自己的数据。作者点名 Silver & Sutton 的经验时代(Era of Experience)(silver2025welcome):数据必须随智能体能力一同改进,而这只有靠智能体自己的经验才可能。相关的还有持续学习、以及大世界假设(世界远大于智能体)(Big World Hypothesis)——世界比智能体大几个数量级,因此从智能体视角看永远在变,必须持续互动、持续更新理解。
2
② 行动—知觉不可分:知觉本身就是一种熟练的行动
知觉=掌握感觉运动权变(动眼、转头、移动身体如何系统性改变感官输入)。但生成认知的主张更强:「去知觉就是去行动」。智能体靠有目的的移动来揭示环境结构(转头消除场景歧义)。Merleau-Ponty 把这个反馈回路叫意向弧(理解与回应互相精炼)(intentional arc):理解得越好→回应越精细→又揭示新方面→理解再精进,智能体被吸引向更稳定清晰的「最优把握(maximal grip)」。这层在主流 AI 里基本缺席——知觉仍被当成行动之前的被动信息提取。
3
③ 自主性(Autonomy):评价标准应来自智能体自身
生成认知里智能体是自组织系统,其知觉由自己的目标与需要塑造,常以自创生(自我生产自我维持)(autopoiesis)为根基。由此产生规范性(成败相对于自身存续)(normativity):行动的成败相对于智能体自身的存续,而非外部强加。作者用两个问题拆解 AI:(a) 智能体能否评价自己的行为?(b) 成败标准来自它自己还是外部?监督学习与 LLM 两者皆无(靠模仿人类数据,把评价外包给外部信号);控制系统有连续评价但绑定预设目标;RL 通过奖励在整条轨迹上评价行为(「考虑后果,这个行为好不好」),抓住了规范性的重要一面——但奖励函数仍是外部定义的。
4
④ 具身(Embodiment):身体不是事后附加,而是知觉得以可能的前提
身体的形状、结构、能力决定了可能的感觉运动权变;关节、肌肉分布、感官布局共同界定「可被知觉的相似性」(Gibson 的可供性(相对身体而显现)/affordance:「可抓」「可攀」只相对于身体能力才存在)。形态计算(身体参与计算)(morphological computation)与软体机器人表明身体能简化控制、塑造行为。而主流 AI 大多是无身体的——把知觉缩成「静态数据集上的模式识别」;具身 RL 与机器人学也常把身体当成外部约束而非认知的构成原理(模块化架构把知觉/规划/控制分离、过度依赖仿真与离线训练)。
行动—知觉
交通灯坏了:视频生成模型 vs 生成式智能体
一个纯靠观察学习的视频生成模型能准确预测「绿→黄→红」的序列,但这只是在追踪规律。当灯故障、被打断、或需要采取行动去改变局面(叫停车流、触发过街信号、诊断故障)时,它「无可依凭」。
差别不在准确率,而在种类:模型能续写模式,生成式智能体能在模式破裂时决定下一步该做什么。
自主性
监督学习 / LLM 无法给自己打分
对任一输入,模型无法知道自己的输出是否成功,除非外部提供信号。评价完全发生在外部,成败标准由数据集和标注流程全权指定。LLM 即便用 next-token 预测自监督训练,本质仍是模仿人类数据,评价被外包。
系统既不自评、也没有自己的成功标准——这是「自主性」缺失的典型。
RL 的进步
控制系统问「现在离目标多近」,RL 问「这个行为后来好不好」
控制系统跟踪当前状态相对设定点/代价函数的偏差,评价绑定在「瞬时偏离」上。RL 则在整条轨迹上、连带延迟效应来评价行为,引入了时间延展的成败概念——评价嵌入了智能体持续的互动与学习。
RL 抓住了规范性的重要一面,是四概念里走得最远的——但奖励函数仍由外部定义,未触及「自身组织产生的规范性」。
具身
软体机器人:身体本身在做计算
软体机器人与形态计算显示,身体结构能承担主动的计算角色,靠物理动力学简化控制、塑造行为;改变机器人的物理形态会显著改变它的知觉能力。
印证了「具身是知觉的构成条件」——但这类工作在主流机器人/AI 里仍是边缘,无身体的数据驱动学习与模块化设计依旧主导。
04

它真正在说什么:RL 是「结构共鸣」,但只对了一半

全文的落点很克制,没有「LLM 是死路、RL 是答案」式的口号。作者的判断是:主流 AI 基本没领会生成认知的洞见,而 RL 表现出几处结构性共鸣——让智能体靠试错生成自己的经验、把行动放到学习中心、用奖励引入时间延展的评价。

但这种契合是部分的,三处明确的缺口:(1) 评价仍通过奖励函数外部指定,没有扎根于智能体自身的组织;(2) 行动—知觉不可分未真正实现,知觉通常仍被当成先于行动;(3) 具身被当成实现细节,而非认知的构成条件。

换句话说,这是一篇给 Sutton 自己阵营(RL/「经验时代」)的内部提醒:RL 是离生成认知最近的范式,但要真正抵达,还得把「规范性从何而来」「知觉与行动如何更深地交织」「身体/具身对软件智能体意味着什么」这些问题补上。这也呼应了 Sutton 一贯的主线——智能应当来自智能体与世界的互动经验,而非灌入的人类知识。

一句定调

「生成式视频模型能续写一个模式,而生成式智能体能在模式破裂时决定下一步该做什么。」——这句话是全文对「会预测」与「会行动地理解」之分野最锋利的概括。

05

争议与局限:一份纲领,而非可检验的方案

作者自己坦承了最大的短板:本文只articulate 了概念、把它们关联到现有 AI 框架,并没有把它们操作化(operationalize)。也就是说,它给出的是方向感和词汇表,不是可训练、可评测的方法。

几个悬而未决、决定这套想法能否落地的问题(作者列在结论里):(1) 怎样才算「更高程度的行动—知觉不可分」?(2) 什么样的 benchmark 能衡量「熟练的交互」而非「模式复现」?(3) 对人工智能体而言,「自我维持」指什么——电量、硬件完整性,还是习得的能力?(4) AI 里的「具身」算什么——一个机器人身体,还是一个带工具和 API 的软件智能体?

其他可商榷处:文章大量借重现象学与认知科学(Merleau-Ponty、Varela、Gibson),对偏工程的读者门槛不低;它对 LLM 的批评(「只是追踪规律、无法自评」)虽切中要害,但 LLM 阵营会反驳——带工具调用、可执行反馈、RLHF 的现代 agent 系统已经在部分弥合这些缺口,而第 (4) 问恰恰承认了「软件智能体 + 工具/API」可能就是一种新的具身。这篇论文的价值更多在于提供一套审视 AI 的透镜,而非给出可立即采用的技术。

06

术语表

正文中带简注的承重术语,完整释义见下。
生成认知 / enactivism
认知科学的一支(Varela 等 1991 提出)。主张认知是「被生成(enacted)」而非预先给定的:去认知,就是通过身体与环境的互动「带出」一个有意义的世界。本文借用此词,但综合了现象学、生态心理学等更广的一束思想,不限于这一传统。
表征主义 / representationalism
经典认知观:知觉=把感官输入转换成关于世界的内部表征,这些表征充当世界的替身,让系统无需世界在场也能推理和行动。生成认知正是要反对这一图景。
感觉运动权变 / sensorimotor contingencies
动作与感官输入变化之间的规律性关系,例如「眼睛左移→视野物体右移」。生成认知主张:知觉就是掌握这些权变,而非被动监测它们。
可供性 / affordance
Gibson 生态心理学概念:环境以「可抓」「可攀」「可通过」等行动可能性的形式向智能体显现;它不是环境的固定属性,而是相对于智能体身体能力、在互动中浮现的。
意向弧 / intentional arc
Merleau-Ponty 用语,指理解与回应相互精炼的反馈回路:理解越好→回应越精细→揭示新方面→理解再进。智能体由此趋向对情境的「最优把握(maximal grip)」——身体与环境之间最稳定、清晰、对齐的状态。
自创生 / autopoiesis
指自我生产、自我维持的系统:它主动维系自身的组织。生成认知用它来奠基「自主性」——知觉反映的是「从智能体存续的立场看,什么是重要的」。
规范性 / normativity
行动有成败、合不合适之分。生成认知主张这种「好坏标准」应源于智能体维持自身组织的需要,而非外部强加;这是当前 AI(含 RL,其奖励仍是外部给定)尚未真正实现的。
大世界假设 / Big World Hypothesis
(javed2024big)世界比智能体大若干数量级,因此从智能体视角看世界永远在变。它支持「必须持续学习、持续互动」的主张,与生成认知呼应。
形态计算 / morphological computation
身体的物理结构本身承担一部分「计算」:恰当的形态能简化控制、塑造行为(软体机器人是典型)。用以论证身体是认知的构成条件,而非事后附加的执行接口。
经验时代 / Era of Experience
Silver & Sutton 的主张(silver2025welcome):AI 的下一步在于让智能体通过自身经验学习,数据必须随智能体能力一同改进,而非停留在人类生成的固定语料上。本文将其作为「经验」概念在 AI 中的代表性表达。
07

延伸阅读

原文与关键参考脉络。