← 返回

概念论文解读

迈向「生成认知」（Enactive）的人工智能

Toward Enactive Artificial Intelligence

Authors

Banafsheh Rafiee, Richard S. Sutton

Institutions

University of Alberta · Amii (Alberta Machine Intelligence Institute) · Keen Technologies

Venue

arXiv 2026 (cs.AI) · 2026-05-22

Links

论文原文

TL;DR

强化学习之父、图灵奖得主 Richard Sutton 与 Banafsheh Rafiee 的一篇哲学立场论文。它主张把认知科学里的「生成认知」（enactive cognition）思想引入 AI：知觉不是大脑被动接收输入、构建内部世界模型，而是「通过行动来知觉」——智能体在与世界的持续互动中、靠掌握自己的动作如何改变感官体验来理解世界。作者提炼出四个核心概念——经验、行动—知觉不可分、自主性、具身——指出从规则系统到大语言模型的主流 AI 基本忽视了它们，而强化学习与这套思想存在「结构性共鸣」（但远非等价），并呼吁把生成认知更深地嵌入 RL 与 AI。

30 秒速览

作者

Banafsheh Rafiee、Richard S. Sutton（2024 图灵奖得主、RL 教科书作者）

机构

University of Alberta / Amii / Keen Technologies

发表

arXiv preprint，2026-05-22，cs.AI

类型

概念 / 立场论文（无实验、无代码，是一份研究纲领）

一句话

AI 该向「身体在世界中行动」的认知观靠拢；RL 走在最前，但只走了一半。

问题：主流 AI 继承了一种「被动知觉」的旧哲学

现代 AI 默认了一个少有人质疑的认知图景——表征主义(知觉=内部建模)（representationalism）：大脑像一台中央处理器，接收感官输入、加工成关于世界的内部表征、再据此生成行动计划。这套图景把知觉者和外部世界划清界限，把知觉简化为「准确地构建和操作内部模型」。

作者要挑战的正是这一点。他们援引生成认知(知觉即行动)（enactivism，Varela 1991）与现象学（Husserl、Heidegger 的「在世存在」、Merleau-Ponty 的「身体是体验世界的媒介」）、Gibson 的生态学知觉论等一脉思想，主张知觉是一种主动、熟练的、与世界的交互，而非对涌入数据的被动登记。判断知觉好坏的标准，不是「内部表征有多逼真」，而是「智能体与环境熟练打交道的能力有多强」。

论文的批评对象覆盖面很广：从经典规则系统，到今天的大语言模型，都被归为「把认知当作脱离了身体互动与内在规范性的内部处理」。这不是一篇技术论文，而是一份给 RL 与 AI 的研究纲领。

核心框架：从「先知觉后行动」到「行动与知觉相互构成」

生成认知的根本命题是：认知、知觉、行动三者相互构成（mutually constitutive）。知觉既不在行动之前、也不只是为行动导航，而是与行动在与环境的持续互动中一同展开。换句话说，知觉就是掌握感觉运动权变(动作如何改变感官)（sensorimotor contingencies）——比如「眼睛向左移，视野中的物体就向右移」这种规律。要知觉，就是熟练地驾驭这些规律，而不是被动接收数据。

作者把对比浓缩成一句借自机器人学家 Rodney Brooks 的话：「世界本身就是它最好的模型」。任何内部模型都无法穷尽世界的丰富与开放变化；最可靠、最新、最细粒度的信息永远在世界本身里，而不在内部替身里。所以智能体必须持续与世界互动，靠实时反馈不断校准。下图对比了两种认知图景。

左：经典表征主义把知觉当成「世界→感官→内部模型→行动指令」的单向流水线。右：生成认知把智能体与世界看作一个相互构成的实时回路，行动与知觉交织不可分。

核心机制：四个概念，以及 AI 各流派落在哪

作者挑出四个对 AI 最相关的生成认知概念，并逐一检视主流 AI、机器人学、强化学习与之的契合程度。注意：作者反复强调这些比较是结构性的（找共同的组织模式），不是宣称理论等价。

四个核心概念，与对应的 AI 现状：

① 经验（Experience）：智能体得用自己采集的数据持续学

认知扎根于智能体与环境的持续互动。监督学习只触及了「数据=经验的副产品」这层皮，却依赖人类采集和标注的固定数据集，把认知当成「一次性从数据里学完」。RL 把经验放到了学习的核心——智能体主动行动、采集自己的数据。作者点名 Silver & Sutton 的经验时代(Era of Experience)（silver2025welcome）：数据必须随智能体能力一同改进，而这只有靠智能体自己的经验才可能。相关的还有持续学习、以及大世界假设(世界远大于智能体)（Big World Hypothesis）——世界比智能体大几个数量级，因此从智能体视角看永远在变，必须持续互动、持续更新理解。

② 行动—知觉不可分：知觉本身就是一种熟练的行动

知觉=掌握感觉运动权变（动眼、转头、移动身体如何系统性改变感官输入）。但生成认知的主张更强：「去知觉就是去行动」。智能体靠有目的的移动来揭示环境结构（转头消除场景歧义）。Merleau-Ponty 把这个反馈回路叫意向弧(理解与回应互相精炼)（intentional arc）：理解得越好→回应越精细→又揭示新方面→理解再精进，智能体被吸引向更稳定清晰的「最优把握(maximal grip)」。这层在主流 AI 里基本缺席——知觉仍被当成行动之前的被动信息提取。

③ 自主性（Autonomy）：评价标准应来自智能体自身

生成认知里智能体是自组织系统，其知觉由自己的目标与需要塑造，常以自创生(自我生产自我维持)（autopoiesis）为根基。由此产生规范性(成败相对于自身存续)（normativity）：行动的成败相对于智能体自身的存续，而非外部强加。作者用两个问题拆解 AI：(a) 智能体能否评价自己的行为？(b) 成败标准来自它自己还是外部？监督学习与 LLM 两者皆无（靠模仿人类数据，把评价外包给外部信号）；控制系统有连续评价但绑定预设目标；RL 通过奖励在整条轨迹上评价行为（「考虑后果，这个行为好不好」），抓住了规范性的重要一面——但奖励函数仍是外部定义的。

④ 具身（Embodiment）：身体不是事后附加，而是知觉得以可能的前提

身体的形状、结构、能力决定了可能的感觉运动权变；关节、肌肉分布、感官布局共同界定「可被知觉的相似性」（Gibson 的可供性(相对身体而显现)/affordance：「可抓」「可攀」只相对于身体能力才存在）。形态计算(身体参与计算)（morphological computation）与软体机器人表明身体能简化控制、塑造行为。而主流 AI 大多是无身体的——把知觉缩成「静态数据集上的模式识别」；具身 RL 与机器人学也常把身体当成外部约束而非认知的构成原理（模块化架构把知觉/规划/控制分离、过度依赖仿真与离线训练）。

行动—知觉

交通灯坏了：视频生成模型 vs 生成式智能体

一个纯靠观察学习的视频生成模型能准确预测「绿→黄→红」的序列，但这只是在追踪规律。当灯故障、被打断、或需要采取行动去改变局面（叫停车流、触发过街信号、诊断故障）时，它「无可依凭」。

差别不在准确率，而在种类：模型能续写模式，生成式智能体能在模式破裂时决定下一步该做什么。

自主性

监督学习 / LLM 无法给自己打分

对任一输入，模型无法知道自己的输出是否成功，除非外部提供信号。评价完全发生在外部，成败标准由数据集和标注流程全权指定。LLM 即便用 next-token 预测自监督训练，本质仍是模仿人类数据，评价被外包。

系统既不自评、也没有自己的成功标准——这是「自主性」缺失的典型。

RL 的进步

控制系统问「现在离目标多近」，RL 问「这个行为后来好不好」

控制系统跟踪当前状态相对设定点/代价函数的偏差，评价绑定在「瞬时偏离」上。RL 则在整条轨迹上、连带延迟效应来评价行为，引入了时间延展的成败概念——评价嵌入了智能体持续的互动与学习。

RL 抓住了规范性的重要一面，是四概念里走得最远的——但奖励函数仍由外部定义，未触及「自身组织产生的规范性」。

具身

软体机器人：身体本身在做计算

软体机器人与形态计算显示，身体结构能承担主动的计算角色，靠物理动力学简化控制、塑造行为；改变机器人的物理形态会显著改变它的知觉能力。

印证了「具身是知觉的构成条件」——但这类工作在主流机器人/AI 里仍是边缘，无身体的数据驱动学习与模块化设计依旧主导。

它真正在说什么：RL 是「结构共鸣」，但只对了一半

全文的落点很克制，没有「LLM 是死路、RL 是答案」式的口号。作者的判断是：主流 AI 基本没领会生成认知的洞见，而 RL 表现出几处结构性共鸣——让智能体靠试错生成自己的经验、把行动放到学习中心、用奖励引入时间延展的评价。

但这种契合是部分的，三处明确的缺口：(1) 评价仍通过奖励函数外部指定，没有扎根于智能体自身的组织；(2) 行动—知觉不可分未真正实现，知觉通常仍被当成先于行动；(3) 具身被当成实现细节，而非认知的构成条件。

换句话说，这是一篇给 Sutton 自己阵营（RL/「经验时代」）的内部提醒：RL 是离生成认知最近的范式，但要真正抵达，还得把「规范性从何而来」「知觉与行动如何更深地交织」「身体/具身对软件智能体意味着什么」这些问题补上。这也呼应了 Sutton 一贯的主线——智能应当来自智能体与世界的互动经验，而非灌入的人类知识。

一句定调

「生成式视频模型能续写一个模式，而生成式智能体能在模式破裂时决定下一步该做什么。」——这句话是全文对「会预测」与「会行动地理解」之分野最锋利的概括。

争议与局限：一份纲领，而非可检验的方案

作者自己坦承了最大的短板：本文只articulate 了概念、把它们关联到现有 AI 框架，并没有把它们操作化（operationalize）。也就是说，它给出的是方向感和词汇表，不是可训练、可评测的方法。

几个悬而未决、决定这套想法能否落地的问题（作者列在结论里）：(1) 怎样才算「更高程度的行动—知觉不可分」？(2) 什么样的 benchmark 能衡量「熟练的交互」而非「模式复现」？(3) 对人工智能体而言，「自我维持」指什么——电量、硬件完整性，还是习得的能力？(4) AI 里的「具身」算什么——一个机器人身体，还是一个带工具和 API 的软件智能体？

其他可商榷处：文章大量借重现象学与认知科学（Merleau-Ponty、Varela、Gibson），对偏工程的读者门槛不低；它对 LLM 的批评（「只是追踪规律、无法自评」）虽切中要害，但 LLM 阵营会反驳——带工具调用、可执行反馈、RLHF 的现代 agent 系统已经在部分弥合这些缺口，而第 (4) 问恰恰承认了「软件智能体 + 工具/API」可能就是一种新的具身。这篇论文的价值更多在于提供一套审视 AI 的透镜，而非给出可立即采用的技术。

术语表

正文中带简注的承重术语，完整释义见下。

生成认知 / enactivism

认知科学的一支（Varela 等 1991 提出）。主张认知是「被生成（enacted）」而非预先给定的：去认知，就是通过身体与环境的互动「带出」一个有意义的世界。本文借用此词，但综合了现象学、生态心理学等更广的一束思想，不限于这一传统。

表征主义 / representationalism

经典认知观：知觉=把感官输入转换成关于世界的内部表征，这些表征充当世界的替身，让系统无需世界在场也能推理和行动。生成认知正是要反对这一图景。

感觉运动权变 / sensorimotor contingencies

动作与感官输入变化之间的规律性关系，例如「眼睛左移→视野物体右移」。生成认知主张：知觉就是掌握这些权变，而非被动监测它们。

可供性 / affordance

Gibson 生态心理学概念：环境以「可抓」「可攀」「可通过」等行动可能性的形式向智能体显现；它不是环境的固定属性，而是相对于智能体身体能力、在互动中浮现的。

意向弧 / intentional arc

Merleau-Ponty 用语，指理解与回应相互精炼的反馈回路：理解越好→回应越精细→揭示新方面→理解再进。智能体由此趋向对情境的「最优把握（maximal grip）」——身体与环境之间最稳定、清晰、对齐的状态。

自创生 / autopoiesis

指自我生产、自我维持的系统：它主动维系自身的组织。生成认知用它来奠基「自主性」——知觉反映的是「从智能体存续的立场看，什么是重要的」。

规范性 / normativity

行动有成败、合不合适之分。生成认知主张这种「好坏标准」应源于智能体维持自身组织的需要，而非外部强加；这是当前 AI（含 RL，其奖励仍是外部给定）尚未真正实现的。

大世界假设 / Big World Hypothesis

（javed2024big）世界比智能体大若干数量级，因此从智能体视角看世界永远在变。它支持「必须持续学习、持续互动」的主张，与生成认知呼应。

形态计算 / morphological computation

身体的物理结构本身承担一部分「计算」：恰当的形态能简化控制、塑造行为（软体机器人是典型）。用以论证身体是认知的构成条件，而非事后附加的执行接口。

经验时代 / Era of Experience

Silver & Sutton 的主张（silver2025welcome）：AI 的下一步在于让智能体通过自身经验学习，数据必须随智能体能力一同改进，而非停留在人类生成的固定语料上。本文将其作为「经验」概念在 AI 中的代表性表达。

延伸阅读

原文与关键参考脉络。