← 返回
35 min 2025-11

#306. 黄仁勋、辛顿、扬勒昆、李飞飞与人工智能的未来愿景 - 跨国串门儿计划

报告概述

本报告基于对《跨国串门计划》第306期播客内容的全面分析,系统性地还原并深入阐释了一场由《经济学人》资深编辑Matthew Hume Mergia主持、汇聚六位2025年伊丽莎白女王工程奖得主的顶级圆桌对话。这场对话不仅是一次技术思想的巅峰碰撞,更是一场关于人工智能发展本质、历史转折点与未来演进路径的深刻哲学思辨。核心议题围绕“人工智能是否正处在一个不可持续的泡沫之中”展开,但其深层逻辑远超简单的市场判断,而是触及了技术范式演进、算力基础设施、数据驱动机制、人类智能边界以及社会伦理框架等多重维度。六位嘉宾——深度学习三巨头Yoshua Bengio、Geoffrey Hinton、Yann LeCun,英伟达创始人兼CEO Jensen Huang,斯坦福大学芯片架构专家Bill Dally,以及“ImageNet之母”Fei-Fei Li——以各自职业生涯中的关键“顿悟时刻”为切入点,共同构建了一幅跨越数十年的技术图景,揭示出人工智能从理论萌芽到现实爆发的内在动力。这些顿悟时刻并非孤立事件,而是由特定技术瓶颈(如内存墙)、认知突破(如反向传播的可训练性)、数据革命(如ImageNet的创建)和工程范式创新(如GPU的并行化设计)所共同促成的系统性跃迁。在当前大语言模型主导的热潮背景下,嘉宾们一致认为,尽管存在对技术极限的过度乐观预期,但整体上并非泡沫,而是一个由“双重指数增长”驱动的智能大建设初期阶段:一方面,生成一个答案所需的计算量呈指数级上升;另一方面,人工智能模型的使用量也呈指数级扩张。这一双重增长催生了前所未有的计算需求,使得人工智能必须依赖“工厂”来生产“智能代币”,从而彻底改变了软件行业的本质——从预编译工具转变为实时生成的智能实体。因此,当前的高估值并非源于投机,而是对底层算力基础设施价值的合理反映。

报告进一步深入探讨了人工智能未来的演进方向与实现时间线。嘉宾们普遍承认,当前的大语言模型范式虽已取得惊人成就,但其能力边界清晰可见,尤其在空间智能、具身认知与自主行动方面仍存在根本性缺陷。他们一致指出,要实现真正的人类水平智能,必须超越现有的监督学习与自监督学习范式,探索新的科学原理与技术路径。在此背景下,人工智能的发展将不再仅仅是工程优化问题,而回归为一场深刻的科学探索。关于何时能实现通用人工智能,嘉宾们的预测呈现出显著差异:Jensen Huang认为“总能赢”的辩论机器将在20年内出现;Yann LeCun则强调这不会是突发事件,而是一个逐步扩展的过程,可能在5至10年内提出新范式;Bill Dally则主张问题本身可能被误读,目标应是增强而非取代人类,因此时间线充满不确定性。最终,所有嘉宾达成共识:我们正处于一个“未来已来”的临界点,但永远不会有一个单一的“奇点”时刻。真正的挑战在于如何引导这项技术,使其成为人类智慧的延伸而非替代,确保其发展始终以人性与价值观为核心。这场对话的价值不仅在于预见未来,更在于提醒我们:每一次技术飞跃的背后,都是无数个体在孤独中坚持信念、在困境中寻找突破口的集体努力,而正是这些“顿悟时刻”构成了推动文明前进的真正引擎。

核心观点一:顿悟时刻——塑造现代人工智能的六大关键转折点

人工智能的崛起并非一蹴而就,而是由一系列深刻且相互关联的个人顿悟时刻所串联而成的历史进程。这些时刻不仅是技术上的突破,更是科学家们在认知、信念与研究方向上的根本性转变,它们共同定义了现代人工智能的基石。首先,Yoshua Bengio分享了他职业生涯中两个截然不同的转折点:第一个发生在其研究生时期,当他阅读Geoffrey Hinton的早期论文时,内心产生了强烈的震撼,他意识到“也许存在一些像物理定律一样简单的原则,能帮我们理解人类智能,并构建出智能机器”。这一顿悟源于对神经网络潜力的直觉性洞察,它将复杂的智能现象简化为可被数学描述的规律,从而点燃了他对人工智能领域的终身热情。第二个顿悟则发生于两年半前ChatGPT问世之后,Bengio突然意识到“我们到底在做什么?如果我们造出了能理解语言、拥有目标,而我们又无法控制这些目标的机器会发生什么?”这一反思源于对技术失控风险的深切忧虑,促使他彻底调整自己的研究方向,致力于应对人工智能带来的伦理与安全挑战。这种从“创造者”到“守护者”的角色转变,标志着人工智能研究进入了一个全新的、更具责任感的阶段。

其次,Bill Dally的顿悟时刻同样具有深远影响。其一是在1990年代末,他在斯坦福大学面临“内存墙”问题——即从内存中读取数据的能耗和时间成本远高于计算本身。他灵光一闪,提出将计算组织成由数据流连接的内核形式,这一构想直接催生了后来的流处理技术,并最终发展为GPU计算的核心理念。这一顿悟的关键在于将“计算”与“数据访问”解耦,通过优化数据流动来克服硬件瓶颈,为大规模并行计算奠定了基础。其二是2010年与同事Andrew Ng共进早餐时的顿悟。当时Ng正在谷歌用16,000个CPU进行神经网络实验,试图在网上识别猫的图像,而Fei-Fei Li也参与其中。Dally亲眼见证了这一实验的成功,当看到48个GPU重复该实验并获得惊人结果时,他“完全确信这就是英伟达应该做的事,我们应该把GPU专门用来做深度学习”。这一时刻不仅确认了GPU在深度学习中的巨大潜力,更促使英伟达将战略重心转向为AI优化的专用硬件,从而开启了算力供给的黄金时代。

第三,Yann LeCun的顿悟始于1984年,当时他尝试用反向传播算法来学习预测词语序列中的下一个词,这实际上是一个微型语言模型。他发现,仅通过给模型一串符号并让它预测下一个词,模型就能学会将词语转换为一组蕴含语义的特征,并通过这些特征间的相互作用来预测下一个词的特征。这一发现揭示了“表征学习”的核心原理,即模型可以通过无监督的方式从原始数据中自动提取有意义的抽象表示。LeCun将其视为“现在这些大型语言模型的前身,基本原理是一样的”,尽管当时仅有100个训练样本,但其思想的前瞻性令人惊叹。第四,Jensen Huang的顿悟发生在2010年左右,他作为第一代能够使用高级别抽象表示和设计工具的芯片设计师,敏锐地察觉到一种开发软件的新浪潮。他同时从多伦多大学、纽约大学和斯坦福大学的研究人员那里了解到深度学习的早期迹象,即使用框架和结构化方法来创建软件。他立刻意识到,这种模式与芯片设计的规模化扩展极为相似,于是他得出结论:“也许我们可以开发出一种软件和能力,它能够像我们多年来扩展芯片设计规模一样,实现非常好的规模化扩展。”这一顿悟直接促成了英伟达在GPU架构上持续投入,使其能够无缝支持从单个GPU到跨数据中心的海量并行计算。

第五,Fei-Fei Li的顿悟发生在2006~2007年,她从博士毕业生过渡到助理教授期间,面对机器学习中“泛化能力”的难题——即模型在学习一定数量样本后能否识别新样本。她试遍了贝叶斯网络、支持向量机等所有算法,均未取得理想效果。最终,她与学生意识到,缺失的拼图是“数据”。她观察到,人类在早期发育阶段便沉浸在海量数据中,而机器却处于“数据饥渴”状态。于是,她做出了“疯狂的事”:耗时三年,创建了包含1,500万张图片、涵盖22,000个类别的ImageNet数据集。这一壮举的顿悟在于“大数据驱动机器学习”,它从根本上解决了模型泛化能力的瓶颈,为后续深度学习的爆发提供了不可或缺的燃料。第六,LeCun的另一个重要顿悟则追溯至本科时期,他被“如何训练机器而不是给它们编程”的想法深深吸引,这源于他对自身“太笨或太懒”的自我认知,从而选择让机器“自己训练自己”或“自我组织”。这一思想贯穿其一生,成为其研究工作的核心驱动力。这些顿悟时刻共同描绘出一幅完整的图景:人工智能的每一次飞跃,都源于科学家们对某个根本性问题的深刻洞察,无论是对计算效率的重新思考、对数据价值的重新认识,还是对智能本质的哲学追问,它们共同构成了推动技术向前发展的不竭动力。

核心观点二:范式演进与技术根基——从内存墙到大模型的基础设施革命

人工智能的爆发并非偶然,其背后是长达数十年的基础设施革命,这场革命的核心在于解决“算力”与“数据”这两个根本性瓶颈。其中,内存墙问题的攻克是整个技术演进的起点。在1990年代末,Bill Dally在斯坦福大学面临的正是这一严峻挑战:传统计算机架构中,内存访问的延迟和能耗远高于计算本身,严重制约了复杂算法的运行效率。Dally的解决方案——将计算组织成由数据流连接的内核形式——本质上是一种“数据流计算”范式,它通过减少不必要的内存读写,实现了计算的高效执行。这一思想直接催生了GPU的诞生,使GPU从最初仅为图形渲染服务的专用处理器,演变为能够处理任意并行计算任务的强大通用计算平台。这一转变的意义在于,它首次为大规模并行计算提供了可行的硬件基础,使得深度学习中需要的海量矩阵运算得以高效完成。英伟达的架构设计,特别是其“一旦你能让某个东西在一个GPU上因为并行化而运行良好,你就能让它在多个GPU上也运行良好”的特性,使得算法可以轻松地从单个GPU扩展到多个GPU、多个系统乃至跨数据中心的集群,这背后的逻辑是“完全相同的”,从而实现了前所未有的规模化扩展能力。

与此同时,数据的革命性积累是另一条至关重要的技术主线。在2006~2007年,Fei-Fei Li领导团队创建的ImageNet数据集,是这一革命的里程碑。该数据集包含了由全球志愿者人工挑选和标注的1,500万张图片,覆盖了22,000个类别,其规模和质量远超此前任何数据集。这一创举的深远意义在于,它为深度学习模型提供了“养料”,解决了长期困扰机器学习界的“数据饥渴”问题。在此之前,模型因缺乏足够高质量的数据而难以学习有效的表征,导致泛化能力差。ImageNet的出现,使得模型能够在海量真实世界图像上进行训练,从而学会了捕捉物体的深层特征,最终在2012年的ImageNet竞赛中,AlexNet凭借其深度卷积神经网络架构取得了压倒性胜利,正式宣告了深度学习时代的到来。这一事件不仅验证了深度学习的有效性,更确立了“大数据+大模型+大算力”的技术范式,成为后续所有AI进步的基石。

此外,Jensen Huang的顿悟——将软件开发的“框架化”与“结构化”方法应用于芯片设计——揭示了技术演进的另一重逻辑。他认识到,深度学习的兴起,本质上是一种新的软件开发范式,它通过模块化的网络结构(如卷积层、全连接层)来构建复杂的系统。这种模式与芯片设计中通过标准单元库构建复杂电路的思路高度一致。因此,他坚信,只要能将这种“可扩展的软件能力”与“可扩展的硬件能力”相结合,就能实现指数级的增长。这一洞见直接指导了英伟达在GPU架构上的持续创新,使其能够不断适应和加速新型AI模型的演进。例如,从标准注意力机制到GQA(分组查询注意力),再到MQA(多查询注意力),这些技术革新使得在相同甚至更少的计算量下,模型性能得到提升,从而“驱动了需求”,使得原本因成本过高而无法实现的应用变得经济可行。这一系列技术演进环环相扣:内存墙的突破提供了算力基础,数据的爆炸式增长提供了训练原料,而架构的可扩展性则保证了技术能够持续迭代。正是这三大支柱——高效的计算架构、海量的训练数据、可扩展的系统设计——共同构筑了当前人工智能繁荣的坚实根基,使得从“不可能”到“可能”再到“广泛应用”的转变成为现实。

核心观点三:智能的本质与未来——超越大语言模型的多元智能前沿

尽管大语言模型(LLM)已成为当前人工智能最耀眼的明星,但多位嘉宾明确指出,它只是人工智能宏大图景中的一小部分,且其能力边界清晰可见。Yann LeCun在对话中强调,大语言模型“已经不再是语言模型了”,其核心功能已从单纯的文本生成演变为能够通过一系列步骤达成目标的“智能体”(Agent)。然而,这种智能主要局限于语言模态,其在处理非语言信息方面存在根本性缺陷。他特别指出,即使是当今最强大的大语言模型,在“基本的空间智能测试”上也会失败。空间智能,即感知、推理、互动并创造出远超语言的世界的能力,是人类和动物智能的核心组成部分。例如,一只猫能够精准地跳跃、躲避障碍物、在复杂环境中导航,这些行为涉及对三维空间的动态理解与即时决策,而目前的LLM对此几乎毫无建树。这一事实揭示了一个深刻的悖论:我们拥有了能够“理解”语言的机器,却尚未拥有能够“理解”物理世界的机器。

这一局限性引出了人工智能未来发展的关键方向——从单一模态的“语言智能”迈向多模态融合的“具身智能”(Embodied Intelligence)。Fei-Fei Li在讨论中强调,人工智能的未来在于开拓更广阔的前沿,而不仅仅是深化现有范式。她指出,我们才刚刚触及应用的皮毛,几乎人类生活的方方面面都可以通过人工智能来改善,但目前的进展可能只达到了最终需求的1%。这意味着,未来巨大的增长空间在于将AI应用于医疗诊断、个性化教育、智能家居、工业自动化等具体场景。更重要的是,她呼吁关注“空间智能”这一领域,因为它连接了感知与行动,是实现真正自主智能的关键。例如,一个能帮助老年人独立生活的机器人,不仅需要理解指令(语言智能),更需要理解环境(视觉/空间智能)、规划动作(运动规划)并安全地与人互动(社会智能),这要求AI具备跨模态的综合能力。

因此,嘉宾们一致认为,要实现人类水平的智能,必须超越当前的范式。Jensen Huang将当前的主流范式比作“生产智能代币的工厂”,这形象地说明了其工业化、流水线式的特征。然而,这种模式的天花板已被显现,其核心问题在于,它依赖于大量的人工标注数据和固定的训练目标,难以应对开放世界中的未知挑战。未来的突破点在于探索新的学习范式,如自监督学习(Self-supervised Learning),即在不进行特定任务训练的情况下,让模型发现数据中的内在结构。大语言模型本身就是自监督学习的典范,它通过预测下一个词来学习语言的统计规律。但未来,这一方法需要被推广到视频、传感器数据、机器人动作序列等更丰富的模态上。正如一位嘉宾所言,“我们现在正在做的是把这种方法应用到其他类型的数据上,比如视频、传感器数据,这些都是大语言模型完全不擅长的,这也是未来几年的新挑战。” 这表明,人工智能的进步将不再仅仅是更多数据、更大模型和更强算力的堆叠,而是一场深刻的科学革命,其核心是理解智能的本质,找到让机器真正“理解”世界、并与世界互动的全新原理。

核心观点四:市场估值与泡沫争议——双重指数增长下的理性判断

关于当前人工智能热潮是否构成泡沫,是本次对话的核心争议点。嘉宾们经过深入探讨,形成了一个既深刻又统一的共识:当前的繁荣并非泡沫,而是一个由“双重指数增长”驱动的、尚处于初期阶段的智能大建设过程。这一判断的根基在于对历史教训的清醒认识。Jensen Huang以互联网泡沫为例,指出当时部署的光纤大部分是闲置的,行业需求远低于实际投资,这是典型的“虚高需求”泡沫。而今天的情况截然不同:“你几乎能找到的每一个GPU都在点亮和使用中”。这表明,当前的算力需求是真实且持续的,而非空转的产能。这一根本差异决定了当前市场的基本面是坚实的。

支撑这一判断的,是两大指数级增长趋势的叠加。第一,生成一个答案所需的计算量急剧增加。随着模型复杂度的提升和任务难度的加深,对算力的需求呈指数级上升。第二,人工智能模型的使用量也在指数级增长。从企业内部的自动化流程,到面向消费者的智能助手,再到科研领域的辅助工具,AI的应用场景正在以前所未有的速度扩展。这两股力量共同作用,创造了巨大的、持续的计算需求。Jensen Huang将这一现象比喻为“我们需要价值数千亿美元的这些工厂”,才能服务于建立在智能之上的价值数万亿美元的产业。这一比喻深刻揭示了人工智能的经济本质:它不再仅仅是软件工具,而是一个需要“工厂”来生产的“智能”商品。这种“智能工厂”的概念,是过去软件行业所不具备的,它解释了为何对算力基础设施的投资是合理的,而非投机。

在此基础上,嘉宾们对市场估值的合理性进行了多角度论证。首先,从长期趋势看,人工智能作为一个学科,至今不过70余年历史(若追溯至艾伦·图灵),远未达到成熟期。相比之下,物理学已有400多年历史,而现代物理学也才百余年。如此年轻的领域,其技术演进的潜力是无限的。其次,从应用前景看,目前的应用仅触及冰山一角。菲菲·李指出,我们可能只达到了最终需求的1%,随着智能可穿戴设备的普及,每个人在日常生活中都将与AI互动,这将带来天文数字般的计算需求。再次,从技术演进看,即使当前的Transformer架构被证明有局限,GPU的灵活性和可扩展性依然使其具有不可替代的价值。因为GPU不仅能支持现有模型,更能随着新架构的出现而灵活演进,其相对于更专用硬件的“灵活性”使其长期价值更高。最后,从商业实践看,已有大量公司证明了AI的盈利能力。例如,Cursor公司因其强大的AI软件而盈利强劲,a bridge和Open Evidence等公司在医疗领域也产出了“很棒的结果”。这些成功案例证明,AI不仅能产生价值,还能转化为可持续的商业模式。

因此,尽管市场可能存在短期波动和自我调整,但从长远来看,当前的估值是合理的。它反映了对一个正在重塑全球经济和社会结构的新兴技术的合理预期。正如一位嘉宾所言,我们“不在泡沫中”,但“至少从一个角度来看,我们又确实处在泡沫中,不过是另一种泡沫”——即对当前范式能一路推到人类水平智能的过度乐观。这种“泡沫”不是金融意义上的,而是认知层面的,它提醒我们不要忽视技术发展的科学本质,避免陷入盲目乐观的陷阱。

核心观点五:时间线与人类未来——从渐进式演进到增强型共生

关于“何时能实现人类水平智能”的问题,是本次对话最具挑战性的议题。嘉宾们的回答呈现出从乐观到审慎的谱系,但核心共识是:这不会是一个突然发生的“奇点”事件,而是一个在多个领域逐步扩展的渐进过程。Jensen Huang给出了一个相对具体的预测:他认为,如果将“与机器辩论,它总能赢”定义为通用人工智能(AGI),那么“肯定在20年内会到来”。这一预测基于他对当前技术演进速度的信心,认为在不到20年的时间里,我们就能达到这一目标。他的观点代表了对技术加速主义的一种乐观态度。

相比之下,Yann LeCun的观点更为谨慎。他强调,能力的扩展是“逐步”的,而非突变的。他预测,未来5到10年可能会取得一些重大进展,提出一个新的范式。但他也明确指出,某些机器智能将永远无法与人类智能相似或相同,因为它们是为不同目的而构建的。他以飞鸟与飞机的类比来说明:飞机能飞,但飞行方式与鸟完全不同。同理,机器智能将能完成许多强大的任务,但其智能的形态和人类智能有着本质区别。他相信,我们还需要“一些突破”才能让机器真正拥有动物(如猫)身上观察到的那种智能。

Bill Dally则提出了一个根本性的视角转换。他认为,问题本身可能被问错了。我们的目标不应是“取代人类”或“比人类更强”,而应是“构建AI来增强人类”。他主张,AI应补充人类无法胜任的任务,如识别22,000个类别或解数学奥林匹克竞赛题,从而解放人类去从事那些独特属于人类的事情,如发挥创造力、培养同理心、理解人际关系。他虽然不否认未来能造出几乎能做所有事情的机器,但强调“存在很大的不确定性”,并呼吁保持“真正的不可知论”,不要轻易定论。

综合来看,所有嘉宾都认同一个核心观点:我们正处于一个“未来已来”的临界点。无论具体时间线如何,当前的技术已经能够解决大量现实问题,如医疗诊断、科学研究、工业优化等。因此,与其纠结于“何时”实现AGI,不如聚焦于“如何”利用现有技术造福社会。正如主持人所总结的:“我们的共识是在某些方面我们认为未来已来,但永远不会有一个单一的时刻。” 未来的道路,不是由一台超级机器决定的,而是由人类与AI协同工作、共同前行的每一步所塑造的。这场对话的终极启示在于:真正的智能,不在于机器有多强大,而在于我们能否以谦逊和智慧,引导这项强大的技术,使其成为人类文明的伙伴,而非对手。