← 返回
54 min 2025-12

Vol.194 产业观察36|蚂蚁集团纪纲与李丰:一场关于具身智能、AI硬件的激辩 - 高能量

报告概述

本报告基于《产业观察36|蚂蚁集团纪纲与李丰:一场关于具身智能、AI硬件的激辩》这一闭门研讨会的ASR原文,系统性地重构并深化了两位资深投资人对当前人工智能产业演进逻辑的深刻洞察。该对话并非简单的观点交锋,而是一场围绕“技术—产业—数据—消费”四维联动机制的结构性推演,其核心议题聚焦于:在大模型发展进入深水区、机器人热潮退潮的当下,中国为何能成为全球具身智能与AI硬件创新的核心策源地?这一现象背后的底层驱动力究竟是什么?以及未来十年内,从“数字化”到“智能化”的跃迁将如何通过新一代消费级智能硬件完成关键跳步。

报告首先揭示了一个被广泛忽视但至关重要的历史类比:中国当前所处的产业阶段,与20世纪70至80年代日本在电子化浪潮中的崛起具有惊人的相似性。当时日本凭借完整的产业链、快速的市场迭代和对电子器件的全面改造能力,实现了从机械产品向电子产品的规模化转型,并由此奠定了其全球制造业霸主地位。这一历史经验为理解今日中国的产业优势提供了关键参照系。报告进一步指出,中国今天的独特优势在于,它不仅完成了电子化,更正处在由“电子化”向“数字化”与“智能化”跃迁的关键节点,其核心驱动力正是消费者级智能硬件的普及所带来的海量新维度数据的积累。这一过程并非线性推进,而是呈现出典型的“需求—数据—算法—产品”正反馈循环,即只有当足够多的消费者使用带有新传感器的设备时,才能产生足以支撑下一代AI模型训练的高质量、高维度数据。

报告的核心洞见在于,当前所有前沿技术(如大模型、自动驾驶、具身智能)的发展瓶颈,本质上都是数据供给不足的问题。无论是大语言模型依赖互联网文本的40年积累,还是自动驾驶依赖车载传感器的持续数据采集,其背后都遵循着一个共同规律:技术进步的边界由可用数据的广度与深度决定。因此,真正决定未来竞争力的不是算法本身,而是谁能率先构建起覆盖“人—环境—行为—情绪—物理交互”等全维度数据的采集网络。这解释了为何投资界对“能产生新数据的设备”表现出前所未有的关注,因为它们是连接今天与明天的唯一桥梁。报告最后强调,这一跃迁过程必然是渐进的、非线性的,投资者应避免“一上来就做AI NATIVE”的幻想,而应优先布局那些能够满足真实用户需求、实现初步数字化的中间态产品,从而在“先做数字化,再谈智能化”的战略框架下,捕捉真正的价值创造机会。

核心观点一:中国产业跃迁的本质是“电子化→数字化→智能化”的历史性跨越

中国当前在具身智能与智能硬件领域的领先地位,并非偶然,而是源于一套独特的、由历史积累与现实条件共同塑造的产业生态体系。这一生态体系的形成,可以追溯至20世纪末至21世纪初的全球化分工格局。正如对话中所指出的,中国在2013年便已成为全球工业机器人产销的第一名,这标志着其在精密制造、电机控制、运动算法等领域已积累了长达三四十年的技术沉淀。这种深厚的制造业基础,使得中国在面对新一轮技术变革时,具备了强大的“复制与升级”能力。然而,这一能力的边界在2018年后发生了根本性突破——随着华为、中兴等企业对芯片与传感器产业链的深度投入,中国成功构建了一个从上游材料、中游设计到下游封装测试的极其综合性(comprehensive)的制造业链条。这一链条的完整性,是其他国家难以复制的核心壁垒。

这一历史性跨越的深层逻辑,在于它完美契合了“技术-市场-数据”三重共振的范式。以日本在20世纪七八十年代的崛起为例,其成功并非源于单一技术创新,而是源于一个“技术窗口期”与“市场需求爆发期”的精准耦合。当时,半导体技术从电子管迈向晶体管,小型化与规模化生产成为可能,日本企业敏锐地抓住了这一机遇,将原本机械化的手表、钢琴等消费品,全部改造成电子化产品。这一过程带来了两个显著结果:一是全球市场的巨大扩张,二是产能过剩的短期困扰。然而,正是这种“产能过剩”,通过价格战将产品单价大幅压低,最终实现了极高的家庭普及率。例如,作者回忆道,自己在初中时期,一个五元或十元的电子表已能轻易购得,这在十年前是不可想象的。这一案例生动地说明,技术的普及往往伴随着成本的急剧下降,而成本的下降又反过来加速了技术的普及,形成了一个自我强化的正向循环。

中国今天的处境,正是这一历史模式的现代复刻。不同之处在于,日本当年只完成了“电子化”,而中国正在完成“数字化”与“智能化”的升级。这一升级的驱动力,正是前述那条完整的产业链。它不仅支持了传统电子产品的迭代,更为新兴的智能硬件提供了坚实的制造保障。更重要的是,中国拥有全球第二大的商品消费市场,且互联网信息流转效率居于世界前列,这构成了一个“内卷的市场”(inwardly competitive market)。这一概念源自管理学理论,指一个市场在竞争中迅速达到饱和状态,一旦有创新出现,便会以极快的速度被模仿和普及。这种“内卷”并非贬义,而是一种强大的创新催化剂。它迫使企业无法再依赖简单的模仿,必须不断进行方向不确定的创新,否则就会被淘汰。因此,中国当前的市场环境,既是挑战,也是机遇——它逼迫企业必须寻找新的增长点,而这恰恰为具身智能、多模态大模型等前沿技术的落地创造了肥沃土壤。

原话摘录:“你把这四件事儿放一块儿。它就会产生出怎么把这四件事用起来做创新,然后另外那半句话的背景是说,呃,你把这四件事攒齐了之后,它会逼着你做、逼着企业做非常多的不一定确定方向的创新。但是你没办法,因为你用原来的东西搞不动了,所以你只能想办法去做创新。”

这一论述清晰地勾勒出了中国产业跃迁的内在逻辑:完整的产业链是基础,巨大的市场是动力,高效的流通是加速器,而“内卷”则是创新的强制力。这四者共同作用,使得中国在面对新一轮技术革命时,能够以远超其他国家的速度进行试错与迭代。这种系统性的优势,使得中国不仅是全球智能硬件的制造中心,更正在成为其创新策源地。因此,任何试图理解中国在AI硬件领域领先地位的分析,都必须将其置于这一宏大的历史与产业背景下,而非孤立地看待某一项技术或某个公司。

核心观点二:数据是技术演进的终极瓶颈,而新数据的获取依赖于消费级硬件的普及

如果说中国在产业链上的优势是“硬件基础”,那么其在AI时代最核心的战略资产,则是数据。然而,当前几乎所有前沿AI技术的发展都遭遇到了一个共同的瓶颈:数据供给不足。这一判断贯穿了整个对话的始终,是理解后续所有讨论的基石。对话明确指出,大语言模型之所以能够诞生,是因为互联网在过去40多年间积累了海量的文本数据;自动驾驶之所以能从L2走向L3,是因为特斯拉等车企在数百万辆汽车上部署了摄像头、毫米波雷达等传感器,持续收集驾驶场景数据;而工业机器人的运动控制能力,也建立在几十年来对电机、控制算法和产线数据的积累之上。这些成功的案例共同揭示了一个铁律:任何重大技术突破的背后,都必然存在一个长期、大规模的数据积累过程

然而,当我们将目光投向更具挑战性的领域时,问题变得尤为尖锐。以具身智能(Embodied AI)为例,尽管近年来人形机器人在运动能力上取得了令人瞩目的进展,如跳舞、翻跟头、踢足球等演示,但这些成果几乎全部集中在“运动能力”这一单一维度上。对话中一位嘉宾尖锐地指出:“如果你今天回过头来看,我们不点具体公司哈,就是所有这个出来演示的著名公司们的演示的所有内容都是纯粹运动能力。” 这一观察极具洞察力,它揭示了当前技术发展的严重失衡。运动能力的提升,主要依赖于强化学习算法与电机控制的进步,这属于“已有技术的极致优化”。但真正的挑战在于“操作能力”——即机器人如何像人类一样,灵活、精准、鲁棒地处理各种物理对象,这需要解决复杂的协调、控制、规划与实时反馈问题。

要解决这一难题,仅靠现有数据远远不够。对话中明确指出,操作能力所需的数据包括“物理模型、物理量、环境数据、环境建模”,而这些数据在当前的消费级设备中几乎完全缺失。一个经典的类比被用来说明这一点:即使一个人观看了无数场足球比赛,掌握了所有规则和技巧,他依然无法成为一名合格的球员。这是因为观看只是“感知”,而实际操作则涉及肌肉记忆、即时反应、身体协调等复杂因素。同样,一个机器人若仅通过视觉数据学习“如何拿杯子”,它可能永远无法应对杯子倾斜、液体晃动、手部打滑等真实世界中的动态变化。因此,单纯依靠“看”来训练AI,是无法实现真正的“具身智能”的

这一困境的根本原因,正是数据的结构性缺失。文本数据和图像数据的积累,得益于PC、键盘、鼠标、智能手机等通用设备的普及,这些设备的使用门槛极低,用户无需专门为了采集数据而购买。但未来的数据,如人体姿态、微表情、生理信号、环境物理量等,却需要专门的硬件来采集。这就引出了一个关键命题:谁来提供这些新数据?答案是:消费者级的智能硬件。只有当这些硬件被广泛普及,成为人们日常生活中不可或缺的一部分时,才能产生足够规模和质量的新数据。例如,GPS传感器的普及催生了外卖平台;麦克风阵列的普及成就了微信的语音功能;而摄像头的普及则推动了抖音的兴起。这些案例共同证明,数据的爆发式增长,往往始于一个看似普通的消费级产品

原话摘录:“我们从零点到A点中间就是这些被消费者化的传感器。因为消费者是不会为了买传感器来买传感器的,他买的是一个产品。只是这个产品凑巧装了传感器之后,他就自然地把消费者的需求转成了数据。”

这一论断深刻揭示了数据经济的底层逻辑:数据的价值并非来自传感器本身,而是来自它所附着的产品能否满足用户的刚需。因此,投资的焦点不应是“我能不能造出一个能采集数据的设备”,而应是“我能不能造出一个用户愿意为之买单的产品,哪怕它只是顺带采集了数据”。这正是为什么对话中反复强调,投资者应优先考虑那些能解决真实用户痛点、具备良好用户体验的“中间态产品”,而不是盲目追求“AI NATIVE”的概念。

核心观点三:投资周期的三阶段模型——从技术颠覆到需求验证的渐进路径

对话深入剖析了技术投资的典型周期规律,将其划分为三个清晰的阶段,这一框架对于理解当前AI投资的现状与未来趋势具有极强的指导意义。第一阶段是技术变革本身。在这一阶段,资本主要追逐最前沿的技术突破,如大模型的参数规模、算力的提升、新型神经网络架构等。这一阶段的特征是高度理想化,投资者相信技术本身就能创造巨大价值。第二阶段是技术最有想象力的应用。当技术趋于成熟,其潜力开始被广泛认知,投资者的目光转向最具颠覆性的应用场景。在当前语境下,这便是“AGENT”(代理)和“具身智能机器人”——前者代表数字世界的自动化,后者代表物理世界的自动化。这两个方向之所以被热捧,正是因为它们描绘了一个“万物皆可替代”的未来图景,充满了无限的想象力。

然而,第三阶段才是投资的真正黄金期,即既能用上科技,又能证明需求,最好还能赚钱。这一阶段的特征是“务实”与“落地”。投资者不再仅仅关注技术的先进性,而是更加看重产品的市场接受度、商业模式的可持续性以及盈利能力。对话以自动驾驶为例,清晰地展示了这一周期的演进:早期投资集中在顶尖的算法团队,随后转向与主机厂有合作的公司,最终才轮到那些已经将技术装入车辆、并在港口、园区等封闭场景中实现商业化应用的公司。这些公司虽然技术上未必是最领先的,但它们已经证明了需求的存在,并且开始产生收入。正如对话中所言:“每一个技术周期的投资一定是这三轮不会中间错一轮、少一轮或者多跳了一轮。”

这一三阶段模型,为理解当前AI投资的“降温”现象提供了关键视角。过去两年,大模型和机器人领域经历了两轮资本狂欢,但如今热度明显回落,融资新闻大幅减少。这并非意味着这些技术没有前景,而是表明市场已经完成了前两个阶段的探索,正进入第三个阶段的筛选期。此时,资本的关注点从“可能性”转向了“可行性”,从“宏大叙事”转向了“真实营收”。因此,那些尚未解决核心问题、缺乏明确商业模式的项目,将面临严峻的生存挑战。这也解释了为何对话中提到,目前“很多公司估值一年涨了五倍,但实际上没有实质进展”,这种泡沫正是前两个阶段过度投机的结果。

原话摘录:“所以好处即将或者正在已经就要开始轮到大家在做的这第三波了。”

这一判断极具前瞻性。它预示着,未来投资的重心将从“技术本身”和“宏大愿景”转向“真实需求”和“商业闭环”。投资者需要重新审视自己的标准:是选择一个技术上“最牛”的公司,还是选择一个在特定场景下“最能赚钱”的公司?这个问题的答案,决定了投资组合的成败。因此,理解并顺应这一投资周期,是把握未来十年AI产业脉搏的关键。

核心观点四:智能硬件的定义与分类——从“升级迭代”到“全新品类”的战略抉择

在明确了数据与投资周期的宏观框架后,对话进一步探讨了“智能硬件”这一核心载体的具体形态与战略定位。一个根本性的问题是:新一代的智能硬件,究竟是对已有产品的升级迭代,还是创造全新的消费品类?对话给出了一个深刻的回答:两者皆有,但最终的赢家将是那些能够创造全新品类的公司

从历史经验看,许多伟大的消费电子产品,最初都是对旧有产品的“升级”。例如,电子琴的出现,使得原本只有富裕家庭才能负担的钢琴,变成了普通中产家庭也能拥有的乐器。这一过程,本质上是将高端、专业化的设备,通过技术革新和成本控制,推向大众消费市场。大疆无人机的崛起,也遵循了同样的路径。它并非凭空创造一个新物种,而是利用中国强大的制造业供应链,将原本用于军事和专业领域的飞行控制系统,降维打击至民用市场,从而开创了一个全新的消费级无人机品类。这一案例表明,技术的普及,往往始于对现有高端产品的“平民化”改造

然而,对话也指出,真正的颠覆性创新,往往来自于对“全新品类”的发现与创造。以Insta 360为例,它并非简单地改进现有的相机,而是创造了一种全新的“全景摄像机”品类。它的成功,不仅在于技术,更在于它精准地捕捉并满足了用户在旅行、运动等场景下的“记录完整瞬间”的深层需求。相比之下,大疆的成功则更早一步,它在2010年代初就预见并创造了“消费级无人机”这一全新市场。这两者的区别在于:Insta 360是在一个已有市场中,通过技术创新做出差异化;而大疆则是在一个空白市场中,通过定义新品类来建立护城河。

这一洞察对当前的投资决策具有重要启示。当面对一个新兴技术(如脑机接口、AR眼镜)时,投资者不应简单地问“它能做什么”,而应追问“它能创造什么”。如果一个产品只是让现有产品变得更智能、更快、更便宜,那么它很可能只是一个“升级迭代”,其市场空间有限,且极易被竞争对手模仿。但如果一个产品能创造出一种全新的使用方式、全新的社交场景或全新的生活方式,那么它就有可能成为一个“全新品类”,从而获得指数级的增长潜力。

原话摘录:“所以你不要从数据层面定义需求。你可以从需求层面定义产品,得到数据。”

这句话是整个对话的精髓所在。它提醒我们,一切技术的起点,都应该是用户的真实需求,而非技术本身的想象。一个产品是否成功,不取决于它能采集多少数据,而取决于它是否解决了用户的一个痛点。因此,投资的最高境界,是找到那些能够“先满足需求,再产生数据”的产品。这类产品,往往不会一开始就宣称自己是“AI NATIVE”或“具身智能”,而是以一个朴实无华的、解决具体问题的形态出现,从而在用户心中建立起信任感和习惯。只有当用户习惯了使用这个产品,其背后产生的数据才真正有价值。

核心观点五:从“数字化”到“智能化”的渐进路径——中间态产品的战略价值

在确认了投资周期与硬件形态后,对话最终落脚于一个极具实操价值的战略建议:在通往“智能化”的道路上,必须经历一个漫长的“数字化”阶段,而中间态产品是这一过程中的关键枢纽

这一观点是对“一上来就做AI NATIVE”幻想的有力纠正。对话明确指出,没有设备能一上来就实现AI NATIVE。因为AI的个性化、自适应能力,建立在对用户行为、环境、偏好等多维度数据的深度理解之上。而这些数据,恰恰是“数字化”过程的产物。所谓“数字化”,是指将物理世界的信息转化为计算机可处理的数字格式。例如,特斯拉通过车载传感器,将驾驶员的习惯、路况、车速等信息全部数字化,这是实现自动驾驶的基础。同样,一个智能手表,如果只是简单地显示时间,那它只是个电子表。但一旦它能持续记录心率、睡眠质量、活动轨迹等数据,它就完成了从“电子化”到“数字化”的跨越。

这一过程的必要性,源于一个基本事实:用户不会为了“数据”而购买产品,他们只会为了“解决问题”而购买产品。因此,一个产品的首要任务,是成为一个优秀的、能解决用户痛点的工具。只有当用户养成了使用习惯,产生了持续的数据流,才有可能在此基础上叠加智能化功能。这就像苹果手机的崛起:iPhone 1代的摄像头像素仅有200万,远不如当时的数码相机,但它成功地让用户“把摄像头用起来”,从而培养了用户对拍照功能的依赖。正是在这个基础上,苹果才逐步引入了HDR、人像模式、夜景模式等一系列智能化功能,最终将手机打造成了一个集通信、娱乐、计算于一体的超级终端。

因此,对于投资者而言,最值得押注的,往往是那些处于“数字化”阶段的中间态产品。它们可能不具备最先进的算法,也可能没有炫酷的AI功能,但它们有一个共同的特点:它们解决了真实存在的需求,且能持续产生数据。这类产品,如对话中提到的神经腕带,其核心价值不在于它能直接实现脑机交互,而在于它能通过采集用户的手部动作数据,为后续的智能控制提供训练样本。这种“先做数字化,再谈智能化”的战略,是规避技术风险、确保商业可行性的最佳路径。

原话摘录:“能从数字化迭代到智能化啊,这句话很重要。”

这一判断,是整个对话的最终结论。它告诉我们,技术的演进不是跳跃式的,而是螺旋式的。每一次飞跃,都建立在前一次积累的基础上。因此,与其焦虑于“何时才能实现AGI”,不如专注于“如何让下一个产品更好地服务用户”。唯有如此,才能在充满不确定性的AI浪潮中,找到一条稳健而长远的发展之路。

总结与启示

综上所述,本次播客对话通过对历史、数据、投资周期与产品形态的多维度剖析,构建了一个关于中国AI产业演进的完整叙事。其核心启示在于:中国在具身智能与智能硬件领域的领先地位,根植于一个由“产业链-市场-数据”构成的正向飞轮。这一飞轮的启动,依赖于消费级智能硬件的普及,而其持续运转,则依赖于“先满足需求,再产生数据”的渐进策略。投资者若想在这场变革中胜出,就必须超越对“技术本身”的迷恋,回归到“用户需求”这一根本出发点。

未来十年的竞争,将不再是“谁的算法更强”,而是“谁的数据更丰富、更真实、更全面”。而这一切,都将始于一个看似平凡的消费级产品。因此,真正的投资智慧,不在于预测下一个“爆款”,而在于识别那些能够“先做数字化,再谈智能化”的中间态产品。它们或许不起眼,却是连接今天与明天的唯一桥梁。正如对话结尾所暗示的,那个能将每一秒数据都变成价值的“人生作弊器”,或许就在下一个被我们忽略的“普通”设备之中。