← 返回
126 min 2025-11

121. 对DeepMind谭捷的访谈:机器人、跨本体、世界模型、Gemini Robotics 1.5和Google - 张小珺Jùn|商业访谈录

报告概述

本报告基于对Google DeepMind高级研究科学家谭捷的深度访谈,系统性地梳理了当前机器人技术发展的前沿动态、核心范式跃迁路径以及未来十年的战略演进图景。报告以硅谷视角为切入点,揭示了机器人领域正经历从“局部控制”向“通用智能”的根本性变革,其驱动力源于大语言模型(LLM)与强化学习(RL)的深度融合,以及生成式仿真数据在突破数据瓶颈中的关键作用。谭捷作为连接计算机图形学与机器人学的跨界先驱,其个人学术轨迹深刻反映了这一技术演进逻辑:从早期在Pixar参与动画制作,到博士阶段专注于基于物理的角色动画,最终将图形学方法迁移至机器人控制,实现了“在仿真环境中做机器人”向“在真实世界中做图形学”的认知跃迁。这一思想贯穿于其在Google的系列开创性工作之中,包括首次将深度强化学习应用于四足机器人步态控制的里程碑论文《Seem to Real: Learning Edge Low Commission for Quadruped Robots》,该成果被广泛认为是过去十年机器人领域首个真正的范式跃迁,标志着从规则控制向自主学习的根本转变。

报告的核心聚焦于Google DeepMind最新发布的Gemini Robotics 1.5项目,该项目标志着AI Agent正式进入物理世界。报告深入剖析了其两大关键技术突破:一是引入思维链(Thinking Chain)输出机制,使机器人在执行任务前能输出其推理过程,从而显著提升任务可解释性与人机交互透明度;二是实现跨本体迁移(Crossing Bodyman Transfer),通过统一的数据格式与共享的模型架构,使得在一种机器人上训练的能力可以泛化至其他构型迥异的机器人,从根本上解决了机器人数据稀缺与难以复用的行业痛点。此外,报告还系统探讨了机器人发展面临的根本性挑战,包括由“数据墙”引发的严重瓶颈、端到端与分层架构之争、多模态融合趋势,以及由此衍生出的组织文化与人才管理机制的深刻变迁。谭捷指出,尽管当前进展迅猛,但距离真正实现通用家庭机器人仍有巨大差距,未来两到三年将迎来“GPT时刻”,而全面落地则需五到十年时间。整个报告不仅是一份技术洞察,更是一幅关于人类与机器共存时代的技术哲学图景,强调了在追求技术飞跃的同时,必须建立严格的安全审查机制,以应对潜在的伦理与安全风险。

引言:硅谷视角下的机器人叙事与技术变革

在硅谷科技巨头的战略版图中,机器人技术正被普遍视为即将发生的最重要变革之一,这一认知已深刻影响了全球资本与人才的流向。所有主要科技公司均在大规模投入机器人团队建设,并将研发重心明确指向“机器人大模型”(Robotics Large Models)这一前沿方向,其背后是对技术演进路径的深刻洞察:从早期依赖复杂数学模型的规则控制,到基于强化学习的自主决策,再到融合大语言模型的通用智能系统,每一次跃迁都伴随着能力边界的大幅拓展。这种战略判断并非空穴来风,而是建立在对技术可行性与市场潜力的严谨评估之上。例如,谭捷在访谈中明确指出:“我觉得在硅谷,大家都觉得机器人可能是即将发生的一个最重要的变革。所以所有的公司都投入巨资去传他们的机器人团队去做机器人大模型。” 这种共识催生了一个前所未有的现象——机器人领域的研究团队规模呈指数级扩张,仅在Google DeepMind,其机器人团队在短短几年内便从最初的十余人扩展至超过150人的庞大阵容,这在十年前是不可想象的。这种集体行动的背后,是企业对“机器人大脑”这一核心价值的争夺,即如何让机器人具备理解自然语言指令、进行常识推理和自主规划任务的能力,从而摆脱对编程接口的依赖,实现“任何人指挥机器人做事”的愿景。

中美在机器人发展路径上呈现出鲜明的叙事差异,这种差异本质上反映了两国在产业生态上的不同优势与分工格局。中国在硬件制造领域发展迅猛,凭借强大的供应链体系和成本优势,已成为全球机器人硬件的重要供应者,从波士顿动力的机器人到国内众多初创企业的产品,均体现了这一优势。然而,美国则在“机器人大脑”——即算法与智能系统设计方面占据领先地位,这得益于其深厚的学术积累、开放的科研环境以及对基础研究的长期投入。谭捷作为这一领域顶尖学者的代表,其观点深刻揭示了这一分工:他本人的学术背景始于上海交通大学,后赴美国深造,其研究主线始终围绕着如何将计算机图形学的理论与方法应用于机器人控制,这一路径本身就体现了美国在“大脑”层面的创新活力。这种互补性的分工预示着未来合作的巨大潜力,但也伴随着挑战,尤其是在地缘政治因素日益复杂的背景下,如何构建一个高效、可持续的全球协作网络成为关键议题。

本期访谈的核心议题,正是聚焦于Google DeepMind最新发布的Gemini Robotics 1.5项目,该项目被谭捷本人视为将AI Agent真正带入物理世界的关键一步。该成果不仅是技术的集成,更是理念的革新,它标志着机器人智能的发展已从解决单一、重复的底层运动控制问题,迈向了处理复杂、多步骤、需要高度泛化能力的通用任务。为此,报告将深入分析机器人智能发展的三大关键突破点:首先是思维链(Thinking Chain)的集成,它赋予了机器人“思考”的能力,使其能够将抽象指令分解为可执行的步骤;其次是跨本体迁移(Crossing Bodyman Transfer),它打破了机器人间的数据孤岛,实现了能力的跨平台复用;最后是双模型结构的设计,通过快慢思考的分离,平衡了实时性与深度推理的需求。这些技术共同构成了一个完整的智能闭环,为机器人走向真实世界铺平了道路。与此同时,报告也将直面机器人领域面临的根本性挑战,包括数据瓶颈、架构范式选择、人机协作伦理等,这些问题的解决与否,将直接决定这场技术革命的最终成败。

核心观点一:从图形学到机器人——研究主线的演变与范式跃迁

谭捷的学术生涯堪称一部生动的“跨界融合”教科书,其研究主线的演变清晰地勾勒出从计算机图形学到机器人学的完整路径。他的起点是上海交通大学,随后在美国攻读博士学位,期间主攻基于物理的角色动画(Physics-Based Character Animation),这一研究方向的核心在于利用数学与物理方法,模拟角色在仿真环境中的自然运动。他当时的导师是Georgia Tech的著名教授Karen Liu,后来该教授移居斯坦福大学,对谭捷的学术成长产生了深远影响。这一时期的探索,使他深刻认识到,无论是动画角色还是机器人,其本质都是在特定环境中进行运动控制,两者在底层原理上具有惊人的相似性。正是这种认知,促使他在博士阶段后期萌生了将图形学方法应用于机器人领域的宏大愿景,其目标是“用图形学方法变革整个机器人行业”。这一想法在当时极具前瞻性,甚至带有理想主义色彩,因为当时学术界对“图形学+机器人”的跨界研究普遍持怀疑态度,缺乏足够的认可。

这一认知的转变并非偶然,而是源于对两个领域本质的深刻洞察。谭捷在访谈中精辟地指出:“在图形学里面,就是在这个simulation里面,机器人能够翻跟斗、能够跑步,什么都能做了。所以在那个时候就说机器人还是很傻的。” 这一对比揭示了当时机器人技术的窘境:尽管在仿真环境中可以实现复杂动作,但在真实世界中却表现得笨拙不堪,动辄摔倒,无法完成简单的任务。而反观图形学,由于所有信息都在计算机内部,研究人员可以精确获取关节力、运动轨迹等一切所需数据,因此能够轻松实现各种高难度动作。这种“仿真环境”与“真实世界”之间的巨大鸿沟,正是推动谭捷进行跨界研究的根本动力。他坚信,如果能在仿真环境中成功解决问题,那么通过适当的迁移,同样可以在真实世界中实现。这一信念的实践,始于他博士论文的最后一个项目:他尝试将图形学方法应用于一个小型人形机器人,成功实现了倒立、坐姿转换、站立等基础动作控制。这一实验验证了“仿真环境中的控制方法可迁移至真实世界”的核心假设,为后续研究奠定了坚实的基石。

然而,这一理想的实现之路充满坎坷。2015年,谭捷在寻找教职时遭遇了重大挫折,尽管收到了包括康奈尔大学在内的多所名校的面试邀请,但他并未获得心仪的职位。究其原因,正如他所坦承的:“我觉得那个时候大家是有很多很多怀疑的态度的,因为我也是刚开始这个领域嘛,我绝大多数的这个背景还是在图灵学上,所以我并没有拿到我想要的教职。” 这一经历深刻反映了学术界对新兴交叉领域的保守态度,也凸显了谭捷敢于打破学科壁垒的勇气。这次失败并未击退他,反而促使他转向工业界,先后加入硅谷创业公司,参与光场相机(Lightroom)项目,积累了宝贵的工程实践经验。这段经历让他从纯粹的理论研究者转变为兼具理论深度与工程视野的复合型人才,为他日后在Google DeepMind领导大型项目打下了坚实基础。

核心观点二:强化学习的范式革命与技术演进路径

强化学习(Reinforcement Learning, RL)的兴起,是机器人领域自2018年以来最深刻的范式革命,它彻底改变了机器人智能的构建方式。在强化学习出现之前,机器人控制主要依赖于模型预测控制(Model Predictive Control, MPC),这是一种基于复杂物理模型的优化算法,要求工程师构建精确的机器人动力学方程,并通过求解优化问题来计算最优轨迹。这种方法门槛极高,通常需要具备博士学位才能理解其背后的数学原理,极大地限制了技术的普及。谭捷在访谈中对此有深刻体会:“以前你做这个呃 ROBOTICS,你肯定要一个 PHD,否则你那个数学都搞不明白。” 这种高门槛导致了技术的封闭性,只有少数专家能掌握并应用。

强化学习的出现,尤其是深度强化学习(Deep Reinforcement Learning)的成熟,将这一局面彻底颠覆。其核心思想是让机器人通过与环境的交互,像人类一样通过试错来学习最优策略,而非依赖预先编写的复杂规则。这一范式的转变,其标志性事件是2018年左右,以AlphaGo在围棋领域的惊人表现,向全世界展示了深度强化学习的强大潜力。谭捷在加入Google后的第一篇论文《Seem to Real: Learning Edge Low Commission for Quadruped Robots》正是这一浪潮的产物。他采用深度强化学习方法,成功解决了四足机器人(如Spot)的步态控制问题,其成果被广泛认为是过去十年中机器人领域首个真正的范式跃迁(Paradigm Shift),标志着从规则控制向自主学习的根本转变。> “我我给你描述一下啊,就是说。可能十年前,大家觉得最好的机器人是波士顿动力的机器人。他们的狗叫SPOT,他们有人形叫ATLAS对吧?然后他们能够呃跑酷非常厉害。但是整个学术界都不知道他们怎么做的。后来最近大家知道他们是用NPC,但做到了极致。但是就在可能五年之后,你觉得大家都能跑、跳、跳,大家都能打拳、跳舞,比如今年你看到比如说语书啊什么,他能打拳击,能够跳舞,然后最近反正各种上墙翻跟斗都行。其实就是因为大家采用了同样一个技术,叫强化学习。”

这一技术演进可以清晰地划分为两个阶段。第一阶段是解决局部运动控制(Local Motion Control)问题,如行走、跳跃、平衡等。在这一阶段,强化学习取得了压倒性胜利,使得“会跑、会跳、会打拳击、会跳舞”成为可能,极大地提升了机器人的机动性和灵活性。第二阶段则是迈向通用智能与任务规划,其标志是大语言模型(LLM)与机器人技术的融合。大语言模型赋予了机器人“常识理解”(Common Sense)能力,使其能够理解人类的自然语言指令,并将复杂任务自动分解为一系列可执行的子步骤。例如,当用户说“帮我整理行李”时,机器人可以主动追问“你要去哪旅行?”、“天气如何?”,从而生成一个详细的行动计划。> “大语言模型出现以后,第一他理解人类语言了。嗯,所以说你让他做什么事情,你可以直接用就是natural language去跟他对话,然后做事情。呃,这个还是很重要的突破,就是任何人都可以指挥机器人做事了。”

这一演进的驱动力是多方面的。首先是算力增长,GPU集群和专用芯片的发展为大规模训练提供了基础设施支持;其次是数据积累,互联网文本、视频内容成为训练大模型的重要原料;再次是开源生态的繁荣,PPO(Proximal Policy Optimization)、Isaac Gym等工具包的出现,极大地降低了技术门槛,使得高中生也能搭建基本的机器人系统;最后是社会共识的形成,强化学习已成为机器人领域的主流范式,形成了“技术民主化”的趋势。这些因素共同作用,使得机器人智能的发展进入了快车道。

核心观点三:大语言模型与机器人智能的融合路径

大语言模型(LLM)的出现,为机器人智能注入了全新的生命力,其影响深远且多层次,具体体现在以下三个方面。首先,它彻底革新了自然语言交互能力,使得机器人不再需要程序员编写复杂的API接口,用户可以通过最自然的方式下达指令。> “大语言模型出现以后,第一他理解人类语言了。嗯,所以说你让他做什么事情,你可以直接用就是natural language去跟他对话,然后做事情。呃,这个还是很重要的突破,就是任何人都可以指挥机器人做事了。” 这一能力的实现,意味着机器人从一个“被动执行器”转变为一个“主动协作者”,极大地降低了使用门槛,使得非技术人员也能与机器人进行有效沟通。

其次,大语言模型带来了常识推理与任务分解能力,这是机器人从“能动”迈向“会想”的关键一步。在没有大语言模型的时代,机器人缺乏对世界的理解,无法将抽象指令转化为具体的行动序列。而如今,大语言模型充当了机器人的“大脑”,负责推理、规划和决策。例如,当任务是“做一杯咖啡”时,机器人可以自动拆解为“取水”、“加咖啡粉”、“加热”、“倒入杯中”等多个子步骤,并根据实际情况调整流程。> “大语言模型更像大脑。但小脑是执行,就是你要走路、你要控制平衡啊,你要控制你的双手。你要做手上的manipulation,这个呢就是强化学习非常擅长的一部分。” 这种能力使得机器人能够处理那些需要多步骤、多条件判断的复杂任务,而不仅仅是简单的“抓取-放置”。

第三,大语言模型扩展了机器人的知识边界与外部信息获取能力。机器人不再局限于其有限的内部知识库,而是可以通过网络搜索、查阅日历、获取天气预报等方式,实时获取外部信息以辅助决策。例如,在垃圾分拣任务中,机器人可以根据所在城市的法规动态调整分类策略。这种能力使得机器人能够适应不断变化的现实环境,极大地提升了其实用性和智能化水平。

为了更好地理解这一融合,谭捷提出了一个经典的“大脑-小脑”类比框架:大脑由大语言模型承担,负责高层次的推理、规划和决策;小脑由强化学习或模仿学习系统承担,负责底层的运动控制与动作执行。二者协同工作,形成一个完整的智能闭环。> “所以你可能大脑、小脑都需要有对。” 这一框架清晰地指出了当前机器人智能的双轨制特征。然而,这一融合路径也引发了关于“机器人基座模型”独立性的激烈争论。国内部分机构(如巨声智能)主张应建立独立的“机器人基座模型”,而非简单依赖大语言模型。谭捷对此持谨慎态度,他认为目前尚无充分证据支持该观点,当前机器人智能仍严重依赖大语言模型的预训练成果。> “其实我觉得没有对错可言。哈,就是大家会有自己的不一样的偏念。从我的角度来说,我不得不承认,就是现在最近几年的机器人智能的发展主要还是依赖于多模态的大模型,就它不仅仅是语言模型,它是一个多模态模型。” 他进一步指出,未来若遇到数据瓶颈或架构瓶颈,才可能催生真正独立的机器人模型体系。

核心观点四:Gemini Robotics 1.5的关键突破与技术架构

Gemini Robotics 1.5是Google DeepMind在机器人领域的一次集大成之作,其核心目标是将AI Agent真正带入物理世界,实现通用任务的自主执行。该项目的成功,建立在对前代技术的深刻反思与迭代之上。谭捷在访谈中强调,其最大的突破在于思维链(Thinking Chain)的集成。传统机器人模型的输入是图像和语言,输出是动作指令(如关节角度),整个过程如同黑箱,缺乏可解释性。而Gemini Robotics 1.5引入了思维链输出(Thinking Trace Output),即机器人在执行任务前,会先输出一段文字,详细说明其思考过程。例如,当任务为“按颜色分类衣物”时,系统会输出:“识别红色衣物→放入红箱;识别白色衣物→放入白箱”等推理链条。> “第一个发现就是我们把THINKING加入了VOA模型,嗯,就是以前的VOA模型,它的输入是图像,它的输入是语言来表达的这个这个呃任务是什么,然后它的输出就是马达的角度,比如说就直接对机器人的控制。现在呢,我们就是把叫THINKING TRACE,就是这个机器人是怎么想的,把它也作为输出。”

这一创新带来了多重优势。首先,它极大地提升了任务的可解释性,增强了人机信任感。当机器人向人类解释其下一步计划时,人们能更安心地接受其行为。其次,它支持多步骤复杂任务的分解与执行,使得机器人能够处理那些需要长期规划和精细操作的任务。最后,它为调试与错误分析提供了便利,工程师可以清晰地看到机器人在哪个环节出现了逻辑错误。> “第二个好处是什么?就是说机器人可以向人表达我下一步想干什么、为什么我想这么干,使得在人机交互的时候它增加了很多透明度。这样的话就不管是从呃安全性的角度也好,从这个人机交互的角度也好,它使得这个问题这样使得人可能会更安心一些。”

另一个关键突破是跨本体迁移(Crossing Bodyman Transfer),它从根本上解决了机器人数据稀缺的难题。传统机器人训练受限于单一设备,数据无法跨平台复用。而Gemini Robotics 1.5通过统一的数据格式与共享的模型架构,实现了跨机器人本体的数据迁移与能力复用。实验验证显示,在ALOHA(桌面机器人)、Franka(工业臂)、UPTRONIC(人形机器人)三种不同构型上进行联合训练,即使某机器人未见过特定场景(如垂直书架),也能通过其他机器人经验完成任务。> “我们发现就是不管你是用什么样的机器人,至少我们测的那个三个机器人:一个是ALOHA,是一个非常简单的双臂的机器人;一个是呃BY ARM FRANKA,是一个更工业级、更POWERFUL的机器人;还有一个是UPTRONIC的啊人形机器人。当我们把所有的数据放在一起。然后我们又开发了一个新的技术,叫MOTION TRANSFER。它可以更好地利用这种就是呃CROSSING BODY的数据,使得在机器人A上见过的任务,机器人B也能够执行。”

该技术的实现依赖于Motion Transfer算法,其核心思想是将动作从一种机器人形态映射到另一种,保持语义一致性。> “它就是说第一个是你不仅要把数据放在一块儿,同时你在就是模型的architecture上、模型的这个training recipe上你要做相应的改动。” 这一技术的威力在于,它使得机器人能够“举一反三”,就像学会开车的人无需重新学习,即可在新车型上驾驶,体现了“跨本体泛化”能力。

为应对实时性要求,系统采用了双模型结构慢模型(ER, Embodied Reasoning)和快模型(VLA, Vision-Language Action)。> “所以我们其实把我们做了一个就是快慢模型的这样一个就是呃DIVISION,就是有一个比较慢的模型,它是可以做这种非常长的THINKING的,然后它可以做一些决策,比如说呃你帮我打包行李,它可以去搜GOOGLE。” 慢模型负责复杂推理、长期规划和网络搜索,响应时间可达20秒,适用于“打包行李”等需综合信息的任务;快模型负责实时动作执行,响应时间控制在0.5秒以内,满足实时控制需求。二者通过语言接口通信,构成“大脑-小脑”协同机制,实现了效率与智能的完美平衡。

核心观点五:数据问题——机器人发展的根本瓶颈

机器人领域面临的最根本性挑战,是严重的数据墙(Data Wall)问题,其严峻程度远超大语言模型所面临的挑战。大语言模型可以利用互联网上海量的公开文本(如维基百科、书籍扫描件),数据量庞大且免费。而机器人数据则必须通过真实世界采集,成本高昂,且难以标准化。谭捷在访谈中将这一困境形象地比喻为“数据金字塔”,该模型描述了不同类型数据的层级关系与价值。

金字塔的底层是海量、低成本、易获取HUMAN VIDEO(第一人称视角视频),如YouTube上的内容。这类数据数量巨大,覆盖广泛,但与机器人形态差异大,难以直接使用。> “最底层呢,就是非常 scalable,非常大量的数据;这个数据可能是就是互联网上有的数据。” 中间层是仿真数据(Simulation Data),如Mujoco、Isaac Gym等平台生成。这类数据可精确控制变量,适合训练,但存在“仿真到现实差距”(Sim-to-Real Gap),物理简化导致偏差。顶层是真实机器人采集数据(Robot-Specific Data),如遥操(Teleoperation)数据。这类数据真实可靠,具有高保真度,但成本极高,难以规模化。

这一数据瓶颈的根源在于,机器人需要的是高质量、高多样性的数据,而真实数据的采集成本过高。谭捷提到,王赫曾计算过一笔账:一台人形机器人制造成本至少十万,若要组建一万台用于数据采集,仅硬件成本就高达十亿,再加上人力、维护、标注和质检成本,每月数亿至十亿的开销,使得这种模式“不是一个很scalable的方式”。> “一个人形机器人一台最少是十万制造成本,一万台买下来用于数据采集意味着十个亿”、“每台两班倒来雇人摇操。四个人一个月可能就需要小几万,此外还需要标注和质检,每个月维护1万台机器人的成本在数亿到10亿。”

为突破这一瓶颈,新一代仿真技术正在崛起。传统的物理引擎仿真效率低、成本高,而生成式视频模型(如Sora、View)驱动的仿真,通过文本提示即可生成逼真的机器人操作视频,显著降低了建模成本。> “现在因为video generation model,比如说view,比如说sora two,它的这个兴起很多人认为仿真其实就是。啊,生成一段视频。” 这种新范式的优势在于,仅需输入不同描述,即可快速构建“任意家庭场景”、“任意工业环境”等复杂设定,极大提升了数据多样性。然而,这种生成式仿真也面临幻觉和非物理现象的挑战,如生成体操视频时人物肢体不连贯,这仍是亟待解决的问题。

此外,数据质量的评估标准缺失,导致“数据方”(Data Foundry)与“模型方”之间常发生责任推诿。> “当务之急是,评判依赖主观感受,如‘动作是否平滑’、‘轨迹是否自然’。” 这种缺乏客观标准的现状,严重影响了研发效率,使得“数据方”与“模型方”之间难以达成共识,成为制约产业发展的另一大障碍。

核心观点六:机器人架构的未来演进路径

机器人架构的未来演进,正处于端到端(End-to-End)与分层架构(Hierarchical)之争的十字路口。端到端架构主张单一模型直接从感知输入到动作输出,追求极致的简洁与高效;而分层架构则将任务分解为感知、规划、执行等模块,各模块独立优化,便于调试与维护。谭捷认为,尽管短期分层架构更易实现,但从长远看,端到端架构终将胜出。> “我认为,尽管短期分层架构更易实现,但从长远看,端到端架构终将胜出。” 历史经验表明,初期看似合理的分层方案(如“传统控制+强化学习调参”)最终被更高效的端到端方案取代。

下一代模型的演进方向是视觉世界模型(Visual World Model, VWM)。当前主流的视觉语言动作模型(VLA)存在信息损失,难以表达精细动作细节。而视觉世界模型的目标是:给定前一帧图像与动作输入,预测下一帧图像。> “视觉世界模型(VWM)的目标是:给定前一帧图像与动作输入,预测下一帧图像。” 其优势在于能捕捉手指细微运动(如转笔、夹筷子),更符合物理规律,有助于提升泛化能力。Sora、View等生成式视频模型已初步具备世界模型特征,被认为是通往这一目标的关键一步。

多模态融合是必然趋势,未来的机器人模型将整合更多感官模态:视觉(Vision)、语言(Language)、动作(Action)、触觉(Tactile Sensing)、力觉(Force Sensing)。谭捷特别强调,触觉在灵巧手操作中至关重要,尤其在剪刀、拉链等精细任务中不可替代。> “早期误判‘视觉足以解决所有问题’,但实际测试表明,触觉反馈对复杂操作不可或缺。” 他分享了一个亲身经历:在控制灵巧手使用剪刀时,因缺乏触觉反馈,无法准确判断开关时机,导致操作失败。这一案例深刻揭示了触觉对于实现真正灵巧操作的必要性。

核心观点七:组织文化与人才管理机制

随着项目规模的扩大,Google DeepMind的研究文化经历了从松散管理到集团军作战的深刻变迁。九年前团队初创时,仅有约10人,实行松散管理,每位研究员拥有高度自主权,这种模式的优点是创新自由度高,适合探索前沿课题。> “九年前团队初创时仅有约10人,实行松散管理,每位研究员拥有高度自主权。” 然而,其缺点也显而易见:个人影响力有限,难以推动大规模项目。

随着团队发展至150人以上,管理方式转向集团军作战模式,强调协作与资源整合。> “随着项目规模扩大,团队发展为150人以上,转向集团军作战模式,强调协作与资源整合。” 这一转变带来了双重性:一方面,自上而下的管理模式确保了重大项目(如Gemini Robotics)有明确目标与时间线,资源得以高效配置;另一方面,自下而上的机制鼓励研究员自发探索新技术,形成快速迭代的小团队。> “例如,Motion Transfer技术正是由多个小团队在共同目标下自发研发并集成而成。” 这种双轮驱动的模式,既保证了战略方向的清晰,又激发了基层的创新活力。

人才激励与保留的核心在于使命感发展空间。尽管薪资水平高,但留住人才的关键并非金钱,而是能否参与“改变世界的项目”。> “最优质人才关心的不是金钱,而是能否参与‘改变世界的项目’。” 当代AI人才流动频繁,高薪挖角现象凸显“信仰经济”的重要性。成功的留人策略包括:提供顶级算力、开放研究空间、赋予重大使命。> “当当代AI人才流动频繁,Meta等公司高价挖角现象凸显‘信仰经济’重要性。”

核心观点八:中美合作与未来展望

谭捷将机器人发展划分为五个阶段:1. 自动化(已实现);2. 遥操机器人(硬件完善,无大脑);3. 专用智能机器人(如自动驾驶);4. 通用家庭机器人(能完成多种家务);5. 超人类机器人(超越人类体能与智能)。> “我以前就是在硅谷跟大家交流的时候说,机器人的发展有这么几个阶段。” 他预测,未来两到三年将迎来“GPT时刻”,公众将普遍意识到机器人正在到来;五年内,具备泛化能力的机器人将在制造业、物流、零售等领域落地;十年内,机器人有望进入家庭,成为日常生活助手。> “我觉得未来两三年我们应该会看到一个就像你说的呃GPT时刻,在这个时刻人们会真实的意识到这个ROBOTS ARE COMING。”

对于“机器人是否为人类”的哲学思考,谭捷认为,当前机器人智能本质上是统计规律的结果,尚未达到“意识”层面。> “当一个journalist真真正成型的话,就是specialist其实很难生存的。” 人工智能的安全性问题不容忽视,必须建立责任与安全委员会(Responsibility and Safety Council)进行伦理审查。> “当AI它能够自我迭代的时候,或者机器人能够自我迭代的时候,我觉得人类是面临生存问题的。” 若机器人能力超越人类安全理解,应暂停发展,待安全机制跟上。

总结与启示

核心洞见提炼

机器人智能的发展正经历从“局部控制”到“通用智能”的范式跃迁,其驱动力是大语言模型与强化学习的深度融合。数据瓶颈仍是制约发展的核心障碍,生成式仿真可能是破局关键。未来十年将是机器人从实验室走向真实世界的决定性时期。> “我觉得它的就是 progress 非常快,最近的一年它的这个进展让我觉得非常的。怎么说,impressed 或者 surprise。” 但“我们的这个gap也非常的大”。

行业启示

投资者应避免过度乐观,理性看待技术进展。企业需建立长期战略,重视数据积累与跨平台能力。研究者应拥抱开放协作,推动技术民主化。

个人认知升华

机器人发展不仅是技术问题,更是社会、伦理、文化的综合挑战。人类与机器共存的时代已经开启,我们需要以敬畏之心迎接这场变革。> “我觉得虽然整个科技的发展在加速,但是离机器人应用的这个gap还是比较大的,所以我觉得嗯,还需要等待一段时间,使得机器人真正的落地。”