Ex-Google Insider: You're Not Ready For The Next Phase of AI

节目

Inside the Silicon Mind with Firas Sozan

嘉宾

Andrew

日期

2026-06

时长

34 min

查看原始内容 →

概要

"我们已经到 AGI 了"是错觉——只要看企业实际在用 AI 做什么就知道。Andrew 常引用的 baby vision benchmark 显示，今天最强的模型在视觉空间能力上只相当于学龄前儿童（preschooler）：数不出桌上有几个杯子、玩不了简单棋盘游戏、甚至说不出一根电线连到哪两个东西。而企业大量真实工作（楼层平面图、飞机引擎、布线图）都是视觉的，所以这些企业对 AI 的使用其实"minimal"。

Andrew 是现代 LLM 的奠基人之一。2015 年他与 Quoc Le 合写了第一篇 pre-training + fine-tuning（预训练 + 微调）论文，用 LSTM（当时 transformer 还不存在）先做语言建模、再微调做情感分析，击败了当时所有监督分类方法。这篇论文构成了今天 LLM "三角"（transformer + 语言建模目标 + 网络数据）中的关键一角。

Google Brain 是这个时代的贝尔实验室（Bell Labs）。从这里走出的人定义了之后很多年的 AI：Ilya Sutskever（OpenAI→SSI）、Dario Amodei（Anthropic）、Sara Hooker（Cohere）、David Ha、Anna Goldie & Azalia（Recursive）……Andrew 把这称为继 "PayPal mafia" 之后的 "Google mafia"。

它的秘密武器是文化而非技术：绝对的智识自由、没有产品发布压力、micro-kitchen 和午餐桌上自由碰撞想法、以及让人敢于当众犯错的"心理安全感"。招聘上 Brain Residency Program 录取率极低，且刻意不只看 GPA，而要"背景独特、能带来新想法"的人。

下一个前沿是 visual AGI（视觉通用智能），这正是 Andrew 创办 Elorian 的原因。纯 coding 和 math 造不出新的飞机引擎或火箭，物理世界的技术进步（工程、CAD/CAM、建筑、农业、甚至数据中心建设）本质上是视觉问题。用移动时代类比：文本能力已是"几年前的 iPhone"，而视觉还停留在"64×64 像素的诺基亚"。

开场暴论：把"学龄前水平的视觉"叫 AGI 是言过其实

核心论点：文本和代码能力的飞跃让人误以为 AGI 已至，但企业真实需要的视觉空间能力，模型还停留在幼儿园水平。

Andrew 一上来就泼冷水：有人说我们已经到 AGI 了，但只要看产业、看企业真正需要什么，会发现大量企业对 AI 的使用其实极少（minimal）。原因是它们的工作大量是视觉性的。
他常引用的标尺是 baby vision：在这个 benchmark 上，模型只有学龄前儿童（preschooler）的水平，连小学生都算不上。
具体短板很"原始"：数不出桌上有几个玻璃杯、玩不了简单的棋盘游戏、理解不了简单的空间问题，甚至说不出"一根电线连接的是哪两个东西"。
最后这一点不是抖机灵——如果你要造 AI 来帮你建数据中心，连线缆两端连到哪都搞不清，这能力就是硬伤。

"我无论如何不会把停留在学龄前儿童视觉水平的 AI 称作 AGI。" —— Andrew

Google Brain = 这个时代的贝尔实验室，走出的人定义了 AI

核心论点：真正改变产业的不只是技术，更是产生这些人的文化；Brain 校友撑起了今天的整个前沿实验室格局。

当被问到 20 年后人们会怎么评价 Google Brain，Andrew 的答案是：它会被视为这个时代的 Bell Labs（贝尔实验室）——从这里出来的人，在相当长一段时间里定义了 AI。
这份"校友名单"本身就是论据：Sara Hooker（曾在 Cohere AI）、Ilya Sutskever（OpenAI，后创办 SSI）、Dario Amodei（创办 Anthropic）。
前沿 AI 实验室这一整个时代，几乎都是由前 Google Brain 或前 Google DeepMind 的人开创的。
Ross 给了个精妙的类比：大家都知道 "PayPal mafia"，而这几乎就是 "Google mafia"。

"希望即使 Google Brain 这个名字不在了，它的文化还能在新一代实验室里延续下去。" —— Andrew

Andrew 的来路：30 人的 Brain、Ilya 还在手写 GPU kernel

核心论点：他几乎是从 Brain 最早期一路走到 Gemini，亲历了 LLM 在 Google 内部的整条崛起曲线。

Andrew 在英国长大、读完 PhD，14 年前移居湾区，先加入了一个后来变成 Google Now 的团队。
几年后转入 Google Brain——当时团队还很小，大约 30 人左右，Ilya Sutskever 和 Oriol Vinyals 都还在。他回忆当时 Ilya 还在亲手写跑在 GPU kernel 上的代码，"一眼就能看出这是个非常特别的环境"。
加入一年后，他和 Quoc Le 写下了那篇预训练 + 微调的论文。
之后他做过 Smart Reply、Smart Compose、Google Health（试图把这些方法落到产品里，但 Google Health 当时"早了点"，效果不太好）。
再回到 Brain 时正赶上 LLM 在内部崛起：他做了被他称为 GLaM 的工作，做了 PaLM、PaLM 2，以及 Gemini 的数据部分——这是他离开前做的事。
一个容易被忽略的细节：Liam Fedus、David Ha 等人曾是他的实习生，后来都各自创业。

那篇 2015 年的论文：从改进 paragraph vectors，到"顺手试试图像"

核心论点：一个本想改进段落向量的研究，意外发现了"语言建模 + 微调"这条通往现代 LLM 的主路。

这是全场最有"研究现场感"的一段，值得完整还原：

起因：2015 年，他们本来想改进 paragraph vectors（当时表示段落的 SOTA 方法，源自 Word2vec）——核心思路是用反向传播得到最优向量，而不是简单地对一堆 embedding 做平均。
转折：他们试了好些想法，最终真正奏效的是：先训练模型做语言建模（language modeling），再把这个模型微调（fine-tuning）去对 Rotten Tomatoes 影评做情感分析。结果它击败了当时所有的监督分类方法，包括其他基于 LSTM 的方法。（之所以用 LSTM，是因为那时 transformer 还不存在。）
再转折：Quoc 说"那你干脆也在图像上试试呗"。深度学习的一个特别之处是它不依附于某种特定数据——他们相信神经元网络能正确学到任何模态。于是他们把图像光栅化、逐行预测下一行像素、再做微调。没有任何卷积（convolution），却仍拿到了"略低于 SOTA 但非常好"的结果。
认可时刻：2015 年底在 NeurIPS 上展示时，LSTM 发明者之一 Sepp Hochreiter 走到他们的海报前说——这个方法"就是有效"（the method just works），他自己已经试过了。Andrew 把这看作一个信号：这东西可能成为大量 AI 的基础。

"我们当时坐在那儿想：他们还没意识到，但语言建模就是语言理解的核心，所有人迟早都会看到这一点。" —— Andrew

现代 LLM 的"三角"，以及语言建模为何是关键一角

核心论点：今天的 LLM = transformer + 语言建模目标 + 网络数据，三者缺一不可；而语言建模这条路当年根本不被看好。

如果问业界 LLM 和 chatbot 的核心组件是什么，Andrew 认为答案会是：transformer、语言建模这个目标函数加上微调、以及在网络数据上训练。三者构成一个"三角"，而语言建模目标是其中关键的一角。（transformer 同样诞生于 Brain 团队。）
这条路当年并不被看好：就在论文发表那年，Brain 团队内部和各种会议上都有人问"我们为什么要训练这些语言模型？有什么意义？"——因为当时语言模型只被用于解码（decoding），只服务于语音识别，没有别的用途。
语言建模目标真正的威力在于可扩展：它能把你手上有多少数据（哪怕是整个互联网）都吸进来并有效利用，而此前的方法做不到这一点。正如 OpenAI 后来发现的，模型越做越大，这个目标依然有效。
之后它沿着 GPT-1、2、3 一路发展，又叠加了指令微调（instruction tuning）、RL，以及 transformer——这才有了今天。
一个意味深长的旁证：有研究说大多数 PhD 论文只被两个人读过——作者本人和审稿人。但这篇论文显然是例外。

Google Brain 的招聘哲学：极低录取率，且不只看 GPA

核心论点：Brain Residency Program 刻意选"背景独特、好奇心极强"的人，而非只看学术成绩，这才是它高产的隐藏变量。

很多后来创业的人都出自 Brain Residency Program（如 David Ha、Anna Goldie、Azalia——后者们最近创办了 Recursive）。这个项目让来自不同背景的人加入 Brain 一年，与多位研究员紧密合作。
门槛极高：数千人申请，录取率极低（Andrew 说 Jeff Dean 知道确切数字，但他知道"非常低"）。
关键在于筛选标准：他们不只看学术能力或 GPA，而是要找背景独特、能带来新想法、思维方式与主流略有不同的人。
他们看重的特质：对 AI 的强烈热情、想站到前沿做出突破；往往很早就建过东西、很早写过论文或拿过奖；以及"对世界强烈的好奇心"——想理解世界、尤其想理解如何改进 AI。
Andrew 认为这种"研究创造力、研究视野，以及招会做这些事的人"的能力，如今被低估了。
Ross 总结得很到位：他们对"门槛有多高"毫不歉疚（unapologetic），而这恰恰是他们组建顶级团队的剧本之一。

文化内核：智识自由、无产品压力、敢于当众犯错

核心论点：让 30 人小团队产生历史级突破的，是自由开放的研究氛围和"心理安全感"。

文化让人能自由思考、想试什么就试什么，没有来自产品的压力，也没有"必须在某个时间点上线"的压力——纯粹是开放自由的研究文化。
想法在 micro-kitchen（茶水间）或午餐时被讨论出来，然后大家兴奋地去执行、看会发生什么。恰逢深度学习刚刚起飞，人们都想看看自己的想法在这个新范式下是否奏效——"感觉真的像一个创新的年代"。
在 15-20 人共同攻关的团队里，人们乐于当众犯错：常常实验还没做几个就早早把结果拿出来分享，结果可能是错的，但大家理解"研究就是这样，有时对有时错"。
这个词叫 psychological safety（心理安全感）：没人害怕开口说"我觉得这方向不对"或"不该这么做"，对批评和犯错都很开放。

"如果我想搞政治，我就去从政了。我在这儿是为了真正把研究和 AI 的边界往前推。" —— Andrew（谈为何选择创业）

Jeff Hinton 的信念：照着人脑建模，让数据带网络去它该去的地方

核心论点：Hinton"模仿大脑"的研究哲学渗透了整个 Brain——不设计完美网络，而靠梯度下降演化。

Andrew 说，加入时从团队的人就能明显感到这是个历史性环境，尤其是 Jeff Hinton——即便在十年前，他也已是领域里的传奇，以"极具创造力、想法就是能work"著称。
Hinton 的研究感觉源自一个信念：我们应该照着人脑来建模，因为人脑是我们拥有的唯一真实的智能样本，顺着大脑做事的方式走才是对的方向。
这个信念延续至今：神经网络、深度学习虽然远比真实神经元简单，但遵循同一种设计哲学——你不从零设计一个完美网络，而是让它通过梯度下降（gradient descent）演化，让数据把网络带到它该去的地方。
这种思维渗透了整个 Brain。Andrew 刚加入时，Ilya 和 Quoc 正在做 sequence-to-sequence 论文，那也为后来很多模型奠了基。
"照着大脑建模"具体意味着：大脑是一台高度可适应的神经机器，只要有足够好的计算装置（神经网络 + 深度学习 + 反向传播），你真正需要的就只是对的数据。（一个更微妙的假设是：DNA 里编码的信息其实不多——是否成立没人确知，但可以两面争论：有人认为预训练就是在把智能编码进模型的"DNA"，而微调更像大脑在成长为成年人过程中的演化。）
Hinton 还有一条后续工作线：寻找比反向传播更"生物学上可行"的替代方案。因为很难想象人脑如何做反向传播——做反向传播时，一个神经元更新时必须精确知道自己最初是怎么放电的，而神经科学有大量证据表明这种信息并不会被记录。所以人们普遍相信大脑不做反向传播。如果能找到可行替代，"我们可能会迎来深度学习的又一次突破"。

"DeepMind 也有类似的起源——它来自 UCL 的 Gatsby 神经科学实验室。当时很多实验室都源自神经科学。" —— Andrew

"Osmosis"：在顶尖团队身边，你偷学到的是做研究的方法论

核心论点：在精英密度高的团队里，最有价值的不是某个项目，而是耳濡目染地学会"如何做研究"。

Ross 提到 Andrew 在准备时用过一个词——osmosis（渗透、耳濡目染），并追问：野心勃勃的人，对"每天身处精英身边"这件事低估了什么？
Andrew 的回答是：人们低估的是理解研究如何运作、资深研究员/research lead 如何思考和攻克问题。
他用 PhD 来类比：读 PhD 要好几年，但对大多数人而言，真正的收获是学会如何有效地做研究，而不是那些论文本身（他甚至引用了"多数 PhD 论文只被作者和审稿人两个人读过"的说法）。
这种学习独立于具体研究项目：何时该放弃一个项目、何时该顶着障碍继续推、以及仅凭听别人讲就能识别出好研究想法的能力。
关键洞察：在一个人才密度高、有优秀研究领袖的团队里，你能很快学到这些原则——哪怕你没和那个人直接合作，只是听他在走廊、在研究分享会里怎么聊，就能习得他攻克问题、思考研究的方式。"这非常有价值。"

"你可能没在某个项目上和那个人直接共事，但只要理解他如何拆解一个项目、如何思考研究问题，本身就极有价值。" —— Andrew

In-person 不可替代，以及"think bigger"

核心论点：走廊和咖啡间的临时对话催生新研究，COVID 远程办公丢掉了这个；同时要敢于跳出 niche 去想大问题。

谈到 osmosis 与远程办公，Ross 直言：全面远程后我们丢失了某些东西——"说自己是团队一员很容易，但如果你每天只在早上 30 分钟的 Zoom 通话里见到他们，你真的是团队的一部分吗？"
Andrew 完全认同 in-person 的重要性，这也是他自己公司坚持线下办公的原因：在走廊里、在接咖啡时自由分享想法，很多对话会直接催生新点子、新研究项目。那些把"以前没人想到能结合的想法"结合起来的临时对话（ad hoc conversations），在 COVID 期间确实丢失了。
多年与顶尖的人共事，改变 Andrew 最多的是"想得更大"（thinking bigger）：博士生很容易钻进一个 niche，在那个小领域里出名，但对更广的研究社区影响有限——那是一种"安全"的做法。
他拿自己举例：PhD 早期做的是 non-parametrics，发了些论文，但"现在没人再谈这个了"，远不如他在 Google Brain 有机会探索的那些大想法有影响力。
结论很直接：能真正改变一个领域的，是那些大的、有影响力的想法——所以他鼓励人们"keep thinking big, going big"。

争议问题：为什么这些公司不是在 Google 内部诞生的？

核心论点：硅谷 ethos 决定了——当你成长到顶，剩下的选择只有升职(政治)、跳槽或自己创业，而真正想推前沿的人会选最后一条。

Ross 抛出一个他坦言"可能有争议"的问题：Google Brain 带来了这么多人才、这么好的文化、还有那篇奠基论文，OpenAI、Anthropic 这些前沿实验室为什么没有在 Google 内部建成？
Andrew 用"硅谷 ethos"作答（还顺手调侃了那部已经很老的剧《硅谷》）：很多人把大厂当成成长和学习的好地方，但到某个点你会"outgrow"（成长到超出）那个团队、那个组织。
到那时你的选择其实不多：要么继续争取升职——但到了高层这就变得很"政治"；要么跳到另一家大厂——往往还是逃不开政治；要么就是自己创业，掌握更多 ownership、对自己的命运负更多责任，并且彻底摆脱政治。
他的态度很鲜明："如果我想搞政治，我就去从政了。我在这儿是为了真正把研究和 AI 的前沿往前推。"所以创业对他是个"显而易见"的决定：只要能组建好团队、拿到融资，就一定能做出伟大的东西。
他还引用了 Ilya 在早年 sequence-to-sequence 时期说过、当时很多人都觉得鼓舞的一句话——"success is guaranteed（成功是注定的）"。这正是他做自己事情时的感觉，"只是它必须成功"。

"Success is guaranteed." —— Ilya Sutskever（Andrew 转述，作为创业心态）

Elorian 与 visual AGI：纯 coding 造不出飞机引擎

核心论点：企业真实工作高度视觉化，而当前模型的视觉能力是硬缺口；Elorian 要把人类带过"baby vision"，迈向 visual AGI。

Elorian 是一家研究 + 产品实验室，成立 5 个半月，由 Andrew 和几位来自 Apple、DeepMind 的老友共同创办，目标是构建模型、推动人类迈向 visual AGI（视觉通用智能）。
缘由：Andrew 做了十多年语言模型，看到 coding、文本、数学的进步是"gigantic（巨大的）"，有人因此说我们已经到 AGI 了。但看企业实际需求，会发现它们对 AI 的使用极少——因为大量工作是视觉的。
他举了一连串例子：处理楼层平面图、为新飞机设计引擎、画电气布线图、给家里选沙发、给办公室挑椅子——这些全是视觉问题。"你没法用纯 coding 编出一台新的飞机引擎，无论你多想；也没法用数学'算'出一枚新火箭。没那么简单，这里面有大量视觉元素，本质上是 physical AI（物理 AI）的元素。"
benchmark 也印证了这个大缺口：在 baby vision 上，模型只有学龄前儿童水平——数不出桌上几个杯子、玩不了简单棋盘、理解不了简单空间问题。

"你没法用纯 coding 编出一台新的飞机引擎，无论你多想；也没法用数学去'算'出一枚新火箭。" —— Andrew

移动时代类比：文本是"几年前的 iPhone"，视觉还是"诺基亚"

核心论点：用手机演进做标尺，AI 的文本能力已相当成熟，视觉能力却仍停留在低分辨率的功能机时代。

Ross 用了他常问嘉宾的一个问题：如果用移动时代做类比（从 80 年代带天线的"大哥大"、到诺基亚 3310、到第一代 iPhone、再到今天的 iPhone），AI 现在处在哪里？
Andrew 的回答分了两层：
文本和任务：处于 iPhone 水平——而且是"几年前的 iPhone"。你可以在 iPhone 上做编程、做自动化、用 Mathematica 之类做高级数学（虽然 App Store 规则未必允许在手机上写代码）。
视觉问题：还停留在诺基亚水平——相当于用一台 64×64 像素分辨率的相机（这正是 ARC-AGI 类 benchmark 的分辨率）。一切都很像素化、很模糊，你能认出"那是什么车""照片里是谁"，但要做任何更进阶的事就"完全没戏"。

"对视觉问题，我们还停留在诺基亚的水平——拿着 64×64 像素分辨率的相机，一切都很像素化、很模糊。" —— Andrew

visual AGI 的用例：从 CAD/建筑到数据中心建设

核心论点：物理世界的技术进步大多是视觉问题，一旦视觉能力到位，工程、建筑、农业乃至数据中心建设都会被解锁。

Andrew 认为很多技术领域能从 visual AGI 中受益、并推动技术本身进步——因为大量技术进步来自物理世界：机械工程、电子工程、电气工程，这些领域本质上都在处理视觉问题、视觉图纸、并对其进行编辑。
他列出的早期突破领域：工程（CAD design、CAM design）、建筑（设计楼层平面图）、农业、建筑施工、以及通用的成像（imaging）——"产业里的用例几乎是无穷的，只要你能造出足够好的东西"。
一个最近有人告诉他的例子是数据中心：数据中心正在以极快速度建设，但非常难建——而当前模型"甚至说不出一根电线连接的是哪两个东西"。如果你要造 AI 来帮你建数据中心，这一点至关重要。
Ross 顺势联想到摄像头、安防、犯罪预防——在问题发生前就识别出来——这些都是 visual AGI 能打开的想象空间。

收尾：Google mafia、文化的延续，与《基地》

核心论点：Google Brain 会像贝尔实验室一样被铭记，它的文化将通过新一代实验室延续；而"想得足够大"是 Andrew 的精神底色。

当被问到 20 年后人们会如何评价 Google Brain，Andrew 重申：它会是这个时代的贝尔实验室——走出的人定义了 AI、奠定了 AI 的基础。
他承认很难预见 20 年后 AI 在哪：LLM 大概还会在，但一定会有新东西出现，而他希望这些新东西也由"仍承载着十年前 Google Brain 文化"的新一代实验室做出来。"希望即使 Google Brain 这个名字消失了，它的文化还活着。"
Ross 用 "Google mafia"（对应 "PayPal mafia"）为这段历史命名，并祝福 Andrew 的创业。
按惯例，结尾请嘉宾推荐一本书。Andrew 推荐 Isaac Asimov 的 《基地》(Foundation) 系列——它是"想得大"的绝佳范例：不是规划未来几十年、几百年，而是着眼几千年后并为之布局。这恰好呼应了全场他反复强调的 "think bigger"。

"我一直很爱阿西莫夫的《基地》系列。它是 thinking big 的绝佳范例——不是十年百年，而是为几千年后的未来做规划。" —— Andrew

附录：关键人 / 机构 / 产品 / 概念

项目	详情
Andrew	嘉宾。前 Google Brain 14 年研究员，2015 年 pre-training+fine-tuning 论文作者之一；Elorian 联合创始人
Ross	主持人，招聘人背景，Inside the Silicon Mind 播客主持
Quoc Le	Andrew 2015 论文的合著者，Google Brain
Jeff Dean	Google 传奇工程师，掌握 Brain Residency 确切录取率
Jeff Hinton	深度学习先驱，"照人脑建模"信念的源头，探索反向传播的生物可行替代
Ilya Sutskever	早期 Brain 成员，后创办 OpenAI、SSI；名言 "success is guaranteed"
Dario Amodei	前 Brain/Google 系，创办 Anthropic
Sara Hooker	前 Brain 系，曾在 Cohere AI
David Ha、Liam Fedus	曾是 Andrew 的实习生，后均创业
Anna Goldie & Azalia	出自 Brain Residency，近期创办 Recursive
Sepp Hochreiter	LSTM 发明者之一，2015 NeurIPS 认可 Andrew 论文方法"就是有效"
Elorian	Andrew 的研究+产品实验室，成立 5.5 个月，主攻 visual AGI
Google Brain	被比作"这个时代的贝尔实验室"，前沿实验室创始人的摇篮
DeepMind	源自 UCL Gatsby 神经科学实验室
Brain Residency Program	Brain 的人才项目，数千人申请、录取率极低，选背景独特+好奇心强的人
pre-training + fine-tuning	2015 论文核心：先语言建模、再微调；现代 LLM 的关键一角
LLM "三角"	transformer + 语言建模目标 + 网络数据
baby vision	Andrew 常引用的视觉 benchmark，当前模型≈学龄前儿童水平
ARC-AGI benchmark	分辨率约 64×64 像素，被类比为"诺基亚级"视觉
visual AGI	Elorian 的目标：让 AI 跨过 baby vision，胜任工程/建筑/数据中心等视觉任务
osmosis	在精英团队中耳濡目染地习得做研究的方法论
psychological safety	让团队成员敢于当众犯错、敢于直言的心理安全感
《基地》(Foundation)	Asimov 科幻系列，Andrew 推荐，"think big"范例