← 返回
VIDEO INSIGHT

Ex-Google Insider: You're Not Ready For The Next Phase of AI

嘉宾
日期
2026-06
时长
34 min

概要

  • "我们已经到 AGI 了"是错觉——只要看企业实际在用 AI 做什么就知道。Andrew 常引用的 baby vision benchmark 显示,今天最强的模型在视觉空间能力上只相当于学龄前儿童(preschooler):数不出桌上有几个杯子、玩不了简单棋盘游戏、甚至说不出一根电线连到哪两个东西。而企业大量真实工作(楼层平面图、飞机引擎、布线图)都是视觉的,所以这些企业对 AI 的使用其实"minimal"。
  • Andrew 是现代 LLM 的奠基人之一。2015 年他与 Quoc Le 合写了第一篇 pre-training + fine-tuning(预训练 + 微调)论文,用 LSTM(当时 transformer 还不存在)先做语言建模、再微调做情感分析,击败了当时所有监督分类方法。这篇论文构成了今天 LLM "三角"(transformer + 语言建模目标 + 网络数据)中的关键一角。
  • Google Brain 是这个时代的贝尔实验室(Bell Labs)。从这里走出的人定义了之后很多年的 AI:Ilya Sutskever(OpenAI→SSI)、Dario Amodei(Anthropic)、Sara Hooker(Cohere)、David Ha、Anna Goldie & Azalia(Recursive)……Andrew 把这称为继 "PayPal mafia" 之后的 "Google mafia"。
  • 它的秘密武器是文化而非技术:绝对的智识自由、没有产品发布压力、micro-kitchen 和午餐桌上自由碰撞想法、以及让人敢于当众犯错的"心理安全感"。招聘上 Brain Residency Program 录取率极低,且刻意不只看 GPA,而要"背景独特、能带来新想法"的人。
  • 下一个前沿是 visual AGI(视觉通用智能),这正是 Andrew 创办 Elorian 的原因。纯 coding 和 math 造不出新的飞机引擎或火箭,物理世界的技术进步(工程、CAD/CAM、建筑、农业、甚至数据中心建设)本质上是视觉问题。用移动时代类比:文本能力已是"几年前的 iPhone",而视觉还停留在"64×64 像素的诺基亚"。
01

开场暴论:把"学龄前水平的视觉"叫 AGI 是言过其实

核心论点:文本和代码能力的飞跃让人误以为 AGI 已至,但企业真实需要的视觉空间能力,模型还停留在幼儿园水平。

  • Andrew 一上来就泼冷水:有人说我们已经到 AGI 了,但只要看产业、看企业真正需要什么,会发现大量企业对 AI 的使用其实极少(minimal)。原因是它们的工作大量是视觉性的。
  • 他常引用的标尺是 baby vision:在这个 benchmark 上,模型只有学龄前儿童(preschooler)的水平,连小学生都算不上。
  • 具体短板很"原始":数不出桌上有几个玻璃杯、玩不了简单的棋盘游戏、理解不了简单的空间问题,甚至说不出"一根电线连接的是哪两个东西"。
  • 最后这一点不是抖机灵——如果你要造 AI 来帮你建数据中心,连线缆两端连到哪都搞不清,这能力就是硬伤。
"我无论如何不会把停留在学龄前儿童视觉水平的 AI 称作 AGI。" —— Andrew
02

Google Brain = 这个时代的贝尔实验室,走出的人定义了 AI

核心论点:真正改变产业的不只是技术,更是产生这些人的文化;Brain 校友撑起了今天的整个前沿实验室格局。

  • 当被问到 20 年后人们会怎么评价 Google Brain,Andrew 的答案是:它会被视为这个时代的 Bell Labs(贝尔实验室)——从这里出来的人,在相当长一段时间里定义了 AI。
  • 这份"校友名单"本身就是论据:Sara Hooker(曾在 Cohere AI)、Ilya Sutskever(OpenAI,后创办 SSI)、Dario Amodei(创办 Anthropic)。
  • 前沿 AI 实验室这一整个时代,几乎都是由前 Google Brain 或前 Google DeepMind 的人开创的。
  • Ross 给了个精妙的类比:大家都知道 "PayPal mafia",而这几乎就是 "Google mafia"。
"希望即使 Google Brain 这个名字不在了,它的文化还能在新一代实验室里延续下去。" —— Andrew
03

Andrew 的来路:30 人的 Brain、Ilya 还在手写 GPU kernel

核心论点:他几乎是从 Brain 最早期一路走到 Gemini,亲历了 LLM 在 Google 内部的整条崛起曲线。

  • Andrew 在英国长大、读完 PhD,14 年前移居湾区,先加入了一个后来变成 Google Now 的团队。
  • 几年后转入 Google Brain——当时团队还很小,大约 30 人左右,Ilya Sutskever 和 Oriol Vinyals 都还在。他回忆当时 Ilya 还在亲手写跑在 GPU kernel 上的代码,"一眼就能看出这是个非常特别的环境"。
  • 加入一年后,他和 Quoc Le 写下了那篇预训练 + 微调的论文。
  • 之后他做过 Smart Reply、Smart Compose、Google Health(试图把这些方法落到产品里,但 Google Health 当时"早了点",效果不太好)。
  • 再回到 Brain 时正赶上 LLM 在内部崛起:他做了被他称为 GLaM 的工作,做了 PaLM、PaLM 2,以及 Gemini 的数据部分——这是他离开前做的事。
  • 一个容易被忽略的细节:Liam Fedus、David Ha 等人曾是他的实习生,后来都各自创业。
04

那篇 2015 年的论文:从改进 paragraph vectors,到"顺手试试图像"

核心论点:一个本想改进段落向量的研究,意外发现了"语言建模 + 微调"这条通往现代 LLM 的主路。

这是全场最有"研究现场感"的一段,值得完整还原:

  • 起因:2015 年,他们本来想改进 paragraph vectors(当时表示段落的 SOTA 方法,源自 Word2vec)——核心思路是用反向传播得到最优向量,而不是简单地对一堆 embedding 做平均。
  • 转折:他们试了好些想法,最终真正奏效的是:先训练模型做语言建模(language modeling),再把这个模型微调(fine-tuning)去对 Rotten Tomatoes 影评做情感分析。结果它击败了当时所有的监督分类方法,包括其他基于 LSTM 的方法。(之所以用 LSTM,是因为那时 transformer 还不存在。)
  • 再转折:Quoc 说"那你干脆也在图像上试试呗"。深度学习的一个特别之处是它不依附于某种特定数据——他们相信神经元网络能正确学到任何模态。于是他们把图像光栅化、逐行预测下一行像素、再做微调。没有任何卷积(convolution),却仍拿到了"略低于 SOTA 但非常好"的结果。
  • 认可时刻:2015 年底在 NeurIPS 上展示时,LSTM 发明者之一 Sepp Hochreiter 走到他们的海报前说——这个方法"就是有效"(the method just works),他自己已经试过了。Andrew 把这看作一个信号:这东西可能成为大量 AI 的基础。
"我们当时坐在那儿想:他们还没意识到,但语言建模就是语言理解的核心,所有人迟早都会看到这一点。" —— Andrew
05

现代 LLM 的"三角",以及语言建模为何是关键一角

核心论点:今天的 LLM = transformer + 语言建模目标 + 网络数据,三者缺一不可;而语言建模这条路当年根本不被看好。

  • 如果问业界 LLM 和 chatbot 的核心组件是什么,Andrew 认为答案会是:transformer、语言建模这个目标函数加上微调、以及在网络数据上训练。三者构成一个"三角",而语言建模目标是其中关键的一角。(transformer 同样诞生于 Brain 团队。)
  • 这条路当年并不被看好:就在论文发表那年,Brain 团队内部和各种会议上都有人问"我们为什么要训练这些语言模型?有什么意义?"——因为当时语言模型只被用于解码(decoding),只服务于语音识别,没有别的用途。
  • 语言建模目标真正的威力在于可扩展:它能把你手上有多少数据(哪怕是整个互联网)都吸进来并有效利用,而此前的方法做不到这一点。正如 OpenAI 后来发现的,模型越做越大,这个目标依然有效。
  • 之后它沿着 GPT-1、2、3 一路发展,又叠加了指令微调(instruction tuning)、RL,以及 transformer——这才有了今天。
  • 一个意味深长的旁证:有研究说大多数 PhD 论文只被两个人读过——作者本人和审稿人。但这篇论文显然是例外。
06

Google Brain 的招聘哲学:极低录取率,且不只看 GPA

核心论点:Brain Residency Program 刻意选"背景独特、好奇心极强"的人,而非只看学术成绩,这才是它高产的隐藏变量。

  • 很多后来创业的人都出自 Brain Residency Program(如 David Ha、Anna Goldie、Azalia——后者们最近创办了 Recursive)。这个项目让来自不同背景的人加入 Brain 一年,与多位研究员紧密合作。
  • 门槛极高:数千人申请,录取率极低(Andrew 说 Jeff Dean 知道确切数字,但他知道"非常低")。
  • 关键在于筛选标准:他们不只看学术能力或 GPA,而是要找背景独特、能带来新想法、思维方式与主流略有不同的人。
  • 他们看重的特质:对 AI 的强烈热情、想站到前沿做出突破;往往很早就建过东西、很早写过论文或拿过奖;以及"对世界强烈的好奇心"——想理解世界、尤其想理解如何改进 AI。
  • Andrew 认为这种"研究创造力、研究视野,以及招会做这些事的人"的能力,如今被低估了。
  • Ross 总结得很到位:他们对"门槛有多高"毫不歉疚(unapologetic),而这恰恰是他们组建顶级团队的剧本之一。
07

文化内核:智识自由、无产品压力、敢于当众犯错

核心论点:让 30 人小团队产生历史级突破的,是自由开放的研究氛围和"心理安全感"。

  • 文化让人能自由思考、想试什么就试什么,没有来自产品的压力,也没有"必须在某个时间点上线"的压力——纯粹是开放自由的研究文化。
  • 想法在 micro-kitchen(茶水间)或午餐时被讨论出来,然后大家兴奋地去执行、看会发生什么。恰逢深度学习刚刚起飞,人们都想看看自己的想法在这个新范式下是否奏效——"感觉真的像一个创新的年代"。
  • 在 15-20 人共同攻关的团队里,人们乐于当众犯错:常常实验还没做几个就早早把结果拿出来分享,结果可能是错的,但大家理解"研究就是这样,有时对有时错"。
  • 这个词叫 psychological safety(心理安全感):没人害怕开口说"我觉得这方向不对"或"不该这么做",对批评和犯错都很开放。
"如果我想搞政治,我就去从政了。我在这儿是为了真正把研究和 AI 的边界往前推。" —— Andrew(谈为何选择创业)
08

Jeff Hinton 的信念:照着人脑建模,让数据带网络去它该去的地方

核心论点:Hinton"模仿大脑"的研究哲学渗透了整个 Brain——不设计完美网络,而靠梯度下降演化。

  • Andrew 说,加入时从团队的人就能明显感到这是个历史性环境,尤其是 Jeff Hinton——即便在十年前,他也已是领域里的传奇,以"极具创造力、想法就是能work"著称。
  • Hinton 的研究感觉源自一个信念:我们应该照着人脑来建模,因为人脑是我们拥有的唯一真实的智能样本,顺着大脑做事的方式走才是对的方向。
  • 这个信念延续至今:神经网络、深度学习虽然远比真实神经元简单,但遵循同一种设计哲学——你不从零设计一个完美网络,而是让它通过梯度下降(gradient descent)演化,让数据把网络带到它该去的地方。
  • 这种思维渗透了整个 Brain。Andrew 刚加入时,Ilya 和 Quoc 正在做 sequence-to-sequence 论文,那也为后来很多模型奠了基。
  • "照着大脑建模"具体意味着:大脑是一台高度可适应的神经机器,只要有足够好的计算装置(神经网络 + 深度学习 + 反向传播),你真正需要的就只是对的数据。(一个更微妙的假设是:DNA 里编码的信息其实不多——是否成立没人确知,但可以两面争论:有人认为预训练就是在把智能编码进模型的"DNA",而微调更像大脑在成长为成年人过程中的演化。)
  • Hinton 还有一条后续工作线:寻找比反向传播更"生物学上可行"的替代方案。因为很难想象人脑如何做反向传播——做反向传播时,一个神经元更新时必须精确知道自己最初是怎么放电的,而神经科学有大量证据表明这种信息并不会被记录。所以人们普遍相信大脑不做反向传播。如果能找到可行替代,"我们可能会迎来深度学习的又一次突破"。
"DeepMind 也有类似的起源——它来自 UCL 的 Gatsby 神经科学实验室。当时很多实验室都源自神经科学。" —— Andrew
09

"Osmosis":在顶尖团队身边,你偷学到的是做研究的方法论

核心论点:在精英密度高的团队里,最有价值的不是某个项目,而是耳濡目染地学会"如何做研究"。

  • Ross 提到 Andrew 在准备时用过一个词——osmosis(渗透、耳濡目染),并追问:野心勃勃的人,对"每天身处精英身边"这件事低估了什么?
  • Andrew 的回答是:人们低估的是理解研究如何运作、资深研究员/research lead 如何思考和攻克问题
  • 他用 PhD 来类比:读 PhD 要好几年,但对大多数人而言,真正的收获是学会如何有效地做研究,而不是那些论文本身(他甚至引用了"多数 PhD 论文只被作者和审稿人两个人读过"的说法)。
  • 这种学习独立于具体研究项目:何时该放弃一个项目、何时该顶着障碍继续推、以及仅凭听别人讲就能识别出好研究想法的能力。
  • 关键洞察:在一个人才密度高、有优秀研究领袖的团队里,你能很快学到这些原则——哪怕你没和那个人直接合作,只是听他在走廊、在研究分享会里怎么聊,就能习得他攻克问题、思考研究的方式。"这非常有价值。"
"你可能没在某个项目上和那个人直接共事,但只要理解他如何拆解一个项目、如何思考研究问题,本身就极有价值。" —— Andrew
10

In-person 不可替代,以及"think bigger"

核心论点:走廊和咖啡间的临时对话催生新研究,COVID 远程办公丢掉了这个;同时要敢于跳出 niche 去想大问题。

  • 谈到 osmosis 与远程办公,Ross 直言:全面远程后我们丢失了某些东西——"说自己是团队一员很容易,但如果你每天只在早上 30 分钟的 Zoom 通话里见到他们,你真的是团队的一部分吗?"
  • Andrew 完全认同 in-person 的重要性,这也是他自己公司坚持线下办公的原因:在走廊里、在接咖啡时自由分享想法,很多对话会直接催生新点子、新研究项目。那些把"以前没人想到能结合的想法"结合起来的临时对话(ad hoc conversations),在 COVID 期间确实丢失了。
  • 多年与顶尖的人共事,改变 Andrew 最多的是"想得更大"(thinking bigger):博士生很容易钻进一个 niche,在那个小领域里出名,但对更广的研究社区影响有限——那是一种"安全"的做法。
  • 他拿自己举例:PhD 早期做的是 non-parametrics,发了些论文,但"现在没人再谈这个了",远不如他在 Google Brain 有机会探索的那些大想法有影响力。
  • 结论很直接:能真正改变一个领域的,是那些大的、有影响力的想法——所以他鼓励人们"keep thinking big, going big"。
11

争议问题:为什么这些公司不是在 Google 内部诞生的?

核心论点:硅谷 ethos 决定了——当你成长到顶,剩下的选择只有升职(政治)、跳槽或自己创业,而真正想推前沿的人会选最后一条。

  • Ross 抛出一个他坦言"可能有争议"的问题:Google Brain 带来了这么多人才、这么好的文化、还有那篇奠基论文,OpenAI、Anthropic 这些前沿实验室为什么没有在 Google 内部建成?
  • Andrew 用"硅谷 ethos"作答(还顺手调侃了那部已经很老的剧《硅谷》):很多人把大厂当成成长和学习的好地方,但到某个点你会"outgrow"(成长到超出)那个团队、那个组织。
  • 到那时你的选择其实不多:要么继续争取升职——但到了高层这就变得很"政治";要么跳到另一家大厂——往往还是逃不开政治;要么就是自己创业,掌握更多 ownership、对自己的命运负更多责任,并且彻底摆脱政治。
  • 他的态度很鲜明:"如果我想搞政治,我就去从政了。我在这儿是为了真正把研究和 AI 的前沿往前推。"所以创业对他是个"显而易见"的决定:只要能组建好团队、拿到融资,就一定能做出伟大的东西。
  • 他还引用了 Ilya 在早年 sequence-to-sequence 时期说过、当时很多人都觉得鼓舞的一句话——"success is guaranteed(成功是注定的)"。这正是他做自己事情时的感觉,"只是它必须成功"。
"Success is guaranteed." —— Ilya Sutskever(Andrew 转述,作为创业心态)
12

Elorian 与 visual AGI:纯 coding 造不出飞机引擎

核心论点:企业真实工作高度视觉化,而当前模型的视觉能力是硬缺口;Elorian 要把人类带过"baby vision",迈向 visual AGI。

  • Elorian 是一家研究 + 产品实验室,成立 5 个半月,由 Andrew 和几位来自 Apple、DeepMind 的老友共同创办,目标是构建模型、推动人类迈向 visual AGI(视觉通用智能)
  • 缘由:Andrew 做了十多年语言模型,看到 coding、文本、数学的进步是"gigantic(巨大的)",有人因此说我们已经到 AGI 了。但看企业实际需求,会发现它们对 AI 的使用极少——因为大量工作是视觉的。
  • 他举了一连串例子:处理楼层平面图、为新飞机设计引擎、画电气布线图、给家里选沙发、给办公室挑椅子——这些全是视觉问题。"你没法用纯 coding 编出一台新的飞机引擎,无论你多想;也没法用数学'算'出一枚新火箭。没那么简单,这里面有大量视觉元素,本质上是 physical AI(物理 AI)的元素。"
  • benchmark 也印证了这个大缺口:在 baby vision 上,模型只有学龄前儿童水平——数不出桌上几个杯子、玩不了简单棋盘、理解不了简单空间问题。
"你没法用纯 coding 编出一台新的飞机引擎,无论你多想;也没法用数学去'算'出一枚新火箭。" —— Andrew
13

移动时代类比:文本是"几年前的 iPhone",视觉还是"诺基亚"

核心论点:用手机演进做标尺,AI 的文本能力已相当成熟,视觉能力却仍停留在低分辨率的功能机时代。

  • Ross 用了他常问嘉宾的一个问题:如果用移动时代做类比(从 80 年代带天线的"大哥大"、到诺基亚 3310、到第一代 iPhone、再到今天的 iPhone),AI 现在处在哪里?
  • Andrew 的回答分了两层:
  • 文本和任务:处于 iPhone 水平——而且是"几年前的 iPhone"。你可以在 iPhone 上做编程、做自动化、用 Mathematica 之类做高级数学(虽然 App Store 规则未必允许在手机上写代码)。
  • 视觉问题:还停留在诺基亚水平——相当于用一台 64×64 像素分辨率的相机(这正是 ARC-AGI 类 benchmark 的分辨率)。一切都很像素化、很模糊,你能认出"那是什么车""照片里是谁",但要做任何更进阶的事就"完全没戏"。
"对视觉问题,我们还停留在诺基亚的水平——拿着 64×64 像素分辨率的相机,一切都很像素化、很模糊。" —— Andrew
14

visual AGI 的用例:从 CAD/建筑到数据中心建设

核心论点:物理世界的技术进步大多是视觉问题,一旦视觉能力到位,工程、建筑、农业乃至数据中心建设都会被解锁。

  • Andrew 认为很多技术领域能从 visual AGI 中受益、并推动技术本身进步——因为大量技术进步来自物理世界:机械工程、电子工程、电气工程,这些领域本质上都在处理视觉问题、视觉图纸、并对其进行编辑。
  • 他列出的早期突破领域:工程(CAD design、CAM design)、建筑(设计楼层平面图)、农业、建筑施工、以及通用的成像(imaging)——"产业里的用例几乎是无穷的,只要你能造出足够好的东西"。
  • 一个最近有人告诉他的例子是数据中心:数据中心正在以极快速度建设,但非常难建——而当前模型"甚至说不出一根电线连接的是哪两个东西"。如果你要造 AI 来帮你建数据中心,这一点至关重要。
  • Ross 顺势联想到摄像头、安防、犯罪预防——在问题发生前就识别出来——这些都是 visual AGI 能打开的想象空间。
15

收尾:Google mafia、文化的延续,与《基地》

核心论点:Google Brain 会像贝尔实验室一样被铭记,它的文化将通过新一代实验室延续;而"想得足够大"是 Andrew 的精神底色。

  • 当被问到 20 年后人们会如何评价 Google Brain,Andrew 重申:它会是这个时代的贝尔实验室——走出的人定义了 AI、奠定了 AI 的基础。
  • 他承认很难预见 20 年后 AI 在哪:LLM 大概还会在,但一定会有新东西出现,而他希望这些新东西也由"仍承载着十年前 Google Brain 文化"的新一代实验室做出来。"希望即使 Google Brain 这个名字消失了,它的文化还活着。"
  • Ross 用 "Google mafia"(对应 "PayPal mafia")为这段历史命名,并祝福 Andrew 的创业。
  • 按惯例,结尾请嘉宾推荐一本书。Andrew 推荐 Isaac Asimov 的 《基地》(Foundation) 系列——它是"想得大"的绝佳范例:不是规划未来几十年、几百年,而是着眼几千年后并为之布局。这恰好呼应了全场他反复强调的 "think bigger"。
"我一直很爱阿西莫夫的《基地》系列。它是 thinking big 的绝佳范例——不是十年百年,而是为几千年后的未来做规划。" —— Andrew
16

附录:关键人 / 机构 / 产品 / 概念

项目详情
Andrew嘉宾。前 Google Brain 14 年研究员,2015 年 pre-training+fine-tuning 论文作者之一;Elorian 联合创始人
Ross主持人,招聘人背景,Inside the Silicon Mind 播客主持
Quoc LeAndrew 2015 论文的合著者,Google Brain
Jeff DeanGoogle 传奇工程师,掌握 Brain Residency 确切录取率
Jeff Hinton深度学习先驱,"照人脑建模"信念的源头,探索反向传播的生物可行替代
Ilya Sutskever早期 Brain 成员,后创办 OpenAI、SSI;名言 "success is guaranteed"
Dario Amodei前 Brain/Google 系,创办 Anthropic
Sara Hooker前 Brain 系,曾在 Cohere AI
David Ha、Liam Fedus曾是 Andrew 的实习生,后均创业
Anna Goldie & Azalia出自 Brain Residency,近期创办 Recursive
Sepp HochreiterLSTM 发明者之一,2015 NeurIPS 认可 Andrew 论文方法"就是有效"
ElorianAndrew 的研究+产品实验室,成立 5.5 个月,主攻 visual AGI
Google Brain被比作"这个时代的贝尔实验室",前沿实验室创始人的摇篮
DeepMind源自 UCL Gatsby 神经科学实验室
Brain Residency ProgramBrain 的人才项目,数千人申请、录取率极低,选背景独特+好奇心强的人
pre-training + fine-tuning2015 论文核心:先语言建模、再微调;现代 LLM 的关键一角
LLM "三角"transformer + 语言建模目标 + 网络数据
baby visionAndrew 常引用的视觉 benchmark,当前模型≈学龄前儿童水平
ARC-AGI benchmark分辨率约 64×64 像素,被类比为"诺基亚级"视觉
visual AGIElorian 的目标:让 AI 跨过 baby vision,胜任工程/建筑/数据中心等视觉任务
osmosis在精英团队中耳濡目染地习得做研究的方法论
psychological safety让团队成员敢于当众犯错、敢于直言的心理安全感
《基地》(Foundation)Asimov 科幻系列,Andrew 推荐,"think big"范例