田渊栋: 大家好,非常感谢今天有幸被硅谷坐标的同学们邀请过来做一个访谈。我是田渊栋,之前在Meta做研究总监,主要是做强化学习、搜索优化,还有大模型的一些推理和调优应用。在Meta已经快11年了,现在已经出来自己开公司创业。
主持人: 袁栋,今天欢迎你来到硅谷坐标,跟大家分享一下你在AI前沿看到了一些最新的动向。我们看到2026年才过两个月,其实在模型的这个赛道里竞争非常非常的激烈。我们看到不管是开源模型还是闭源模型,都发布了最新的版本。你是怎么看待现在各个家模型之间你追我赶的这样的局面?似乎这样的领先优势很快就会被追上来。
田渊栋: 我觉得这是一个非常普遍的现象。应该说从大模型开始爆发以来,2022年年底以来就是这样的一个趋势,而且正在慢慢地加剧中。而且在技术上来说,其实有蒸馏这样的一个技术,所以你总是说一个不是特别好的模型,你可以通过蒸馏更强模型的输出,很快达到更强模型的水平。所以这种趋势应该说是不可避免的。随着以后更多的人掌握了这些技术,掌握了这个流程,应该会有更快的迭代速度,现在确实已经非常非常快了,可能已经快接近人类生理极限了。
所以我觉得至于这些AI lab,他们只是说保持领先优势,这个完全要取决于每个AI lab的定位和方向,对吧?有些AI lab比如说他们背后是大公司,那么对他们来说现金流是不愁的。不愁现金流的话,对这些AI lab来说,他们的目的是向大家展示这个公司本身的技术实力和非常强的人才储备,不停地发布各种各样更新的模型和更新的结果,能够让大家知道这个公司仍然处在人工智能的顶尖,或者说第一梯队的这样一个情况。
比如像我觉得谷歌其实是一个很好的例子。他们通过发布各种各样不同的模型和不同的结果,可以让大家知道谷歌应该是在这方面非常领先的。像他们最近用Gemini来做很多比较难的数学问题,发现用他们最新版的Gemini 3.1 Pro能够找到一些很好的数学问题的解。这些问题以前是未解问题,但后来发现通过大模型的搜索和探索,才能找到一些很好的证明。那么这样的话,大家会觉得谷歌仍然领先,仍然是在大模型竞赛中占据第一梯队。我觉得这是一个很好的策略。
那么还有一些初创公司,他们这种你追我赶,一个是他们本身是需要证明自己是很强的,另外呢就是说通过这个方式可以获得更多融资,获得更多人的认可,然后会有下一轮的资金注入,让这个AI lab能继续活下去。我觉得这其实是两种不同的策略。但是我觉得也许以后总有一天,创创公司如果钱烧完的话,是需要在钱烧完之前找到一个商业模式,让他能够活下来。像OpenAI现在其实也在考虑如何在ChatGPT中做广告,把广告插入对话中,或者说放在旁边的栏里面,让大家看到一些相关的广告信息。通过这方式找到自己的现金流和收入,可以让自己可以长久地活下去。所以这应该说是对大厂和对初创公司来说都是必不可少的,一定要证明自己的模型是非常强的。我相信在不久的将来,这个趋势还会继续发展下去。
主持人: 在你看来AI lab真正可持续的护城河是什么?是算力和infra还是数据,还是算法,还是人才?在未来的3到5年,如果要你给这四个维度排一个序的话,你会怎么排?
田渊栋: 我觉得最重要的应该是数据。数据和infra是比较重要的,但infra应该是慢慢会有一些变化。因为现在用AI写代码的趋势越来越厉害。以我自己来说,我会觉得比如说跟三个月前相比,我的效率应该说提高了至少十倍,大概是这样的一个逻辑。所以我觉得以后可能会越来越多的人开始用AI写代码这个方式来构建自己的系统,来做自己的差错,或者让这个运行跑得非常顺畅,就这些比较日常的工作可能会让AI来代替。那么如果是这样的话,infra这个护城河可能会有一些下降,这是我的一些想法。
但是数据本身可能还是比较难的,数据应该是很重要。特别是对一些比较难的垂直领域,或者说这个领域上的数据非常少的话,那么你没办法用很少的数据训练很好的模型,所以数据还是一个比较重要的因素。
那么至于算法本身,就目前看起来算法改动不是特别大。有很多的方法其实就在原来的算法上做一小补,能够做出来一些比较fancy的修改,可能不一定有用处。像DeepSeek就是可能在一个月前发布了一篇文章,就是对残差连接做一些魔改,觉得非常有意思。但是后来大家可能发现有些这个算法可以改得非常简单,跟原来差不多,但是效果还是可以的。所以其实就是说在算法上的一些修改,规定会导致完全不一样的结果,目前算法处于一个比较稳定的状态,这是一个很大的瓶颈吧。我相信现在可能处于这样的状态,就是要不大家改来改去改不出东西来,要不就是完全不一样的一个新的方案,这个方案能够把原来的东西颠覆掉。现在处于这样一个状态,这个跳变是从什么时候发生,现在应该说还不太清楚。我也希望这样的情况能够发生,这样的话我们可以得到下一代的模型。
那么另外一方面就是人才会流动的,对吧?你会发现各大AI lab人和人之间会有很多的变化。两个月前这个大佬在这个地方,过两个月跑到另外地方去了。那么通过这个人才流动,就有很多新的想法和一些新的思路,会从一个地方到另外一个地方。所以就是说硅谷里面应该说很难有一个秘密能保留很久,可能一个新的方案弄出来之后,过了一两个月、两三个月,大家可能都知道一点了,大家都传开了,都知道怎么做了。所以应该说这个算法和人才应该说没有那么重要,于数据和infra大概是这样的一个逻辑。
那么算力本身也是一个很大的瓶颈。算力我觉得主要是大厂和创创公司之间的区别,但大厂之间算力相对来说都不是差特别多,有很大的算力配额给那些AI lab。
主持人: 在你想象的中局,你觉得会是一家或者是几家大模型独大,然后再加上几个比如说垂直领域数据比较独特的比较小的公司?你想的未来是这样吗?
田渊栋: 对,我觉得有可能是这样子。
主持人: 还有一个问题就是今年这个开源模型在网上有很多的讨论,包括还有一些争议。你是怎么看待这个开源模型的发展的?
田渊栋: 我觉得开源模型是一个非常重要的方向。我觉得地球上不可能只有闭源模型,如果只有闭源模型的话,其实会导致一个非常糟糕的将来。这个我可能在2023年的时候其实就有这个想法,就是说我们的模型一定要是开源的,至少会有开源一席之地,这是非常重要的。
为什么呢?就是我觉得对于一个指数增长的技术来说,最大的可能的最坏结果是少数人掌握了这个技术,然后大多数人不知道。那么少数人用这个技术去做一些不太好的事情。如果是这样的话,那首先这个地球上大部分人可能获得不了这个技术带来的便利,然后还会产生一个很大的等级区分,所以这是开源模型要避免的一件事情。
那么有开源模型之后呢,其实大家都变成平权了,就是大部分人可能获得大致一样的计算能力和模型能力。有了这个之后,大家能够同步地往前走。换一个比较有意思的话说,就是如果大家都有核武器了,那产生了威慑,那就会有一个比较好的平衡点。如果只有某一些人或者一类人有这样的工具,那就可能会产生一些不必要的问题。
那么我以前的公司,比如像Meta,他们在应该说是一年前还是比较愿意想要开源的。但是现在呢可能就是更偏闭源的这样一个策略。我觉得这个策略本身都没有什么问题,因为这个完全取决于公司本身的战略。对公司来说,如果他觉得开源有利于公司的竞争,有益于公司的发展,那他就要开源。如果他觉得闭源有利于公司的发展和竞争,那也就用闭源的方式。所以公司应该说没有一个非常清楚的坚持,特别是如果这件事情跟他的主营业务是没有关系的话,其实应该是可以灵活的。
主持人: 我想问问,就是说你现在用的最多的模型是什么?
田渊栋: 我现在其实应该都在用吧。比如说像OpenAI的模型在用,Claude的模型也在用,然后开源模型我也在用,像g…mini max 2.5,这也还是不错的,mini max 2.5可能比较快一点,觉得还是挺不错的。就是说你会发现有很多事情让我觉得挺吃惊的。因为我觉得可能在半年前你去用他们这些模型,可能他们还没办法做一个完整的任务,有各种各样的问题,但是现在你再去用的时候,你会觉得,你像你去问Claude Code,他们当然做的很好。你去问minimax其实也可以,做的还不错。就是有一些问题,比如什么地方会忘记什么东西,但是大概的流程和逻辑基本上还是正确的,所以这个其实让我非常吃惊,我觉得这个模型进步已经那么快,这是一个很有意思的现象。我觉得以后可能也会有更多的好的模型冒出来,能够给我们这个日常生活的工作效率提高很大的助力。
主持人: 接下来今天想重点跟你聊一聊大模型的记忆,这也是你研究的一个重点方向之一。你先跟大家讲一讲这个大模型到底是怎么记东西的。
田渊栋: 大模型的记忆应该说一直是一个很大的问题。就是我们在2023年上半年的时候,其实就已经开始做一些这样的工作了。我们当时做了一些长文本的、长上下文的大模型拓展。我们在2023年6月份的时候有篇文章叫Position Interpolation。就是当时研究如何把大模型的context window,就是上下文的窗口长度变长。本来这个长度可能就只有4K,就是4096个token这样的一个数字,2K或者4K这样的量级,非常非常少。那么当时是说我们怎么样把这个东西拉长。
因为在我们的方法出来之前,一直别人也大家一直以为的做法是这样:我们要把窗口拉长怎么办?我们可以把数据放过来,用更长的数据去训练它。但是这个训练过程是非常耗时的。你比如说一个模型你训练完了,它的长度是2K、2048个token,训练完之后这个窗口就定死了。然后如果你想把它扩展的话,你就得再拿一大堆的数据,都是很长的上下文数据让它再训练一遍。那么这个过程是非常慢的,而且非常痛苦,而且花很多很多卡,而且这个模型的质量还不一定好。
当时我们发现了一个非常有意思的现象,就是说我们只要把这个长上下文的窗口映射到短上下文的窗口,把每个token输进去的位置信息简单地除以二,然后就可以映射过来。除以二之后,你再去做微调,再去做训练,它所需的训练代价就小了很多,而且质量还不错。当时我们相当于发现了这个有意思的现象,那么这个现象后来就被大家广泛运用。就是从这开始,应该说是这篇文章是这个方向的一个开山之作之一。大家发现可以这么做,那突然之间这个窗口就变得很长了。应该说是从2023年下半年开始,你会发现有很多工作开始证明说,开始要做长上下文的预测。我记得包括Gemini,包括Kimi,他们其实都有一些这样的工作,怎么样把上下文变得非常非常长。
那么之后呢,其实我们也有一些其他的工作,比如说像Attention Sink,这叫注意力陷阱还是注意力呈现,反正有一些中文的翻译,但是我也不确定哪个是官方的。那么他的逻辑是这样:我发现只要保留整个句子的前几个token,然后把中间的东西全部去掉,那这个模型还是能够输出比较正确的话。虽然说中间的部分去掉,那部分没有记忆,但是他说话还比较连贯。虽然说你真的问他事实,他可能会开始出现幻觉,但他说话至少不会出现爆炸性的那个结果。
所以我们之后还做了一些扩展,比如说把这些中间去掉的东西拿回来,就是我们的篇文章叫H2O,就是叫Heavy Hitter Oracle。那么通过这个方式,我们就可以让这个模型的记忆大小是固定的,然后把那些重要的记忆拿回来之后,它能保证有些比较关键的问题还能回答正确。所以这些文章都是关于记忆的,都是关于就是怎么让这个模型在以下两种中得到一个平衡:一个是说我希望把过去所有的上下文全部都记住,这个你需要花很多很多代价,但是效果比较好。另外一个方案是说我有选择性地去掉一些过去的记忆,这样我可以保证这个存储的大小没有那么大,同时这个模型还能输出一个比较好的输出。大概是这样的一个逻辑。
你会发现最近的一些记忆的文章,其实都遵循这个逻辑。就是说一头是我用大量的内存,然后把记忆都存下来,但是速度也慢,存储也大。另外一方面呢,就是我把一些记忆给去掉,去掉之后速度变快了,内存也变小了,但是有可能会忘记些东西。所以我们在这个记忆的方向上,存在这样一个路线之争。
像之前一直很火、现在也一直很火的线性注意力模型,它的逻辑是什么?逻辑是我把过去的上下文压缩成一段固定长度的向量。这个向量压缩完了之后,就把这段向量作为过去的记忆。这样的话一个好处是用了记忆量就非常少,这是第一点。那么第二点就有问题,如果你真的想要去找到过去历史中的所有细节,线性注意力可能就不太行,因为有限的空间是容纳不下无限的过去历史的。所以你会发现有这样一个trade off。
这里面我们也讲的,这些东西应该说都是那种短期的记忆,就上下文记忆,这部分是很重要的。还有一部分记忆应该说是在这个模型的权重里面,这个就是它更长期的记忆。这种模型权重的记忆怎么建立的呢?它应该是就是从预训练开始就开始建立起来的。预训练的意思就是说我们要把很多很多数据,就是海量把整个Internet都放进训练里面,然后让他进行大规模的训练。那么这样的话,这些权重里面的记忆会慢慢慢慢地从初始化开始,慢慢演化到一个比较好的状态。这里面的这个记忆的演化状态,那个数字就是长期记忆。
这长期记忆其实应该说规范了这个模型本身对这个世界的整体理解。这部分的记忆其实很难被改变,而且这个记忆对这个模型的能力有很强的影响。如果这个模型在预训练的时候训练的不太好,那么最后导致什么结果呢?就是说他在做后训练的任务的时候,会表现得像一个比较笨的孩子,就是什么事情都必须给你讲的很清楚,他才能把它记下来,他无法举一反三。但是新的事情来了之后,新的任务来了之后,他又不会了,你得再给他说一遍,要把这个过程一步步说清楚,他才能把它做出来,也没有办法举一反三。但是如果预训练训练的比较好,他对这个世界的理解非常深刻、非常一般化,有方法能力,那就像很聪明的孩子一点就通,在后训练的过程中就会很快地适应后训练的任务,并且能够举一反三。大概是这样的两类记忆。
主持人: 就是现在的这个记忆研究中,你觉得碰到最难的一些问题是什么?
田渊栋: 对,我觉得一个最难的问题就是说记忆如何从背诵,或者说从死记硬背到顿悟这样的一个过程,应该说是一个比较难的过程。因为你就算看任何一个小孩子,看他们怎么学习,我有些时候觉得我家女儿的学习过程是很有意思的。就是我们看我们家孩子是怎么学习的,通过这个方式我们可以看看AI的学习能力跟他有什么区别。
我发现小孩子他们在学的时候是这样:比如说三岁或者四岁,在那之前你跟他讲很多东西没有用,因为他记不住。你跟他说得再多,他也会觉得一个是记不住,然后他会开始哭闹,就不想跟你学这个东西。但是呢过了一段时间之后,突然在某一天这些事情他都会了。我一直在想这个问题,就是这个小孩子这个脑子是怎么长的。他会在某些情况下,一定时间之后,他内部的这个记忆发生了一些重组。重组之后,这个记忆的表示发生了变化,变化之后让他突然之间理解了之前的一些无法理解的逻辑,他用这个逻辑可以举一反三,可以做很多很多事情。
所以这个其实是很有意思,比如说一个例子就是数数嘛。你可能在两岁的时候教他数数,他可能跟着记住了非常机械的,就是这个东西加这个东西,但不是特别清楚。但是你过了比如说一段时间之后,比如说四岁以后,他会突然之间对这个数字的大小开始有感觉,然后他大概会猜出来两个数字相加是什么,然后突然猜出来一些两位数,一些他们之间的一些关系。所以很多时候都不用大家教,他就自动自运会了,所以这个过程应该说是很重要的一个过程。
但这个过程本身,应该说我们现在还有很大的困难。就是怎么样让这件事情发生,然后他什么时候会发生,怎么样让这个事情发生更快,那么这个就是很大的问题——能不能让这个模型学习变得更加有效率,更加像小孩子那样学的更加快,也是这样一个问题。
那么现在有很多记忆的方式,一些新的范式,怎么去做记忆呢?那么他们这个过程应该说还是比较机械化的,没有那么像我们小孩子学习的时候那么灵动。像比如说最近的一些文章,像谷歌那一篇叫TTT Learning,这应该说是谷歌去年一篇比较火的文章。他们是这样,想法非常简单,他们希望在设计网络架构的时候,能够打破这个优化器和这个神经网络架构的界限。他希望所有东西都是一类东西,叫Associative Memory。什么叫Associative Memory?就是生物学、脑科学里面有一些这样的概念,就是说我有一个Associative Memory,这memory是这样:我输入一个东西进去,它就出来一个东西,这样一一对应地映射,像一张表格一样,就是我输入今天,然后输出今天的天气,比如说这样的一个表格非常非常清楚地映射。他希望把所有的这个神经网络里面的学习过程都映射成这个memory,相当于把神经网络里面每一部分都作为记忆的一个模块的一个特例。
这个逻辑本身我觉得挺有意思的,这样的话他可以把事情都统一化了。但另一方面我不是很认同这个方向,为什么呢?对我来说我觉得Associative Memory它还是效率不高的,因为他只是把一个点记住了,然后把那个点弹出来。但是对人来说,你会发现学到一定程度之后,他对这个世界有个整体的理解。这个理解可能就像以前诸葛亮说的,就是说看见的是一个观,其大概就是说我不看细节,但是我对大概理解得非常非常深入了之后,很快能够对这个问题有很好的答案。所以有这样的一个过程的时候,Associative Memory对这人类的记忆形成过程的建模还不够,这个问题本身是很大的问题,可以慢慢再去解决。
主持人: 在你的愿景里面,未来有一个能够持续学习的AI,它是一个脑容量在不断扩大的,还是一个脑容量固定但是会持续地做记忆的升华和主动遗忘的?
田渊栋: 我觉得应该是后者。当然扩大更好,但是我觉得后者应该说是让一个人变得聪明,或者让AI有飞跃性进展的一个很重要的因素。我觉得后者是重要的。那么前者其实你可以认为它更像是个Internet,对吧?因为Internet越来越大,我们可以把petabytes这样的数字的数据放进那个内存里面,放硬盘里面去,那么那多数据堆积在一起,让我们的检索变得非常有效率。但它并没有升华成一个有自主意识的人,或者说有一个对问题更深利解的人。
所以你比如说过去的搜索时代,他并没有做到这一点,还是需要人把数据整合起来,然后获得一些新的知识。但是大模型来之后,大模型一个很重要的贡献是他通过训练的方式把数据知识整合到了权重里面。这个整合让这个模型对这个数据和知识的理解上升了一个层次。这样的话你再去查询这个模型,他给你的回答就非常灵动,很吓人。所以这就是为什么我们这一代技术跟上代技术的区别。
上代技术还是比较机械的,就跟你单独精准匹配,匹配完之后得到结果。但是现在这一代的技术就已经开始说话比较灵动了,更像人,思维更像人,他能对这个问题有些分析和理解,所以这已经是很大的区别。那么这两代之间最大的区别就是因为我们用神经网络,用了大模型,这个大模型做了训练这个事情,让知识的表示和存储发生了质的变化。我觉得是这样子。但是如果我们从大模型出发再往前走一步,知识的表示、存储发生了更加质的变化,或者说这个训练和存储的代价变低了,然后学习能力变强了,很快能适应这个时代或者适应这个变化的世界,那这是下一代的新的模型,也是这样子的。
主持人: 现在我们看到这个context window的长度是越来越长,你认为之后还会继续这样持续变长吗?天花板在哪里?
田渊栋: 很难有天花板吧。就是因为现在有这个需求,比如说以前我们用大模型,主要还是因为我们跟他要聊天。聊天的话一个是聊天的频次不会特别高。你说一个人在网上泡个一天10个小时,然后你能聊多少话,你可能聊个十万字已经很可怕了,这个数字基本上是一天一个人能够消耗的token的上限。但是现在大模型的用处不是聊天了,很多时候是用来写代码,或者说用来做一些问题的分析。那么这种情况下,你动不动就要把整个代码库放进去,或者说让这个模型做多轮的工具调用,或者说做多轮的这个分析问题及问题这样迭代,那么动不动就是很快就会发现大模型的上下文超过了1万,或者超过了10万,经常会出现这样情况。就已经很快地会发现这个上下文就用完了。
另外一个问题就是大家都非常热衷希望这个模型能够长期工作,不需要人干预,这个其实是应该说是最近半年,各大AI lab他们都想要做的事情。本来这个工具可能每隔三分钟就要跟你说一次,汇报一下,说我这个做完了,下一步是什么不知道。那这个对人的注意力要求很高的。那么之后我们当然希望这个模型能够工作每一个礼拜或者前几天,然后不要任何人干预。那么这样的话你就需要大量的token,大量的上下文,然后让这个模型能够工作。所以总的上下文应该是越来越长,而且上下文越长的话,他对这个世界的理解就越深入,他的决策应该会越准确。所以这个我相信是一个很大的趋势,应该是很难去改变的。
当然最近是有一些上下文memory做得比较好的机制,像最近比较火的Claude Code,大家都知道,那么他的memory机制应该说是比较有意思的。就是他是把这个memory组织成各种各样的markdown文件,有一个短期的一个长期的这样的文件。那么首先一个他们是可读的human readable,就是说我们真的去看这文件,然后把你不想要的行去掉,那么让他真的不记得这件事了,这部分我们做的很好,很难看的事情我不想让他记住。然后这个文件本身也是能够有层次感,有些是比如近期的一些任务,有些是比较远期但是你需要注意的非常重要的记忆。那么通过这个方式可以让这个模型变得对这个世界理解更加深刻一点。我觉得这个设计挺有意思的,大家可以去看一下。
那么另外一方面,虽然说这个设计本身很有意思,但是我们最终的目的是希望AI能够自动地发现这个设计。那么如果你要让AI自动发现这个设计,你就是要给很长时间让他自己去挑。那么这个其实就意味着,你做任何的探索,你都需要很长时间开始,然后希望AI慢慢在里面挑挑挑,能挑到一些好的,然后到当前的对话里去把这个事情做好。那么这部分的代表工作就是最近MIT有一篇文章叫Recurrent Language Model。那篇文章就是说怎么样把上下文作为一个数据库,然后动态从里面调取东西出来,用它来做预测。我觉得这个趋势以后应该还是会持续的,会有很多的文章会出来。但是不管怎样,你最终也许上下文比较短,但是你在这个研究过程中,你就需要很长上下文,从这开始。所以我觉得这个趋势应该很难扭转。大家第一反应是先把东西都塞进去,看有没有效果,然后再往下调,可能是这样子。
主持人: 我现在接下来想要跟你聊的这个话题,也跟刚刚你聊的非常相关。就是我想从物理世界再来看这个模型极端的发展。从去年开始我们看到内存还有存储的产业链上都出现了供不应求的这样的状态,需求非常的大,然后产能跟不太上,整个产品都开始一个提价的周期。甚至我们看到谷歌、微软还有英伟达的采购高管,他们都很长时间是在韩国首尔待着,为了要去保证在三星海力士的产能。感觉好像是这些AI的发展正在把所有的全站存储这种热数据、温数据还有冷数据,全部都把这个产能给占据了。你觉得这个最大的增量来自于哪里?可能是刚刚你说的这个context window的增量,这个增量可持续吗?还有未来有一些什么样的好的解决办法?
田渊栋: 我觉得这个首先一个context window变长了,肯定是一个重要的增量。另外一个层面就是还是因为我们训练模型的需求。因为现在模型还是很大的,比如说像那个某某是多少,是一个trillion的parameter,然后那个DeepSeek的大小也是六百多个billion的parameter。因为现在这个模型大小变成标配了。以前可能觉得画面好大,我觉得现在就是我们认为600个、500个billion到1T的大小成为开源模型的标配。如果这模型达不到这个大小,可能这个模型能力不太行。这个数字跟我们以前的数字,其实应该说有大概十倍的差距。就以前可能我们会觉得一个开源模型70个B差不多还行,大概OK。但是现在大家胃口变大了,就是希望这个模型有个更大的参数集,效果更好。所以这个是一个很大的问题。
这样的话会导致,我要训练模型的时候,我当然希望我用同样的算力搭配更多内存,这样的话效率变得更高。因为如果你同样的算力内存不够的话,你就要开始考虑各种问题。就是同样一个模型,你单卡上放不进去怎么办?你得把这个内存切片,把这个模型切片,有tensor parallel、data parallel这些东西,或者说把这个很大的一个矩阵,这矩阵非常大一个存不下,你把它切成几部分横着切,可以也可以竖着切,用各种方式来切,让这每部分的权重放在不同的卡上。那么通过这个方式,你可以减少单卡上的内存消耗。但是代价就是说卡和卡之间要通信,通信就需要花时间,这样会增加整个pipeline的延迟latency。相当于就是我如果一张卡上内存不够的话,我就通过增加延迟的方式让这个系统能跑起来,这是个不太好的trade off。
那么一个比较好的方案就是OK我单卡的内存加很多,加了内存之后,我可以把整个模型放进一块卡里面,或者放进一个八卡的一台机器上。那么这样的话你这个通信的代价就会降低,训练过程就变快,出结果速度就变更快。那么大家都会觉得,我如果想要在AI竞争中胜出的话,我当然希望速度更快更好,设计变得更简单,减少出bug的概率,所以就是我觉得以后大内存应该是一个很大的趋势。因为有这样的需求,自然就是老黄也好,AMD他们也好,都想要把内存变越来越大,那最后就会导致存储会有这样的压力。这是AI lab竞争的需求。
另外呢当然是上下文变大了,有这个需求。这两个需求都是有的。有这个需求之后,你会发现所有的卡的内存都在往大的方向走,这个是非常正常的事情。比如说你现在去外面去租卡,有人会去租H100还是去租H200。H200肯定更好,因为H200内存更大。那么我同样的算力,是不是有更大的内存,是不是就有更好的办法去做我的训练。同样一个模型,我用H200,内存大了之后,我就可以用更少的卡去获得同样的性能。算下来其实还是合算的,所以为什么大内存的卡会那么受欢迎,主要是这个原因。
主持人: 那可以说就是随着未来AI agent的应用数量变多,然后随着任务复杂度的增加,后面还可能有多模态,还有世界模型,是不是简直这个需求就无解了,是一个指数型增长的?
田渊栋: 确实是很大的,应该很难了。我刚才说只是language model,还有很多,比如说图像模型。这样的话图片进去之后,你是需要高清的进去,高清就是4K照片进去,这个内存是很大的。图片模型那边主要是参数量不是很大,但是一张图或者一批图片进去之后,它需要大量的内存去存它的中间结果,这部分花很多很多内存。所以这个部分,内存大了之后,本来批次训练的时候用比如说128张,你现在可以放256张图片进去,训练速度是不是更快了?所以其实这个东西是卡点,它卡住了这个训练的速度、效率,还有包括你最终serving的这个agent的效率和速度,还有容量。所以其实应该说是这个很大的问题。所以大家都想要大内存,就会有这个问题,内存厂商就会有一个瓶颈,这个瓶颈就很难被克服。
主持人: 你觉得这是短期长期的问题,你现在还没有看到一个好的解决办法?
田渊栋: 对,我现在其挺难看到很好的解决方法的,还挺困难的。当然了最近有一些方案,比如说最近有一个公司,他们把这个大模型的权重都刻到了ASIC的电路里面去,通过这方式可以提高这个速度。那么这个,就相当于就是我本来要用内存去存这个权重的,我把这个内存的权重移到那个ASIC的电路里面,这样的话,我是不是可以用内存多传内存来存别的东西,这也是可能的。这是一些方案,但这个解决方案可能不够灵活。如果这个模型改了一点点,那么这些电路就没用了,所以如果现在你想要做研究,做比较灵活的一些探索的话,你还是需要原来这个架构。
主持人: 我们再回来讲一下这个预训练。对你来说反正你一直对Scaling Law有一个比较悲观的态度,觉得Scaling Law只不过是拿更多的权重、更多的数据,然后更多的算力去把这个逻辑变大,但是这个过程是非常不有效、效率很低的。但好像现在的大厂,包括谷歌OpenAI他们还是继续朝着这个Scaling Law的这个方式在继续往下发展。你是怎么看待这件事情?
田渊栋: 首先第一个,我刚才说的论点一直是这样,就Scaling Law是work的,只是说它需要大量的资源,需要指数级资源去支持它。刚才我们说存储就是一个很大的问题,如果现在卡存储上卡住了,大家还能不能把这个scaling再做起来,这是一个问题。另外电力也是一个问题,电力能不能保证我们这个很大的集群能跑起来,而且要保证电力供应是稳定的,这个都是很大的问题。
但是对大厂来说,他们有自己的路径依赖。因为大厂已经把所有的team都建好了,每个team各司其职,然后把这个事情做成,所以你就很难让大厂去转方向,去做一个不太可能或者说很难看到希望的新方向,这是很困难的事情。所以大厂一定会做路径依赖,他会把原来的那条路径走到底,一定会这样。所以就是为什么你看到Anthropic也好,谷歌也好,他们会往这条路上去走,因为一个是别无选择,另外就是说这个成效是不要花太多脑筋的,就是见效快。只要花时间和精力把原来事情做的更好,就能把这个问题做的更好,比较安全。所以就会发现确实就是人的一些insight,加上数据的大量生成和训练,是能把握性变得更强,这个问题是不大的。只是说他最后收益会有多大的diminishing return,这其实是一个问题。比如说如果我们再加十倍的算力,再加十倍的数据,再加十倍的人力的话,我们能让这个模型往前提一点点。直到发现这个return越来越少了之后,大厂们才会去想一些别的方法。
主持人: 你有没有看到一些什么新的范式,你觉得是比较有希望的?
田渊栋: 现在其实也很难说,因为像最近有一些continual learning的一些文章,想要探索一些新的范式。还有一些文章,比如说我在做reinforcement learning时候,能不能不用model weight updates,这些东西也是挺有意思的,但这些也是探索中,就是说还没有成气候,能看看挺有意思的,可以尝试一下。但是要他能够scale well,现在还比较困难。
主持人: 刚刚你提到了continuous learning持续学习。为什么模型在训练完之后,他的记忆就停留在当时,而没有办法持续地去学习?
田渊栋: 主要问题我觉得还是因为预训练阶段,你在学习的时候,你学的是大量的数据,所以他得到这个表征或者说得到这个内部的一些知识。这些知识的学习结构是一个比较有特殊的结构,这个结构能够举一反三,能够给后面的后训练提高很多对问题的理解。但是就是后训练或者说continual learning,这条路径的问题就是在于他能学到的东西比较有限。他可能就说我只能学到,比如说过去的对这个单独领域的一些知识,所以他的泛化能力就没有那么强。就是这样一个问题,就是我能够让他在这个领域里面效果还不错,有一些效果。但是你要让他能够泛化到其他地方,你可能需要在某个节点把这些数据再放回预训练里面去,让他回炉重造,那么他的泛化会变更强。所以大概现在是这样一个想法和状态,就是现在还没有办法做到很小的样本、很少的数据,然后一点点计算资源,然后让这个模型突然之间有飞跃性的变化,现在还比较难。continual learning可能更多是一个愿景,或者说更多是一个重要的方向,能够把这个事情推进。
主持人: 我们再来讲讲推理端。推理端好像现在也有一个Scaling Law,是说可能一个小一点的模型,也许就是在给他更多的思考时间,增加这个test time compute的时间,让他也能够取得一个跟大点的模型差不多的效果。
田渊栋: 对对对,这是以后发展的一个趋势嘛。这个应该说是在2024年大概下半年的时候,就是这个时候O1刚刚出来,那个时候大家确实是很兴奋了,就是哦这个路线就是test time也是不错的。横轴变成了就是运行时或者在推理时的计算资源消耗,纵轴变成了这个推理时的效果,看到这个scaling law大家会很兴奋。我觉得这个其实也是促生了应该说是最近一年就是强化学习这方面的能力的一个发展,突然之间所有人都去做强化推理、做强化学习、做reinforcement from verified reward这样的一个方向。
那么这个方向其实应该说做了挺多了。但是其实后来也有一些不同的意见,就是说强化学习的最终的上界可能是被预训练给锁死,这是一种可能性。为什么呢?是因为强化学习为什么能work,是因为预训练提供了大量的思维素材和思维方式,只是这些思维素材和思维方式在推理过程中被放大了。比如说你在预训练的时候,告诉这个AI这道数学题,他可能有100种方法去想。然后这100种方法有些是对的有些是不对的,大部分是不对,可能有一个是对就可以了。那么通过不停地迭代,不停地搜索,他找到了这100种可能性中的这种一种可能性并加以放大。那么这样的话,经过强化学习之后,这个模型以很高的概率能够把这道题解决了。
这样的一个逻辑,如果你前面的预训练对这个世界理解不够深刻,对这个问题了解的不够透彻,那他可能永远也无法发现后面的那个解题思路。所以按照这个逻辑,就很容易可以解释为什么有人会观察到强化学习在做后训练的时候,它的上界是存在的。就有些问题如果你前面做不出来,预训练里面根本没这知识,或者说预训练知识不够丰富,解提出不出这个问题解决方案的话,你用强化学习去做也是做不出来的,所以这其实是一个问题。强化学习这个思路,其实应该说会受制于前面预训练,或者说对这个世界的表示的一个上界,会有这样一个问题。
所以我们在2024年下半年看到的这个test time scaling law,这个scaling law其实相当于是我在前面画了一点点,但之后他是这样走,还是慢慢慢慢往上界把这个模型的能力给限制住,是不好说的。我就有点倾向于是说你再往后scale的时候,可能会慢慢慢慢往上界把这个模型的能力限制住,这是一个问题。所以这是为什么现在大家开始做continual learning对吧?因为大家会意识到,我单纯的用后训练的一些推理、不改变模型权重是不够的。我希望在后训练推理过程中,同时也改变模型权重,那么模型才会有更好的对世界的表示。也许他这条线能够更加快一点,这就是为什么大家关注方向发生变化的一个原因。
主持人: 你现在看到的推理端,你觉得未来的3到5年最可能有前景的一个推理的演变路线是什么样?
田渊栋: 我觉得当然首先就是说我们这个推理过程能不能更加快、更加有效率,我觉得这个是重要的。我们有一些不同的方案去做它。比如说能不能让这个推理链变得更加短、更加有效率。我们之前有一些文章做这个,比如说做那个隐空间推理,就是我们的推理过程每一步不一定是那个人类语言,可以是一个抽象语言,这个抽象语言可能是用某种高维向量来表示的。用高维向量表示的话,它能够一个高维向量可能给你一句话或者比你更长的一段话,让这个推理变得更有效率,更快的速度,把更少推理步骤找到出来,这是一个。
另外我们也证明了隐空间推理的一个好处,说这个推理向量里面可以同时存几个不同的推理路径,所以这个效率就会比正常的语言推理要高。为什么呢?就是你可以认为这个隐空间推理的这个向量,相当于是一个量子力学的一个叠加态。这个叠加的推理路径,能够同时处理很多不同的探索路径,通过这个方式可以让这个推理效率变得更高,这是一种可能做法。我们最近也看到了很多组其实在这方面做一些探索,看看这个隐空间推理能够提高多少效率,这是一个。
那么另外一条路,就是最近比较火的方向——几个月前比较火的方向就是叫parallel thinking,就叫并行推理。那么这里面就是说我们里面还是用语言来做推理,但是我希望在某种程度上,这个语言推理能够并行进行,而不是串行地进行。就比如说,你跟大家说我接下来有1、2、3、4、5点要求,比如说领导讲话的时候会这么说。有五点要求之后,这五点要求可以分别自己再做推理。一旦这五点要求的提纲列出来之后,这五点要求本身的推理过程你就可以让它自动进行,这五个要求是可以同时进行的,而不需要顺序进行。通过这个方式,就可以利用更多的计算资源来做这个推理,不需要等前面这个推理结束之后再做下一步推理,这样会更快,这是一个。
那么当然还有一些其他方法,就比如说我们怎么样推理变得更加扎实,让它变得更加短,同时抓住本质。还有就是说你怎么让在做推理的时候,能够很快地去掉那些不必要的、或者说明显是错的推理链条,让这推理过程变得更快。这个我们这边有一篇叫Deep…,通过这个方式能够很快地降低推理的token使用量,同时效果还更好一点,这个都是可以做的。
主持人: 明白。那隐空间推理他是不是并行的?他还是串行的?
田渊栋: 它是串行的。只是说每一步的推理结构里面表示不是那个语言了,而是一个latent vector,叫隐空间的变量。
主持人: 这个对token的消耗是不是更大了?
田渊栋: 应该说从长度上来说它是变短了。当然就是说还有一些其他的消耗,比如说你以前要存一个token的ID,你现在要存一个整个vector,这样的话你就会对存储的消耗变大。所以你就是你会发现在设计各种算法的时候,他有这种trade off,就是一方面变强了,一方面变弱了,所以怎么样去平衡它是一个问题。
主持人: 还想问你个hallucination这个幻觉的问题,你觉得这个幻觉问题最后会怎么解决?
田渊栋: 我觉得幻觉问题应该说是根植于这个模型本身的结构的。就是在训练过程中,就是模型的权重,他除了学到一些有意义的结构之外,可能还学到一些没有意义的东西。这些没有意义的东西可能在数据集上面没有作用,但是如果在测试的时候超过了这个数据集本身的分布的边界,那么这些没有学完的权重的方向就可能会影响它。
用数学语言来说,这个权重本身有两部分,一部分是有signal,就是有信号的子空间。还有一部分是noise space,就是那种没有信号的子空间。但是没有信号子空间里面,这些权重本身也有一部分分量在那里面。这部分分量平时是没有打扰你这个正常的推理过程的。但是如果你输入的数据跟你的常规推理过程不一样,那么这部分权重就可能会影响你,这样一个结构。那么主要如果要解决比较好的话,我觉得最终还是要去打开大模型的黑箱,弄清楚里面这个权重是怎么样work的,这样可能会更好地去解决这个问题。
主持人: 今年那个小龙虾(Manus)爆出来的时候,你当时还在朋友圈里发了一个帖子,你用了觉得感觉怎么样?
田渊栋: 我其实用了2小时吧,我也没问太多。对,因为我当时觉得我装了之后,他必须要我把所有的各种的什么都交出来,所以就是让我会觉得有点慌。我觉得所以我会在网上发一个帖子,就是说我与其用小龙虾,我不如说我自己用AI coding的方法自己写一个,或者写一些比较专一的这样的工具,而不如依赖于小龙虾让他去做他想做任何事情。这样的话我心里不是很踏实,万一他做什么坏事我就不知道,这个是一个安全性的问题,是这样子。
因为现在这个小龙虾应该说他变成这样的一个模式。其实我也跟很多人说过,我说他相当于这样,相当于我有个小孩子,这小孩子就是agent,然后这小孩子手上握有我所有的秘密,然后他到外面去跟各种人聊天,帮我把事情做完。但是他智商又不够高,所以他有可能被人骗了。比如我小孩子跑到菜市场,别人跟他说,哎呀,你的小孩子真乖,你能不能给我5块钱,你能不能把你家的地址告诉我,那小孩子可能就把东西告诉他了,那接下来你家就可能晚上被人敲开门进来,东西偷走了。就现在就是这样的状态。
所以这个小孩子他脑子里可能有所有的你的密码,你的OpenAI key,比Open key这个还算好,因为如果这东西被偷了之后,你可以通过方式把原来的key给删掉,这样就没事了。还有一些其他东西,比如说像你的谷歌的邮箱的access,或者你的一些机密的文件的密码,或者说某一些能够access到你的重要文件夹的一些token。这些东西其实应该说是非常非常重要的,而且非常危险。甚至比如说你可以把人家存password的这个密码告诉别人,一看里面什么密码都知道了。所以有这个问题就会导致,你并不能保证这个小孩子不会被人骗走。网上有各种方式来骗,还专门有一个平台把这些小孩都放在一起,让他们相互讨论,找到一个骗大人的方法。
所以你可以用它,但是要特别注意,就是最好的办法是一边用一边去想它里面是怎么work的。我非常建议去看他的代码,这样的话你会理解得更深刻,也许你自己可以做一个。
主持人: 我们看到这个Agent越来越成为大家的这个工作流的伙伴。你觉得这个Agent未来会对于科技组织的组织架构,包括大家的协同方式有些什么样的影响?
田渊栋: 我觉得以后应该说很多的一些基本的常识、基本的知识,应该都会基本上——人和人交流的东西都可以让AI来完成了。就比如说,我本来要跟你面对面的聊天,我们说什么时候吃个饭,或者说什么时候有一个meeting schedule,可能本来说我们需要个秘书去相互对接,现在我们有AI,你们俩对接一下就可以把这个meeting或者说把这一些事务性的工作给做完了,这个是一个很大的变化。
其实这个趋势我应该在一年多以前就已经看到了。我们当时在Meta我其实写了一个叫Omni Agent,就是说将来可能是人和人之间交流从agent来完成。当时有这样的一个proposal,跟大家说这是有可能会发生的一件事情,当时觉得这件事情可能会在五年内发生,没想到那么快,就已经发生了。
那以后就是说有可能会有这样的疑问,就是我们要不要去上街购物呢?我们要不要去浏览那个亚马逊的网站呢?很多就是事务性的一些搜索,就是不是出于体验性或娱乐性的搜索,通过事务性的一些搜索过程,可能都可以用agent代替了。我为什么花两小时去浏览网站,找到一个东西去买,我然后让agent帮我去买就行了。
网上已经有人跟我说了,说我用那个小龙虾来帮我买东西,非常开心,非常喜欢,他知道我的所有preference,帮我买东西,非常好。而且对小龙虾来说,他并不需要花很多时间去浏览网页,对agent来说所有的网页都是一个链接,他马上就看完了,然后找到你想要的东西。所以这个过程应该说颠覆了整个电商逻辑,或者说整个人和人之间的交互逻辑,以后会有很大的影响力。
以后也许你的网站做得再花哨没有用了,就比如说这边有广告条,然后希望你点进去,这边有一个很闪亮的东西或者有一个特价,人会看到它然后会有点进去的欲望。但是对于小龙虾来说,对agent来说他没有欲望,他的任务是把这个事情做成了,希望达到最好的deal,所以这些广告对他没有用。这样的话这个逻辑可能就不同了,怎么个不同法,现在应该说还在演进中,但是会很有意思。
主持人: 所以你觉得这个个人助理会以后越来越强大。比如说我们以后可能就是一个super app,我包括所有的这种衣食住行的需求,什么打车什么的,我们可能都不用这种Uber这样的平台进入,而是直接是用一个super app就能解决所有事情。你是这么看吗?
田渊栋: 对,这个是有可能的。就比如说以前比如说你要打电话约水管工,或者打电话约银行,打电话约一些人,然后把事情解决了。如果这些人每个人有个AI,他们24小时在网上待着,只要有任何的需求过来,或者任何的信息过来,他马上会告诉你,然后马上达成协议,然后就完成。所以这个效率是远远高于你打电话的。这个事情一定会发生,因为事务性的工作是我们其实并不需要这样的体验,我希望把这个体验能够交给别人,让他很快地完成,我希望更多时间去花在我想要的体验上面,所以这个事情一定会发生。
另外就是说它有一个裹挟的效应,就是如果世界上的人都用这个了,你不用你就会被踢出。就比如说一个水管工,他说我平时就接电话的,但是其他人都开始用agent了,这个agent可以24小时在网上蹲着给你拉生意,另外就是他会自动地把这些生意组织起来,变成一个很好的路线图让你去走。比如说你今天要走访五家,这五家在哪里,怎么样开车很快能够走一遍,这个过程都可以让AI自动完成。那如果你不用的话,你这个效率就低于其他同行,你就会被淘汰。所以最终通过这个方式,大家都会不得不去做这个事情,不管你主动还是被动。有些人是主动的,说我要提高这个效率;有些人是被动的,如果你不做,别人做了你就会被淘汰,那大家都会进去。所以这个是一个很快的过程。
主持人: 按照你的这个描述,是不是这个事业才刚刚开始,未来还会有更多的?
田渊栋: 其实在年终总结里面说了嘛,就是我觉得现在这个变化应该非常大,只是说我们洪水马上来了,就是我们大家很多人没感觉到。因为很多人可能不是AI从业者,所以他也不知道发生什么事情。很多非从业者就是一直岁月静好、岁月静好,突然有一天像地震一样,突然间发生大事情,然后发现自己被裁了。这个被裁不像说以前的被裁,说哦我跟我老板有矛盾,或者说我在这公司做的不好,我去另外一家公司找工作。不是这样子,那个时候是你突然一天发现全行业的逻辑变了,他的思路跟以前不一样了。所以你这个技能在任何地方都没有用,所以这是很可怕的事情。
我觉得就是我只是说是在洪水未来之前给大家说一下,这个事情会发生,只是大家不一定会听掉。到某个节点突然间大家说,哦原来事情发生变化,但是已经已经发生了,是这样子一个逻辑。
主持人: 你会怎么教育下一代?
田渊栋: 我觉得对我来说就是我们还是希望他能做一些他想做的事情吧。因为下一代比如说再过20年会什么样子,我觉得这很难很难去想象,因为现在就是想象力已经落后于发展速度了,这跟以前是不同的。以前我写科幻小说,我会想这样的一个想法,可能50年之内都不可能发生,我就慢慢写吧,没关系。现在倒过来说,这个idea如果你再不写的话就没有了,已经发生了,就不会成为未来的科幻,而会成为过去的历史。所以就是这样的一个速度在演进,非常的快。所以20年之后发生什么真的不知道。
我觉得能够预测的可能就是说人还是会在那儿,然后人最重要的是他的目的性。很多事情是跟目的性是绑定的,这部分东西是机器不能替代的。被机器替代之后,就意味着这东西不再是你的了。所以这部分的东西应该说是比较比较长久的东西。比如说你要写一部小说,或者说你完成一部作品,或者说一些比较艺术家的个人的目的达成的结果。那这部分就是它的缘起和整个设计本身,是艺术家通过自己的内心的经历产生的一个冲动,这个冲动会变成了一个作品。这个冲动和他的目的、他的想法这部分是人类独有的。
就是说这部分被AI取代之后,这个作品是没有意义的,作品的意义在哪里?在人怎么把这个意义写下来,作为自己的动机把这事情做成,这部分是机器跟人很大的一个区别。所以最终教育孩子或者教育下一代,应该是说希望他有很大的动力,能够做自己想做的事情。有动力的话,这个学习过程就会变得非常愉快,他也愿意用这些所有的工具完成他想要做的事情,我觉得这个是重要的。
主持人: 你会怎么看待就比如说现在的这个Agent、各大模型的发展。因为大家很担心,如果是Agent创业的话,很多人都担心你想要创业的那个方向很快就被大模型的能力给侵蚀掉。你觉得对这些创业者来说……
田渊栋: 对对对,你觉得对他们来说,当然是速度要快嘛,对吧?然后另外就是说如果有客户的话,那这个客户本身对你会产生粘性。客户本身有数据,这些数据可能就变成护城河,这是一个重要的一些点。这是一个。就是要不就是说做一些很快的项目,这个项目的速度快于大模型的发展速度,要不就是说你做一些很难的问题,这问题现在大模型解决不了。那么这两个都是有价值的,我觉得是这样子。
主持人: 最后问你的一个问题,你下一站去哪里?
田渊栋: 我会去一个startup做自己的。当然我们现在这个名字和方向,我们暂时不能公开,因为我们现在还在融资,我们现在在融Series A,马上就要结束了。还是挺好的,应该说很挺顺利,很多人愿意投,还是这样子。不过具体的方向还有人员组成,我们暂时保密,我们希望之后有一个关键的时间点,我们可以宣布。
主持人: 非常期待知道下一步是什么样的分享,谢谢。
田渊栋: 谢谢谢谢。