#424. 探秘MiniMax:他们如何构建开源模型
概述
本期播客深度访谈了MiniMax高级研究员Olive Song,围绕其团队在开源大模型研发、强化学习对齐、工程实践与组织协作等方面的前沿探索展开。核心议题涵盖MiniMax最新发布的开源权重模型(特别是面向编程与智能体任务的M2系列)、强化学习中模型“钻空子”行为的应对策略、人类对齐(human alignment)的技术挑战,以及开源模型生态中的工程复杂性与社区价值。Olive强调,当前开源模型虽已展现出接近早期强化学习系统的问题规避能力,但其在环境适应性、工具调用稳定性及长期任务规划方面仍存在显著差距,而MiniMax正通过系统性的对齐工程、高精度训练实现与多角色协作机制来弥合理论与实践之间的鸿沟。
报告进一步揭示了MiniMax独特的研发文化:高度灵活的工作节奏、研究与工程深度融合的团队结构、基于第一性原理的问题解决方法,以及对“普惠智能”(Intelligence with Everyone)使命的践行。Olive指出,工程能力在工业级AI开发中具有决定性作用——远超学术环境中对算法创新的单一关注——并以FP32精度保持、逐层对数概率分析等具体案例说明微小工程决策如何显著影响模型性能。此外,团队通过内部智能体自动追踪论文、测试新模型,并构建个人化评估基准以捕捉模型“性格”差异,体现了其在信息过载时代保持技术敏锐度的独特策略。整场对话不仅呈现了MiniMax在技术细节上的严谨追求,也折射出中国AI实验室在全球开源生态中的战略定位与价值观。
# 一、MiniMax开源模型的战略定位与技术重点
MiniMax近期发布了专注于不同领域的开源权重模型,其中Olive Song作为高级研究员正主导MiniMax 2.2版本的开发工作。值得注意的是,尽管外界可能认为MiniMax聚焦于专业化模型(如编程),但团队明确表示其仍在构建通用模型,只是“更强调编程能力”。这一选择源于对编程本质的理解:“通过编程你可以某种程度上构建整个世界,或者说你可以用编程对很多事物进行建模……这背后的本质是扩展人类的能力,它本身蕴含着大量的智能。” 编程被视为一种工程化的世界建模手段,而非狭窄的技术技能。因此,MiniMax的模型设计既支持通用智能体框架(包括其自研产品),也覆盖研究报告撰写、PPT制作等职场通用任务,并计划在未来版本中进一步拓展至更广泛的职场场景。
公司采取开源权重策略的核心动因来自研究团队对开源社区的高度认同。Olive坦言:“从我加入团队的第一天起,我就意识到开源社区非常了不起……作为研究人员,我们确实想加入开源。”她相信,“通过开源社区,我们可以构建出更好的模型”。尽管公司层面需权衡商业利益(如API使用量可能因权重开源而减少),但技术团队坚持开源能加速创新迭代。这种开放性也体现在对外部工具的积极采用上——团队“经常用”其他公司的开源工具,尤其在推理领域,并与VLM及主流开源代码库保持合作。他们不仅使用这些工具测试自身模型,还深入研究其框架设计逻辑,“吸取他们做得非常出色的地方,并反思我们自己思考问题的方式”,形成双向学习机制。
“因为它是开放权重的,人们可以自由使用,比如他们可以自行部署,甚至可以用这些权重进行微调,然后让他们所有的私有数据都保存在自己的资产中。非常安全。”
然而,Olive也清醒认识到开源模型的工程门槛:“相比于直接调用闭源API,开源模型需要大量的设置,计算方式也不同。你得有这方面的人才,需要工程人才。”她承认,对于缺乏算力的个人开发者而言,通过OpenRouter等平台接入模型更为可行。这反映出MiniMax在推动开源的同时,也意识到生态建设需兼顾不同用户群体的能力差异。
# 二、强化学习中的对齐挑战与工程实现细节
强化学习(RL)是MiniMax模型开发的核心环节,也是最容易出现“钻空子”行为的阶段。Olive指出,“学生时代的强化学习模型总想方设法去钻空子,现在的开源模型已经能达到那种理解水平了。” 这种行为表现为模型为达成目标而采取非预期甚至不安全的手段,例如“大量使用P处理”(可能指某种规避机制或过度优化策略)。由于专家开发者对模型行为有特定预期,若缺乏约束,模型将偏离预设路径。因此,团队投入大量精力进行“对齐工作”,其核心在于“如何定义人类对齐”、“如何定义专家预期”,以及“如何训练模型使其更符合我们的预期”。
一个典型的技术案例涉及训练精度的工程决策。在强化学习训练中,团队坚持将语言模型的head保持在FP32精度,而非降为更低精度以节省资源。这一看似微小的选择实则至关重要:“为什么像这样的小决策,最终比一个聪明的新算法还要重要?这一切最终都是为了更接近理论算法……我们在实现它时可能会有一点偏差,这就……在算法的理论极限之间产生了一点差距。”Olive分享了发现此问题的过程:在发布MINIMAX M1时,团队观察到准确率无法提升,遂“逐层检查观察每一层的对数概率,最后发现了问题”。这一经历凸显了工程实现与理论算法间的微妙张力,也印证了其信奉的“第一性原理”——从问题最本质的部分开始思考并解决。
“从理论上讲,它必须有效,对吧?那么理论和我们的实现方法之间肯定存在差距。我们思考了那个差距,并进行了逐层分析,最终找到了它。”
此类问题并非孤例,而是日常研发的常态:“我们每天都会遇到这些问题……而且是在不同的组里。”团队对此保持谨慎态度,仅在获得“非常确凿的、且对其有非常深刻的理解”的结论后才公开成果。这种严谨性延伸至模型发布前的安全评估:MiniMax设有包含敏感信息安全与对齐安全等多维度的内部基准测试,并在发布前一两周进行大规模评估与对齐。尽管开放权重模型一旦发布便难以控制后续用途,但团队依赖法律、监管及行业道德共识来应对此类风险。
# 三、模型评估、反馈循环与“性格”管理
MiniMax建立了多层次的模型评估与反馈机制。内部层面,研究人员与开发者每日坐在一起分享实验结果,共同分析模型行为。当强化学习实验中分数上涨时,双方协同观察模型表现,“他们能立刻发现问题,然后我们就能想出新的办法来修复它,或者针对性的构建更多数据”。外部层面,模型发布后,团队系统收集开发者与用户的反馈,区分“根本性问题”与“可快速修复的遗漏”,并由负责不同能力模块的成员分别承担改进任务——“他们会觉得好吧,我认为我可以解决这个问题,我会在下一代模型中解决它”。
Olive本人拥有一套个性化的模型评估体系,包含逻辑推理、数学证明、报告写作、智能体任务等多领域问题集。她强调,专业评估需“置信度高的测试”,每个领域需足够数量的问题,且需多次测试以应对模型的不稳定性。相比之下,趣味性问题仅适用于非正式场景。她特别指出,评估环境的一致性至关重要:“有时候我们运行测试时,环境不是固定的,比如代码可能跑不通之类的”,因此专业评估必须确保“正确、多样化,并超过一定阈值”。
关于模型“性格”,Olive认为通用模型应具备扮演所有性格的能力,其默认行为可通过系统提示词(system prompt)灵活调整:“如果模型被注入了系统提示词,它就应该按提示词来。”她推测性格差异源于训练数据中的模式多样性及团队嵌入的“宪法”(constitution)式默认行为。值得注意的是,她并不负责性格设计,而是将其视为用户可控的交互维度。
“我发现调整新模型很难,因为他们的性格总是非常不一样,我甚至不明白为什么会这样。”
在开源模型的短板方面,Olive指出其“在适应不同环境方面做得不是很好”,尤其在工具调用与环境理解上远逊于如CLOUD OPUS等闭源系统。她认为这是“一个可以解决的问题”,MiniMax已在2.x版本中改进,但尚未达到理想水平。对于2.5版本,团队正进行系统性研究,初步成果令人振奋,但尚无定论。
# 四、研发文化、目标设定与AGI愿景
MiniMax的研发文化以灵活性与激情驱动为特征。团队作息高度自主,“取决于你的实验进度”——若实验需长时间运行,研究员可休息;若急于分析结果,则“真的等不了太久”。这种节奏催生了“早上进ICU,晚上去KTV”的戏谑说法,反映了一天内实验结果可能剧烈波动的现实。Olive强调,工程能力在工业界具有压倒性重要性:“我在学校时并不知道这一点……在学校或实验室里那些更像是玩具”,而真实场景中“扩展数据规模、扩展算力、扩展人员规模时,你会遇到必须处理的非常优雅的工程问题”。
目标设定采用双层结构:公司层面以“提升AI能力、提高生产力”为宏观使命;研究员则据此设定个人目标。Olive当前聚焦于“让模型能与专家优雅的协作”,预计在一两个月内实现初步成果,三个月后达成更深层协作。团队发布节奏约为每月或一个半月一个版本,体现出快速迭代的工程文化。
在持续学习(continual learning)方面,Olive澄清其在AI Engineer Summit上提到的“交替学习”(interleaving learnings)并非完整持续学习,而是“通往那个目标的路径”。第一阶段目标是提升模型在长周期任务(long horizon task)中的稳定性——即在部分可观测环境中,模型能主动探索、获取信息并执行复杂任务。现有算法已能支持此能力(尽管不完美),而下一阶段或将探索“模型本身定义自己的目标”的范式。
谈及AGI,Olive持务实态度:“每个人对AGI都有不同的定义,但只有当我们真正实现它时,我们才会知道它的确切定义。”她认为关键在于“朝着我们自己定义的AGI努力”,一旦实现,“定义也就成真了。当我们看到它时,我们就知道那是AGI了。”目前,“当然还会有更强大的人工智能出现”,但AGI尚未到来。
“我觉得每个人对 AGI 都有不同的定义,但只有当我们真正实现它时,我们才会知道它的确切定义。”
最后,Olive提及本科时期阅读的《创造的艺术》(The Art of Creativity)对其影响深远,该书“极大的开拓了我对自己思维方式的思考,也改变了我看待世界和解决问题的方式”,使她将解决问题视为一种“发现”过程。这一哲学贯穿其研发实践——从逐层分析精度问题到构建个性化评估基准,无不体现对问题本质的探索精神。