← 返回
技术论文解读

AutoScientists:无中央调度的自组织智能体团队,如何跑赢单兵作战的 AI 科学家

AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation
Authors
Shanghua Gao, Ada Fang, Marinka Zitnik
Institutions
Harvard University
Venue
arXiv preprint · 2026-05-29
Links
TL;DR

现有 AI 科学实验系统靠单个智能体跑循环,搜索空间大时容易卡在局部最优。AutoScientists 让多个智能体通过共享状态自组织成团队——没有中央调度器,智能体自己提假设、投票决定研究方向、探测到停滞时重组团队。在 BioML-Bench 24 个任务上平均排名百分位 74.4%(超最强基线 +8.33%),GPT 训练优化中从同一起点继续搜索时取得 7 次改进而单智能体为 0,蛋白质工程任务上比 SOTA 模型高 12.5%。核心发现:四个组件(分析师角色、跨团队通信、自组织、共享状态)缺一不可,团队规模存在最优点且因任务而异。

30 秒速览
一句话
多智能体自组织 > 单智能体循环——9 个 AI 智能体自发分工、共享失败经验,在生物医学 ML 和 GPT 训练优化上显著优于单兵作战
论文类型
实证系统论文,含三大 benchmark 评测 + 完整消融实验
核心方法
去中心化多智能体框架:共享状态 + 心跳循环 + 讨论投票 + 噪声感知晋升门控
底层模型
Claude Code + Claude Sonnet 4.6(每个智能体一次 LLM 调用 / 心跳)
代码
github.com/mims-harvard/AutoScientists(MIT 许可)
读者获益
理解多智能体协作在计算科学实验中的范式转移:从中央调度走向自组织
01

问题:单智能体实验循环的天花板在哪里

AI 驱动的科学实验正在从「人设计实验、机器跑代码」转向「AI 自主提假设、改代码、评估结果」。Karpathy 的 Autoresearch(单智能体实验循环) 在 GPT 训练优化中展示了这条路的可行性。但单智能体方法有一个结构性瓶颈:它只有一条搜索轨迹。当搜索空间维度高(比如生物医学 ML 中同时涉及特征工程、模型选择、超参数调优)、实验耗时长时,单智能体容易困在局部最优,因为它没有机制同时探索多个方向、也无法从自己的死胡同中跳出来。

现有多智能体方案尝试引入中央调度器来分工,但这引入了新问题:调度器需要理解所有下游任务,成为认知瓶颈;研究方向的优先级由调度器预设,无法根据实验反馈动态调整。AutoScientists 的核心洞察是:协调不需要中心节点,可以从共享状态和结构化讨论中涌现

02

核心发现:三个 benchmark 全面验证多智能体优势

AutoScientists 在三个差异极大的 benchmark 上一致超越基线,且优势随计算预算增加而扩大:

1
BioML-Bench 24 任务:平均排名百分位 74.4%
覆盖生物医学影像(4 任务)、蛋白质工程(8 任务)、单细胞组学(4 任务)和药物发现(8 任务),超过 Biomni(生物医学 Agent 基线) 的 66.1%(+8.33 百分点)和 Autoresearch 的 57.4%(+17.0 百分点)。在蛋白质工程子类上优势最大(85.0% vs 72.5%)。
2
GPT 训练优化:从同一冠军继续搜索,7 vs 0 改进
从 Autoresearch 基线(val_bpb=0.998)出发,50 次实验后 AutoScientists 达到 0.9777,Autoresearch 达到 0.9790。更关键的是:以 0.9777 为起点再给 100 次实验,AutoScientists 接受 7 次 KEEP 降到 0.9730,Autoresearch 接受 0 次。单智能体在高水位饱和,多智能体仍能发现新方向。
3
ProteinGym 蛋白质适应性预测:SOTA +12.5%
以 Kermut(蛋白质突变效应预测模型) 为种子方法,AutoScientists 发现的改进在 ACE2-Spike 结合亲和力任务上 Spearman 相关系数提升 12.5%,推广到全部 217 个 ProteinGym assay 后仍有 +6.5% 的整体提升。
4
消融显示四个组件缺一不可
移除分析师角色、跨团队通信、自组织机制或共享状态中的任何一项,GPT 任务上 val_bpb 均退化 0.004-0.006,BioML-Bench 排名百分位下降 1.5-12.8 百分点。其中去掉共享状态(独立智能体)退化最大,因为 1/3 的计算预算浪费在重复发现同一个优势改进上。
Benchmark指标AutoScientistsAutoresearchBiomni提升
BioML-Bench (24 任务)平均排名百分位 ↑74.4%57.4%66.1%+8.33 vs Biomni
GPT 训练优化 (从基线)val_bpb ↓0.97770.97901.9× 更快
GPT 优化 (从冠军续跑)KEEP 次数70
ProteinGym ACE2-SpikeSpearman ρ ↑+12.5%vs Kermut SOTA
ProteinGym (217 assays)Spearman ρ ↑+6.5%vs Kermut SOTA
03

方法:无指挥官的智能体团队如何运转

AutoScientists 的架构可以浓缩为四个词:共享状态、心跳循环、讨论投票、噪声门控。系统由两类角色组成——实验智能体(执行代码修改和训练) 和 分析师智能体(审计搜索空间、提出实验方案)。默认配置是 6 个实验智能体 + 3 个分析师(共 9 个工作智能体)。

共享状态 𝒮 是整个系统的唯一协调机制,包含:冠军程序(当前最优代码)、实验日志、死胡同注册表、团队队列和论坛帖子。每个智能体每次被唤醒时都从 𝒮 中读取最新状态,做一件事,写回结果,然后退出——这就是「心跳」。长时间的协调不靠单次长会话,而靠反复短唤醒的积累。

自组织团队形成 是最有意思的设计。智能体通过结构化讨论自己决定怎么分工:每个智能体提出研究方向,排序假设并给出理由,然后投票 [DISCUSS-MORE] 或 [DISCUSS-DONE]。多数票通过后,最后一个参与讨论的分析师负责整合提案写成团队名册。当分析师检测到进展停滞时,会触发重新讨论,团队可以创建、合并、拆分或退休。

分析师的提案协议 确保搜索不会陷入渐进主义:每轮提 2 个实验,其中至少 1 个必须满足「大胆标准」(参数变化 ≥10%、修 bug、测试未探索轴);两个提案必须针对不同研究方向;连续 3 次同方向同走向的提案被阻止;死胡同范围内的提案需要说明与上次失败的区别。

AutoScientists 架构:一次心跳循环共享状态 𝒮冠军 p* · 日志队列 · 论坛分析师团队A1A2审计·排序·提案实验团队 αE1E2E3改代码·训练·评估实验团队 βE4E5改代码·训练·评估噪声感知晋升门控Δ > 2σ → 直接晋升0 < Δ ≤ 2σ → 双种子Δ ≤ 0 → 丢弃停滞检测 → 触发 [DISCUSSION-TRIGGER] → 团队重组
AutoScientists 单次心跳循环:分析师审计搜索空间并排队提案,实验智能体从队列中领取任务执行,结果通过噪声感知门控决定是否晋升冠军。停滞时触发重新讨论,团队可重组。
\text{promote}(p') = \begin{cases} \texttt{true} & \text{if } \Delta > M\sigma
\text{confirm}(p', \text{seed}_2) & \text{if } 0 < \Delta \leq M\sigma
\texttt{false} & \text{if } \Delta \leq 0 \end{cases}
噪声感知晋升门控(M=2):大幅改进直接接受,噪声带内的改进需双种子确认,非改进直接丢弃。σ 通过同代码双种子配对的组内标准差估计,≥3 对后锁定。
04

实验设置:三个 benchmark 覆盖从分子到语言模型

三个 benchmark 的选择覆盖了不同的搜索空间规模和实验成本:BioML-Bench 含 24 个独立任务(每个 4 小时单 H100),要求智能体从零编写训练脚本;GPT 训练优化在 Karpathy 的 nanochat(87M 参数语言模型) 上进行,每次实验 300 秒壁钟时间;ProteinGym 需要在已有 SOTA 模型基础上发现改进,是「从高水位继续搜索」的极限测试。
24
BioML-Bench 任务数
9
默认智能体数 (6 实验 + 3 分析师)
4h
单任务 H100 时间
300s
GPT 单次训练壁钟
217
ProteinGym assay 数

BioML-Bench 涵盖生物医学影像(组织病理学癌症检测、肺纤维化预测等)、蛋白质工程(适应性预测、稳定性预测)、单细胞组学和药物发现(hERG 毒性、ADME 属性)。每个任务的评估指标不同(AUROC、Spearman ρ、MAE 等),论文通过 leaderboard 排名百分位统一比较。基线包括 Biomni(多工具生物医学 Agent)、Autoresearch(单智能体循环)和 BioML-Bench 官方基线。

GPT 训练优化 使用 Karpathy 开源的 nanochat 代码,在 FineWeb 40M token 切片上训练。优化目标是 val_bpb(验证集每字节比特数),噪声标准差 σ ≈ 0.001。AutoScientists 从原始基线 0.998 一路降到 0.9777,共接受 7 次 KEEP(改进),涉及吞吐量、模型容量和优化器质量三条独立的改进轨迹。

ProteinGym 以 Kermut(蛋白质突变效应预测 SOTA 模型)为种子方法,测试 AutoScientists 能否在已高度优化的模型上继续发现改进。在 ACE2-SARS-CoV-2 Spike 结合亲和力这个旗舰任务上 Spearman ρ 提升 12.5%,推广到全部 217 个 assay 后仍有 +6.5%。

05

消融实验:哪个组件贡献最大

消融在 GPT 训练优化(5 任务子集)和 BioML-Bench 上进行,系统性移除四个核心组件。共享状态的移除导致最大退化——独立智能体基线(完全不共享任何信息)在 GPT 任务上 val_bpb 只达到 0.9833(vs 完整系统 0.9777),原因是 1/3 的预算浪费在重复发现同一个优势改进(TOTAL_BATCH_SIZE 减半)上。
消融变体GPT val_bpb ↓KEEP 数BioML 百分位 ↑退化原因
完整 AutoScientists0.977711/7174.4%
无自组织(固定团队)0.98335/4772.9%停滞信号无法触发团队重组
无跨团队通信0.98149/50重复探索、无法去重
无分析师0.98177/5062.4%提案质量下降,无大胆标准
独立智能体(无共享)0.9833best-of-661.6%1/3 预算重复发现同一改进
团队规模的甜点

论文测试了 n=2、4、9、14 四种团队规模。关键发现:==n=14 时所有任务均退化==,最优规模因任务而异。在 GPT 优化中 n=2/4/9 质量相当(均达 0.9777 附近),但并行执行时 n=9 比 n=2 快 3.25 倍。在 TDC-hERG 上 n=9 优势巨大(AUROC 0.867 vs 0.780),但在 ProteinGym SPIKE-SARS2 上 n=2 反而最好(ρ=0.874 vs 0.670)。

06

实践建议:什么时候用多智能体,什么时候单智能体就够

论文的数据暗示了一条清晰的决策边界:

1. 搜索空间是否高维且可分解? 如果你的实验空间可以自然分成几个正交方向(如架构 vs 优化器 vs 数据增强),多智能体并行探索不同方向的收益明显。如果搜索空间是低维的(只调 2-3 个超参数),单智能体循环足够。

2. 是否已经在高水位? AutoScientists 最大的结构性优势出现在「从已有冠军继续搜索」场景——GPT 任务中 7 vs 0 的对比和 ProteinGym 的结果都指向这一点。单智能体在低水位时效率不差(基线 → 0.979 阶段差距不大),但在高水位时搜索空间收窄,多智能体的多方向探索避免了被单一轨迹锁死

3. 噪声门控值得借鉴。 即使不用多智能体架构,噪声感知晋升门控(Δ > 2σ 直接接受,噪声带内双种子确认)也是一个独立有用的技巧。论文指出「冠军污染」——基于噪声偶然晋升的候选会导致所有后续比较基于错误基线——是长时间实验循环中的真实风险。

4. 团队规模不宜过大。 n=14 的全面退化说明通信开销随智能体数增加而增长,存在过度订阅问题。对于需要 GPU 的任务,实验智能体数不应超过可用 GPU 数;对于 CPU 任务,9 个工作智能体是经过验证的默认值。

07

适用边界

1. 单次运行消融。 所有消融变体仅跑了 1 次(GPT 稳定性实验跑了 3 次但消融没有)。考虑到 3 次独立运行的 val_bpb 标准差为 0.0010,消融中 0.004 的差距接近但未达统计显著,论文自己承认「需要 n≥3 多次重复才能下定论」。

2. 单一 LLM 后端。 所有实验使用 Claude Sonnet 4.6 作为唯一后端。不同 LLM 的代码生成和推理能力差异是否会改变多智能体的相对优势?未测试。

3. Benchmark 规模有限。 BioML-Bench 每个任务 4 小时单 H100,GPT 训练 300 秒。对于工业级训练实验(数天数周),自组织机制的收敛行为未知。

4. 无真实科研场景验证。 所有评估在已有 benchmark 上进行。真实科研中的开放性问题(没有 leaderboard 验证)、文献调研需求(智能体未使用 web search)等因素未纳入考量。

5. GPT 任务上 Autoresearch 基线更强。 在 GPT 优化中单智能体 Autoresearch 的最终 val_bpb(0.9773,83 次实验)实际上略好于 AutoScientists 的 0.9777(71 次实验),只是 AutoScientists 到达相同水平的速度更快(1.9×)。多智能体并非所有维度都占优。

08

时效性

AutoScientists 于 2026 年 5 月 29 日发布,属于「AI 科学家」方向的最新进展。该领域在 2026 年上半年高度活跃:Karpathy 的 Autoresearch(2026 年 3 月)点燃了社区热情,随后出现了 AutoResearchClaw(全自动从 idea 到论文)、CORAL(多智能体开放式发现)、AgentFugue、GEAR 等系统。

AutoScientists 的独特贡献在于:(1) 去中心化设计——同期多数系统仍依赖中央调度;(2) 噪声感知门控——首次在多智能体科学实验中解决「冠军污染」问题;(3) 自组织团队重组——不仅分工,还能根据实验反馈动态调整分工。

截至 2026 年 6 月,论文刚发布一周,尚无后续引用或改进工作。但 GitHub 仓库已开源(MIT 许可),社区关注度较高。该论文的评测设计值得关注:如果后续有团队在同一 benchmark 上复现或超越其结果,将是对多智能体科学实验范式的重要验证。

09

术语表

Autoresearch
Karpathy 2026 年 3 月发布的单智能体实验循环框架,在 nanochat GPT 训练上自动搜索超参数改进,是 AutoScientists 的主要对比基线。
Biomni
Stanford 开发的生物医学多工具 Agent 基线,可调用多种 API 完成生物医学 ML 任务,在 BioML-Bench 上排名第二(66.1%)。
BioML-Bench
24 个生物医学 ML 任务的标准化 benchmark,覆盖影像、蛋白质工程、单细胞组学和药物发现,每个任务有独立的 leaderboard。
心跳 (Heartbeat)
AutoScientists 中智能体的最小执行单元——每次唤醒执行一件事然后退出。长程协调通过反复短心跳积累实现。
冠军污染 (Champion Pollution)
因噪声偶然晋升的候选成为新冠军,导致所有后续实验基于错误基线进行比较,误差会复合累积。
KEEP
通过噪声感知门控被接受的改进,晋升为新冠军程序。论文中用 KEEP 次数衡量系统发现真实改进的能力。
Kermut
蛋白质突变效应预测的 SOTA 模型,AutoScientists 在 ProteinGym 实验中以此为种子方法进行改进。
val_bpb
验证集每字节比特数(validation bits-per-byte),GPT 训练优化中的核心评估指标,越低越好。
nanochat
Karpathy 随 Autoresearch 开源的 87M 参数 decoder-only 语言模型训练配置,用于训练优化实验。
噪声感知门控
防止冠军污染的验证机制:Δ > 2σ 直接晋升,0 < Δ ≤ 2σ 双种子确认,Δ ≤ 0 丢弃。σ 通过同代码双种子配对估计。
10

延伸阅读