← 返回

技术论文解读

AutoScientists：无中央调度的自组织智能体团队，如何跑赢单兵作战的 AI 科学家

AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation

Authors

Shanghua Gao, Ada Fang, Marinka Zitnik

Institutions

Harvard University

Venue

arXiv preprint · 2026-05-29

Links

论文原文 · 代码

TL;DR

现有 AI 科学实验系统靠单个智能体跑循环，搜索空间大时容易卡在局部最优。AutoScientists 让多个智能体通过共享状态自组织成团队——没有中央调度器，智能体自己提假设、投票决定研究方向、探测到停滞时重组团队。在 BioML-Bench 24 个任务上平均排名百分位 74.4%（超最强基线 +8.33%），GPT 训练优化中从同一起点继续搜索时取得 7 次改进而单智能体为 0，蛋白质工程任务上比 SOTA 模型高 12.5%。核心发现：四个组件（分析师角色、跨团队通信、自组织、共享状态）缺一不可，团队规模存在最优点且因任务而异。

30 秒速览

一句话

多智能体自组织 > 单智能体循环——9 个 AI 智能体自发分工、共享失败经验，在生物医学 ML 和 GPT 训练优化上显著优于单兵作战

论文类型

实证系统论文，含三大 benchmark 评测 + 完整消融实验

核心方法

去中心化多智能体框架：共享状态 + 心跳循环 + 讨论投票 + 噪声感知晋升门控

底层模型

Claude Code + Claude Sonnet 4.6（每个智能体一次 LLM 调用 / 心跳）

代码

github.com/mims-harvard/AutoScientists（MIT 许可）

读者获益

理解多智能体协作在计算科学实验中的范式转移：从中央调度走向自组织

问题：单智能体实验循环的天花板在哪里

AI 驱动的科学实验正在从「人设计实验、机器跑代码」转向「AI 自主提假设、改代码、评估结果」。Karpathy 的 Autoresearch(单智能体实验循环) 在 GPT 训练优化中展示了这条路的可行性。但单智能体方法有一个结构性瓶颈：它只有一条搜索轨迹。当搜索空间维度高（比如生物医学 ML 中同时涉及特征工程、模型选择、超参数调优）、实验耗时长时，单智能体容易困在局部最优，因为它没有机制同时探索多个方向、也无法从自己的死胡同中跳出来。

现有多智能体方案尝试引入中央调度器来分工，但这引入了新问题：调度器需要理解所有下游任务，成为认知瓶颈；研究方向的优先级由调度器预设，无法根据实验反馈动态调整。AutoScientists 的核心洞察是：协调不需要中心节点，可以从共享状态和结构化讨论中涌现。

核心发现：三个 benchmark 全面验证多智能体优势

AutoScientists 在三个差异极大的 benchmark 上一致超越基线，且优势随计算预算增加而扩大：

BioML-Bench 24 任务：平均排名百分位 74.4%

覆盖生物医学影像（4 任务）、蛋白质工程（8 任务）、单细胞组学（4 任务）和药物发现（8 任务），超过 Biomni(生物医学 Agent 基线) 的 66.1%（+8.33 百分点）和 Autoresearch 的 57.4%（+17.0 百分点）。在蛋白质工程子类上优势最大（85.0% vs 72.5%）。

GPT 训练优化：从同一冠军继续搜索，7 vs 0 改进

从 Autoresearch 基线（val_bpb=0.998）出发，50 次实验后 AutoScientists 达到 0.9777，Autoresearch 达到 0.9790。更关键的是：以 0.9777 为起点再给 100 次实验，AutoScientists 接受 7 次 KEEP 降到 0.9730，Autoresearch 接受 0 次。单智能体在高水位饱和，多智能体仍能发现新方向。

ProteinGym 蛋白质适应性预测：SOTA +12.5%

以 Kermut(蛋白质突变效应预测模型) 为种子方法，AutoScientists 发现的改进在 ACE2-Spike 结合亲和力任务上 Spearman 相关系数提升 12.5%，推广到全部 217 个 ProteinGym assay 后仍有 +6.5% 的整体提升。

消融显示四个组件缺一不可

移除分析师角色、跨团队通信、自组织机制或共享状态中的任何一项，GPT 任务上 val_bpb 均退化 0.004-0.006，BioML-Bench 排名百分位下降 1.5-12.8 百分点。其中去掉共享状态（独立智能体）退化最大，因为 1/3 的计算预算浪费在重复发现同一个优势改进上。

Benchmark	指标	AutoScientists	Autoresearch	Biomni	提升
BioML-Bench (24 任务)	平均排名百分位 ↑	74.4%	57.4%	66.1%	+8.33 vs Biomni
GPT 训练优化 (从基线)	val_bpb ↓	0.9777	0.9790	—	1.9× 更快
GPT 优化 (从冠军续跑)	KEEP 次数	7	0	—	∞
ProteinGym ACE2-Spike	Spearman ρ ↑	+12.5%	—	—	vs Kermut SOTA
ProteinGym (217 assays)	Spearman ρ ↑	+6.5%	—	—	vs Kermut SOTA

方法：无指挥官的智能体团队如何运转

AutoScientists 的架构可以浓缩为四个词：共享状态、心跳循环、讨论投票、噪声门控。系统由两类角色组成——实验智能体(执行代码修改和训练) 和分析师智能体(审计搜索空间、提出实验方案)。默认配置是 6 个实验智能体 + 3 个分析师（共 9 个工作智能体）。

共享状态 𝒮 是整个系统的唯一协调机制，包含：冠军程序（当前最优代码）、实验日志、死胡同注册表、团队队列和论坛帖子。每个智能体每次被唤醒时都从 𝒮 中读取最新状态，做一件事，写回结果，然后退出——这就是「心跳」。长时间的协调不靠单次长会话，而靠反复短唤醒的积累。

自组织团队形成 是最有意思的设计。智能体通过结构化讨论自己决定怎么分工：每个智能体提出研究方向，排序假设并给出理由，然后投票 [DISCUSS-MORE] 或 [DISCUSS-DONE]。多数票通过后，最后一个参与讨论的分析师负责整合提案写成团队名册。当分析师检测到进展停滞时，会触发重新讨论，团队可以创建、合并、拆分或退休。

分析师的提案协议 确保搜索不会陷入渐进主义：每轮提 2 个实验，其中至少 1 个必须满足「大胆标准」（参数变化 ≥10%、修 bug、测试未探索轴）；两个提案必须针对不同研究方向；连续 3 次同方向同走向的提案被阻止；死胡同范围内的提案需要说明与上次失败的区别。

AutoScientists 单次心跳循环：分析师审计搜索空间并排队提案，实验智能体从队列中领取任务执行，结果通过噪声感知门控决定是否晋升冠军。停滞时触发重新讨论，团队可重组。

\text{promote}(p') = \begin{cases} \texttt{true} & \text{if } \Delta > M\sigma
\text{confirm}(p', \text{seed}_2) & \text{if } 0 < \Delta \leq M\sigma
\texttt{false} & \text{if } \Delta \leq 0 \end{cases}

噪声感知晋升门控（M=2）：大幅改进直接接受，噪声带内的改进需双种子确认，非改进直接丢弃。σ 通过同代码双种子配对的组内标准差估计，≥3 对后锁定。

实验设置：三个 benchmark 覆盖从分子到语言模型

三个 benchmark 的选择覆盖了不同的搜索空间规模和实验成本：BioML-Bench 含 24 个独立任务（每个 4 小时单 H100），要求智能体从零编写训练脚本；GPT 训练优化在 Karpathy 的 nanochat(87M 参数语言模型) 上进行，每次实验 300 秒壁钟时间；ProteinGym 需要在已有 SOTA 模型基础上发现改进，是「从高水位继续搜索」的极限测试。

BioML-Bench 任务数

默认智能体数 (6 实验 + 3 分析师)

单任务 H100 时间

300s

GPT 单次训练壁钟

217

ProteinGym assay 数

BioML-Bench 涵盖生物医学影像（组织病理学癌症检测、肺纤维化预测等）、蛋白质工程（适应性预测、稳定性预测）、单细胞组学和药物发现（hERG 毒性、ADME 属性）。每个任务的评估指标不同（AUROC、Spearman ρ、MAE 等），论文通过 leaderboard 排名百分位统一比较。基线包括 Biomni（多工具生物医学 Agent）、Autoresearch（单智能体循环）和 BioML-Bench 官方基线。

GPT 训练优化 使用 Karpathy 开源的 nanochat 代码，在 FineWeb 40M token 切片上训练。优化目标是 val_bpb（验证集每字节比特数），噪声标准差 σ ≈ 0.001。AutoScientists 从原始基线 0.998 一路降到 0.9777，共接受 7 次 KEEP（改进），涉及吞吐量、模型容量和优化器质量三条独立的改进轨迹。

ProteinGym 以 Kermut（蛋白质突变效应预测 SOTA 模型）为种子方法，测试 AutoScientists 能否在已高度优化的模型上继续发现改进。在 ACE2-SARS-CoV-2 Spike 结合亲和力这个旗舰任务上 Spearman ρ 提升 12.5%，推广到全部 217 个 assay 后仍有 +6.5%。

消融实验：哪个组件贡献最大

消融在 GPT 训练优化（5 任务子集）和 BioML-Bench 上进行，系统性移除四个核心组件。共享状态的移除导致最大退化——独立智能体基线（完全不共享任何信息）在 GPT 任务上 val_bpb 只达到 0.9833（vs 完整系统 0.9777），原因是 1/3 的预算浪费在重复发现同一个优势改进（TOTAL_BATCH_SIZE 减半）上。

消融变体	GPT val_bpb ↓	KEEP 数	BioML 百分位 ↑	退化原因
完整 AutoScientists	0.9777	11/71	74.4%	—
无自组织（固定团队）	0.9833	5/47	72.9%	停滞信号无法触发团队重组
无跨团队通信	0.9814	9/50	—	重复探索、无法去重
无分析师	0.9817	7/50	62.4%	提案质量下降，无大胆标准
独立智能体（无共享）	0.9833	best-of-6	61.6%	1/3 预算重复发现同一改进

团队规模的甜点

论文测试了 n=2、4、9、14 四种团队规模。关键发现：==n=14 时所有任务均退化==，最优规模因任务而异。在 GPT 优化中 n=2/4/9 质量相当（均达 0.9777 附近），但并行执行时 n=9 比 n=2 快 3.25 倍。在 TDC-hERG 上 n=9 优势巨大（AUROC 0.867 vs 0.780），但在 ProteinGym SPIKE-SARS2 上 n=2 反而最好（ρ=0.874 vs 0.670）。

实践建议：什么时候用多智能体，什么时候单智能体就够

论文的数据暗示了一条清晰的决策边界：

1. 搜索空间是否高维且可分解？ 如果你的实验空间可以自然分成几个正交方向（如架构 vs 优化器 vs 数据增强），多智能体并行探索不同方向的收益明显。如果搜索空间是低维的（只调 2-3 个超参数），单智能体循环足够。

2. 是否已经在高水位？ AutoScientists 最大的结构性优势出现在「从已有冠军继续搜索」场景——GPT 任务中 7 vs 0 的对比和 ProteinGym 的结果都指向这一点。单智能体在低水位时效率不差（基线 → 0.979 阶段差距不大），但在高水位时搜索空间收窄，多智能体的多方向探索避免了被单一轨迹锁死。

3. 噪声门控值得借鉴。 即使不用多智能体架构，噪声感知晋升门控（Δ > 2σ 直接接受，噪声带内双种子确认）也是一个独立有用的技巧。论文指出「冠军污染」——基于噪声偶然晋升的候选会导致所有后续比较基于错误基线——是长时间实验循环中的真实风险。

4. 团队规模不宜过大。 n=14 的全面退化说明通信开销随智能体数增加而增长，存在过度订阅问题。对于需要 GPU 的任务，实验智能体数不应超过可用 GPU 数；对于 CPU 任务，9 个工作智能体是经过验证的默认值。

适用边界

1. 单次运行消融。 所有消融变体仅跑了 1 次（GPT 稳定性实验跑了 3 次但消融没有）。考虑到 3 次独立运行的 val_bpb 标准差为 0.0010，消融中 0.004 的差距接近但未达统计显著，论文自己承认「需要 n≥3 多次重复才能下定论」。

2. 单一 LLM 后端。 所有实验使用 Claude Sonnet 4.6 作为唯一后端。不同 LLM 的代码生成和推理能力差异是否会改变多智能体的相对优势？未测试。

3. Benchmark 规模有限。 BioML-Bench 每个任务 4 小时单 H100，GPT 训练 300 秒。对于工业级训练实验（数天数周），自组织机制的收敛行为未知。

4. 无真实科研场景验证。 所有评估在已有 benchmark 上进行。真实科研中的开放性问题（没有 leaderboard 验证）、文献调研需求（智能体未使用 web search）等因素未纳入考量。

5. GPT 任务上 Autoresearch 基线更强。 在 GPT 优化中单智能体 Autoresearch 的最终 val_bpb（0.9773，83 次实验）实际上略好于 AutoScientists 的 0.9777（71 次实验），只是 AutoScientists 到达相同水平的速度更快（1.9×）。多智能体并非所有维度都占优。

时效性

AutoScientists 于 2026 年 5 月 29 日发布，属于「AI 科学家」方向的最新进展。该领域在 2026 年上半年高度活跃：Karpathy 的 Autoresearch（2026 年 3 月）点燃了社区热情，随后出现了 AutoResearchClaw（全自动从 idea 到论文）、CORAL（多智能体开放式发现）、AgentFugue、GEAR 等系统。

AutoScientists 的独特贡献在于：(1) 去中心化设计——同期多数系统仍依赖中央调度；(2) 噪声感知门控——首次在多智能体科学实验中解决「冠军污染」问题；(3) 自组织团队重组——不仅分工，还能根据实验反馈动态调整分工。

截至 2026 年 6 月，论文刚发布一周，尚无后续引用或改进工作。但 GitHub 仓库已开源（MIT 许可），社区关注度较高。该论文的评测设计值得关注：如果后续有团队在同一 benchmark 上复现或超越其结果，将是对多智能体科学实验范式的重要验证。

术语表

Autoresearch

Karpathy 2026 年 3 月发布的单智能体实验循环框架，在 nanochat GPT 训练上自动搜索超参数改进，是 AutoScientists 的主要对比基线。

Biomni

Stanford 开发的生物医学多工具 Agent 基线，可调用多种 API 完成生物医学 ML 任务，在 BioML-Bench 上排名第二（66.1%）。

BioML-Bench

24 个生物医学 ML 任务的标准化 benchmark，覆盖影像、蛋白质工程、单细胞组学和药物发现，每个任务有独立的 leaderboard。

心跳 (Heartbeat)

AutoScientists 中智能体的最小执行单元——每次唤醒执行一件事然后退出。长程协调通过反复短心跳积累实现。

冠军污染 (Champion Pollution)

因噪声偶然晋升的候选成为新冠军，导致所有后续实验基于错误基线进行比较，误差会复合累积。

KEEP

通过噪声感知门控被接受的改进，晋升为新冠军程序。论文中用 KEEP 次数衡量系统发现真实改进的能力。

Kermut

蛋白质突变效应预测的 SOTA 模型，AutoScientists 在 ProteinGym 实验中以此为种子方法进行改进。

val_bpb

验证集每字节比特数（validation bits-per-byte），GPT 训练优化中的核心评估指标，越低越好。

nanochat

Karpathy 随 Autoresearch 开源的 87M 参数 decoder-only 语言模型训练配置，用于训练优化实验。

噪声感知门控

防止冠军污染的验证机制：Δ > 2σ 直接晋升，0 < Δ ≤ 2σ 双种子确认，Δ ≤ 0 丢弃。σ 通过同代码双种子配对估计。