AutoScientists:无中央调度的自组织智能体团队,如何跑赢单兵作战的 AI 科学家
现有 AI 科学实验系统靠单个智能体跑循环,搜索空间大时容易卡在局部最优。AutoScientists 让多个智能体通过共享状态自组织成团队——没有中央调度器,智能体自己提假设、投票决定研究方向、探测到停滞时重组团队。在 BioML-Bench 24 个任务上平均排名百分位 74.4%(超最强基线 +8.33%),GPT 训练优化中从同一起点继续搜索时取得 7 次改进而单智能体为 0,蛋白质工程任务上比 SOTA 模型高 12.5%。核心发现:四个组件(分析师角色、跨团队通信、自组织、共享状态)缺一不可,团队规模存在最优点且因任务而异。
问题:单智能体实验循环的天花板在哪里
AI 驱动的科学实验正在从「人设计实验、机器跑代码」转向「AI 自主提假设、改代码、评估结果」。Karpathy 的 Autoresearch(单智能体实验循环) 在 GPT 训练优化中展示了这条路的可行性。但单智能体方法有一个结构性瓶颈:它只有一条搜索轨迹。当搜索空间维度高(比如生物医学 ML 中同时涉及特征工程、模型选择、超参数调优)、实验耗时长时,单智能体容易困在局部最优,因为它没有机制同时探索多个方向、也无法从自己的死胡同中跳出来。
现有多智能体方案尝试引入中央调度器来分工,但这引入了新问题:调度器需要理解所有下游任务,成为认知瓶颈;研究方向的优先级由调度器预设,无法根据实验反馈动态调整。AutoScientists 的核心洞察是:协调不需要中心节点,可以从共享状态和结构化讨论中涌现。
核心发现:三个 benchmark 全面验证多智能体优势
AutoScientists 在三个差异极大的 benchmark 上一致超越基线,且优势随计算预算增加而扩大:
| Benchmark | 指标 | AutoScientists | Autoresearch | Biomni | 提升 |
|---|---|---|---|---|---|
| BioML-Bench (24 任务) | 平均排名百分位 ↑ | 74.4% | 57.4% | 66.1% | +8.33 vs Biomni |
| GPT 训练优化 (从基线) | val_bpb ↓ | 0.9777 | 0.9790 | — | 1.9× 更快 |
| GPT 优化 (从冠军续跑) | KEEP 次数 | 7 | 0 | — | ∞ |
| ProteinGym ACE2-Spike | Spearman ρ ↑ | +12.5% | — | — | vs Kermut SOTA |
| ProteinGym (217 assays) | Spearman ρ ↑ | +6.5% | — | — | vs Kermut SOTA |
方法:无指挥官的智能体团队如何运转
AutoScientists 的架构可以浓缩为四个词:共享状态、心跳循环、讨论投票、噪声门控。系统由两类角色组成——实验智能体(执行代码修改和训练) 和 分析师智能体(审计搜索空间、提出实验方案)。默认配置是 6 个实验智能体 + 3 个分析师(共 9 个工作智能体)。
共享状态 𝒮 是整个系统的唯一协调机制,包含:冠军程序(当前最优代码)、实验日志、死胡同注册表、团队队列和论坛帖子。每个智能体每次被唤醒时都从 𝒮 中读取最新状态,做一件事,写回结果,然后退出——这就是「心跳」。长时间的协调不靠单次长会话,而靠反复短唤醒的积累。
自组织团队形成 是最有意思的设计。智能体通过结构化讨论自己决定怎么分工:每个智能体提出研究方向,排序假设并给出理由,然后投票 [DISCUSS-MORE] 或 [DISCUSS-DONE]。多数票通过后,最后一个参与讨论的分析师负责整合提案写成团队名册。当分析师检测到进展停滞时,会触发重新讨论,团队可以创建、合并、拆分或退休。
分析师的提案协议 确保搜索不会陷入渐进主义:每轮提 2 个实验,其中至少 1 个必须满足「大胆标准」(参数变化 ≥10%、修 bug、测试未探索轴);两个提案必须针对不同研究方向;连续 3 次同方向同走向的提案被阻止;死胡同范围内的提案需要说明与上次失败的区别。
\text{confirm}(p', \text{seed}_2) & \text{if } 0 < \Delta \leq M\sigma
\texttt{false} & \text{if } \Delta \leq 0 \end{cases}
实验设置:三个 benchmark 覆盖从分子到语言模型
BioML-Bench 涵盖生物医学影像(组织病理学癌症检测、肺纤维化预测等)、蛋白质工程(适应性预测、稳定性预测)、单细胞组学和药物发现(hERG 毒性、ADME 属性)。每个任务的评估指标不同(AUROC、Spearman ρ、MAE 等),论文通过 leaderboard 排名百分位统一比较。基线包括 Biomni(多工具生物医学 Agent)、Autoresearch(单智能体循环)和 BioML-Bench 官方基线。
GPT 训练优化 使用 Karpathy 开源的 nanochat 代码,在 FineWeb 40M token 切片上训练。优化目标是 val_bpb(验证集每字节比特数),噪声标准差 σ ≈ 0.001。AutoScientists 从原始基线 0.998 一路降到 0.9777,共接受 7 次 KEEP(改进),涉及吞吐量、模型容量和优化器质量三条独立的改进轨迹。
ProteinGym 以 Kermut(蛋白质突变效应预测 SOTA 模型)为种子方法,测试 AutoScientists 能否在已高度优化的模型上继续发现改进。在 ACE2-SARS-CoV-2 Spike 结合亲和力这个旗舰任务上 Spearman ρ 提升 12.5%,推广到全部 217 个 assay 后仍有 +6.5%。
消融实验:哪个组件贡献最大
| 消融变体 | GPT val_bpb ↓ | KEEP 数 | BioML 百分位 ↑ | 退化原因 |
|---|---|---|---|---|
| 完整 AutoScientists | 0.9777 | 11/71 | 74.4% | — |
| 无自组织(固定团队) | 0.9833 | 5/47 | 72.9% | 停滞信号无法触发团队重组 |
| 无跨团队通信 | 0.9814 | 9/50 | — | 重复探索、无法去重 |
| 无分析师 | 0.9817 | 7/50 | 62.4% | 提案质量下降,无大胆标准 |
| 独立智能体(无共享) | 0.9833 | best-of-6 | 61.6% | 1/3 预算重复发现同一改进 |
论文测试了 n=2、4、9、14 四种团队规模。关键发现:==n=14 时所有任务均退化==,最优规模因任务而异。在 GPT 优化中 n=2/4/9 质量相当(均达 0.9777 附近),但并行执行时 n=9 比 n=2 快 3.25 倍。在 TDC-hERG 上 n=9 优势巨大(AUROC 0.867 vs 0.780),但在 ProteinGym SPIKE-SARS2 上 n=2 反而最好(ρ=0.874 vs 0.670)。
实践建议:什么时候用多智能体,什么时候单智能体就够
论文的数据暗示了一条清晰的决策边界:
1. 搜索空间是否高维且可分解? 如果你的实验空间可以自然分成几个正交方向(如架构 vs 优化器 vs 数据增强),多智能体并行探索不同方向的收益明显。如果搜索空间是低维的(只调 2-3 个超参数),单智能体循环足够。
2. 是否已经在高水位? AutoScientists 最大的结构性优势出现在「从已有冠军继续搜索」场景——GPT 任务中 7 vs 0 的对比和 ProteinGym 的结果都指向这一点。单智能体在低水位时效率不差(基线 → 0.979 阶段差距不大),但在高水位时搜索空间收窄,多智能体的多方向探索避免了被单一轨迹锁死。
3. 噪声门控值得借鉴。 即使不用多智能体架构,噪声感知晋升门控(Δ > 2σ 直接接受,噪声带内双种子确认)也是一个独立有用的技巧。论文指出「冠军污染」——基于噪声偶然晋升的候选会导致所有后续比较基于错误基线——是长时间实验循环中的真实风险。
4. 团队规模不宜过大。 n=14 的全面退化说明通信开销随智能体数增加而增长,存在过度订阅问题。对于需要 GPU 的任务,实验智能体数不应超过可用 GPU 数;对于 CPU 任务,9 个工作智能体是经过验证的默认值。
适用边界
1. 单次运行消融。 所有消融变体仅跑了 1 次(GPT 稳定性实验跑了 3 次但消融没有)。考虑到 3 次独立运行的 val_bpb 标准差为 0.0010,消融中 0.004 的差距接近但未达统计显著,论文自己承认「需要 n≥3 多次重复才能下定论」。
2. 单一 LLM 后端。 所有实验使用 Claude Sonnet 4.6 作为唯一后端。不同 LLM 的代码生成和推理能力差异是否会改变多智能体的相对优势?未测试。
3. Benchmark 规模有限。 BioML-Bench 每个任务 4 小时单 H100,GPT 训练 300 秒。对于工业级训练实验(数天数周),自组织机制的收敛行为未知。
4. 无真实科研场景验证。 所有评估在已有 benchmark 上进行。真实科研中的开放性问题(没有 leaderboard 验证)、文献调研需求(智能体未使用 web search)等因素未纳入考量。
5. GPT 任务上 Autoresearch 基线更强。 在 GPT 优化中单智能体 Autoresearch 的最终 val_bpb(0.9773,83 次实验)实际上略好于 AutoScientists 的 0.9777(71 次实验),只是 AutoScientists 到达相同水平的速度更快(1.9×)。多智能体并非所有维度都占优。
时效性
AutoScientists 于 2026 年 5 月 29 日发布,属于「AI 科学家」方向的最新进展。该领域在 2026 年上半年高度活跃:Karpathy 的 Autoresearch(2026 年 3 月)点燃了社区热情,随后出现了 AutoResearchClaw(全自动从 idea 到论文)、CORAL(多智能体开放式发现)、AgentFugue、GEAR 等系统。
AutoScientists 的独特贡献在于:(1) 去中心化设计——同期多数系统仍依赖中央调度;(2) 噪声感知门控——首次在多智能体科学实验中解决「冠军污染」问题;(3) 自组织团队重组——不仅分工,还能根据实验反馈动态调整分工。
截至 2026 年 6 月,论文刚发布一周,尚无后续引用或改进工作。但 GitHub 仓库已开源(MIT 许可),社区关注度较高。该论文的评测设计值得关注:如果后续有团队在同一 benchmark 上复现或超越其结果,将是对多智能体科学实验范式的重要验证。