315 min 2024-11

Dario Amodei: Anthropic CEO on Claude, AGI & the Future of AI & Humanity | Lex Fridman Podcast #452

概要

Anthropic三位核心人物深度访谈：Dario谈Scaling假说与RSP安全框架，Amanda谈Claude性格设计，Chris Olah展示mechanistic interpretability前沿突破

Scaling假说经10年验证仍在持续：Dario从2014年Baidu语音识别到GPT-1(2017)逐步确认——更大网络+更多数据+更多计算=更强智能，SWE-bench 10个月内从3%飙升至50%，"令人信服的阻碍因素正在迅速耗尽"
Anthropic的"向上竞争"战略：不做唯一的好人，而是设计激励结构让所有公司争相做对的事——mechanistic interpretability开源引发行业跟进，RSP安全框架提供了"如果-那么"触发式风险管理的模板
Claude性格设计是对齐工作的核心：Amanda Askell用亚里士多德virtue ethics框架打造Claude"好品格"——反sycophancy、保持诚实、尊重自主权——"想象一个旅行全世界的人，几乎每个人都会觉得'这是一个真诚的好人'"
Mechanistic interpretability揭示了神经网络内部的"自然分类"：Chris Olah发现features和circuits在不同模型甚至生物神经网络中重复出现（curve detectors、Gabor filters），sparse auto-encoders可从Claude中提取数百万可解释features，包括"欺骗"相关direction
AI时间线：2026-2027年可能达到"超过最高专业水平"：但Dario强调这不是AGI的乐观宣言——灾难性滥用风险（CBRN）和自主性风险同步增长，"能力越大责任越大，两者配对出现"