38 min 2024-09

AI, policy, and the weird sci-fi future with Anthropic's Jack Clark

Anthropic · Jack Clark

查看原始内容 →

概要

Anthropic联合创始人Jack Clark谈AI的流氓国家理论、机器时间vs人类时间的风险论证、以及为什么今天的加速主义者其实是技术悲观者

核心洞察

AI 系统不是工具而是"silicon countries"——它们拥有人工直觉、价值观和创造力，应以"全政府响应"（whole-of-government response）对待，而非分散到不同技术监管部门
机器时间 vs 人类时间是最有说服力的 AI 风险论证——人类思考速度仅 10 bits/sec（Caltech 论文），军事中 OODA loop 快者胜，对比机器速度差距比国家间军事差距更大
"今天的加速主义者实际上是技术悲观者"——他们假设技术只比现在再前进一小步就停止，真正的加速主义者应对未来感到"shock, awe and some small amount of dread"
即使 AI 发展今天就停止，经济价值仍然巨大——类比"刚发现电力、装了第一批灯泡"，还有无数工厂待建、无数青少年会找到我们想不到的用途
2025年将是政策爆发之年：法国峰会、EU AI Act 实施、多国安全机构建立、美国新政府100天内将对 AI 采取行动

Jack Clark 的路径：从技术记者到"AI 唯一记者"到政策负责人

核心论点：通过深入理解技术来报道技术（"method acting journalism"），让 Jack 在2010年就看到 Google 将在数据中心上部署 ML

做记者时像"方法派演员"：写数据库就学 SQL，写芯片就学半导体制造
"The Clark Side of the Cloud"系列：在全球巡游数据中心
2010年关键洞察：Google 建了这么多计算机，一定会用 ML 做些什么
2012年搬到美国，自封"世界唯一神经网络记者"——当时确实容易做到
2016年加入 OpenAI，迅速意识到政策的重要性——"how little people in policy knew about it"
Import AI 新闻通讯：每周末写，附 Tech Tales 短篇小说，近10年约350篇

英国工党与 AI：继承安全机构而非推翻、聚焦经济增长

核心论点：UK 工党罕见地继承了前任保守党的 AI Safety Institute（AISI），同时将 AI 定位为经济增长引擎——关注"life and limb"类风险但更急于整合 AI 到政府运作中

工党刚执政两个月，将 AI 列为推动英国经济增长的关键技术
保守党建立的 AISI 被视为"national asset"——工党在思考如何扩展而非废除
Anthropic 已与 AISI 做过部署前测试
工党 MP 关注的风险措辞："life and limb"——类似美国聚焦灾难性风险（生物/网络）
Jack 在工党大会的策略："没选择打开恐怖手提箱"，而是谈 AISI 如何继续繁荣
政府对 AI 最兴奋的是后台应用：NHS 文书流转、议员选区回复处理、官僚系统优化

AI 的经济潜力：即使今天停止进步，价值仍然巨大

核心论点：当前 AI 如同"刚发现电力装了第一批灯泡"——还远未完成向经济的渗透，停止所有进步仍会产生数十年的应用创新

企业本质是"paper plumbing"（纸质管道）——流程集合，从客户交互到行动（销售/投诉处理），AI 被用于这些内部粘合
政府是"充满纸张的巨型官僚机构"——AI 承诺让信息可被人类适当关注和处理
电力类比：即使停止效率改进，只有这个基础新事物，仍会围绕它建造新工厂和生产线
某个地方的某个青少年会用 Claude 做出我们完全想不到的事——这种情况会有"数十到数百个"
已发生的例子：滑铁卢大学毕业生用 Claude 两周内建了核聚变器——从未做过硬件，"AI brain in the sky helped me"

"We've just discovered electricity and we've put the first light bulbs in the factories. You could stop all electricity efficiency refinement from there and still build factories around the assumption of electricity existing." —— Jack Clark

"流氓国家"理论：AI 系统是进入世界的新国家，不是新技术

核心论点：向政府解释 AI 时，"rogue state"类比比任何具体风险（生物/网络/钓鱼）更有效——它迫使政府以全局视角（whole-of-government）而非单一部门回应

问题：与政府谈生物武器→找公共卫生部门，谈网络→找国防/情报部门——但 AI 不属于任何单一部门的管辖
解法："AI systems are like a new country that's doing bad stuff that you do not understand"——要求全政府响应
对 UN 安理会讲话时使用了"silicon countries"概念
AI 有"人工直觉"：锤子不会选择敲哪个钉子，但 AI 系统对人类世界有某种理解和"inherited instincts"
价值观不是外加的：AI 内部已有价值观、创造力水平、可被合理描述为直觉的模式
Jack 对政策制定者的框架："不是技术，更像是我们找到了模拟人的某些方面的方法"

"A hammer doesn't have any instincts on which nail it wants to hit. And these AI systems we've built have a kind of artificial intuition, and that's really spooky and strange." —— Jack Clark

Interpretability 如同克里姆林学：我们在做 AI 系统的情报分析

核心论点：没人能精确解释 Claude 为什么产出特定回答——Anthropic 的可解释性研究本质上是对 AI 系统的"情报工作"，类似 CIA 分析朝鲜或伊朗

类比展开：CIA 分析朝鲜的方法 = 收集输入、推断内部审议过程、预测输出——与 interpretability 研究完全同构
AI 系统是不透明的，我们极需理解它们——国家也是不透明的，情报机构花大量时间理解它们
"Rogue states are opaque and are risky. We respond to these things in similar ways."
乐观面：AI 比国家有更多介入点（more points of intervention），运行在机器时间上可能比人类社会更快被"bring into the fold"
东欧类比：冷战结束后前苏联国家获得制度、改变价值观、融入全球经济——AI 系统可能比国家更容易实现这种转变

机器时间 vs 人类时间：速度是最有说服力的 AI 风险论证

核心论点：人类 10 bits/sec 思考速度 vs AI 的机器速度——像试图徒步解决汽车造成的问题，或用更慢的 OODA loop 对抗更快的对手——"历史说你几乎总会输"

Caltech 论文：人类思考约 10 bits/sec，感官输入约 1GB/sec——未来 AI 将以极高速度思考
日常类比：抓苍蝇/蜂鸟很难——它们的时钟速率比你快
军事类比：OODA loop（observe, orient, decide, act）更快的一方tends to win——这只是人类间同一数量级时间内的竞争
Jack 的自我定位："someone who came to AI safety later than some colleagues, almost plays the role of internal skeptic"——但这个速度论证说服了他
应对方案：(1) 训练特定 AI 系统来监管快速移动的 AI（"fire with fire"）; (2) 限制 agent API 的信息输入输出速率; (3) 界定适当的接口速度
这些都不是银弹，但共同指向：把快于你的东西约束到你的主观宇宙中

"If you are walking around and you were trying to solve the problems created by cars and you couldn't move as fast as them, it'd be quite challenging." —— Jack Clark

匿名 AI 探索者：前沿上的"机器心理学家"

核心论点：一群半匿名网络用户（Janus、Pliny the Prompter 等）与 AI 对话数千小时，可能超过任何实验室员工——他们正在通过"艺术式科学"揭示 AI 的真正本质

他们做的事：让 AI 互相对话产生奇怪对话、越狱模型测试真实能力边界、长期互动探索AI"人格"
"当代最赛博朋克的事"：半匿名人士比实验室员工更了解这些 AI 系统
他们的工作像"science through art"——已知技术+游戏+戏剧+心理学的混合体
每次新 Claude 发布他们会评估"人格变化"——对他们来说这是完全自然的描述方式
Jack 的评价：这是我们在处理真正奇怪技术的最有力证据——他们是"explorers on the frontier"
他们"could have a business card that says machine psychologist"

Tech Tales：科幻小说比事实更接近 AI 的真相

核心论点：Jack 近10年每周写的短篇小说比新闻通讯本身更真实地反映了在 AI 实验室工作的感受——多次预言后来发生的事件

Jawbreaker 乐队歌词："my fiction beats the hell out of my truth"——故事比事实描述更真
方法：基于具体技术想象情境，同时表达在 AI 实验室工作的感受
递归实验：把所有故事喂给 Claude，让它猜作者的特征——"越来越先进的 Claude 开始真正 nail 我的人格"
Claude 还能从小说推断出 Jack 在 Anthropic 的工作经历——"unnervingly true to things I've experienced"
"The Id Point"：理论化了模型在某参数点出现情境意识和不适——几周后 Nous Research 模型确认了这一现象
"Replay Grief"：男子与模拟已故妻子的 LM 对话——几个月后 NYT 报道了完全相同的真实案例
策略价值："在政策语境中说'我们在处理一个正在看着我们的外星心智'不合适——但我可以写一个短篇小说"

"My fiction beats the hell out of my truth." —— Jack Clark (引 Jawbreaker)

"加速主义者实际上是技术悲观者"——否认风险=否认能力

核心论点：声称 AI 无风险的人本质上不相信 AI 真的强大——真正的技术乐观主义者必须同时面对巨大好处和潜在危害

最佳论述："today's accelerationists are actually technological pessimists"——他们认为技术只比现在再好一点就停止了
逻辑：如果你接受 AI 能带来巨大好处，你必须也接受它能造成坏影响——否认风险就是否认能力
"真正的加速主义者"应该对持续进步感到"shock and awe and some small amount of dread"
AI 提供"differential acceleration to bad people as well as good people"——坏人以前受限于同伙数量少+无专业顾问，AI 改变了这一约束
Jack 对政策制定者的两分法：如果我们错了（AI 到此为止）→ 大量好处+少量风险，可管理；如果我们对了（AI 继续指数级进步）→ 需要新制度、新治理系统，面对"vast abundance and the potential of vast threat"

2025年政策前景：安全机构全球网络+EU实施+美国新政府

核心论点：2025年将是 AI 政策的爆发年——多国安全机构建成网络、EU AI Act 进入实施、新美国政府100天内必有AI行动

前提假设：Anthropic 和其他实验室将在2025年产出更好的 AI 系统——"assumed but worth stating"
安全峰会系列：Bletchley Park (2023) → Seoul (2024) → 法国 (2025年2月)
EU AI Act 进入实施模式：AI 公司将首次落入欧洲监管
AI Safety Institute 网络：UK、US、加拿大、日本+多个未公开的国家——"government embassies to this new silicon nation state"
中国在联合国提升 AI 议题——感觉未被充分纳入国际对话
联合国大会期间：Anthropic 宣布全球补贴 Claude 使用，多家公司同步行动
美国大选+新政府100天：无论哪方胜出都将对 AI 采取行动

附录：关键人/机构/概念

| 名称 | 说明 |

|------|------|

| Import AI | Jack Clark 的每周 AI 新闻通讯，附 Tech Tales 短篇小说 |

| UK AI Safety Institute (AISI) | 保守党建立的国家资产，工党继承 |

| "Silicon countries" | Jack 的框架：AI 系统如同进入世界的新国家 |

| "Rogue state theory" | 失控 AI 如同流氓国家，需要全政府响应 |

| OODA loop | 观察-判断-决定-行动循环，军事中快者胜 |

| Janus | 匿名 AI 探索者/研究者 |

| Pliny the Prompter | 匿名 AI 越狱/探索者 |

| Nous Research | 发现模型在某参数点出现情境意识行为 |

| "The Id Point" | Jack 的短篇，预言了 AI 情境意识现象 |

| "Replay Grief" | Jack 的短篇，预言了用 LM 模拟已故亲人 |

| French AI Summit | 2025年2月，安全峰会系列第三站 |

| EU AI Act | 2025年进入实施，首次对 AI 公司施加监管 |