44 min 2025-11

#290.李沐：Voice Agent商业落地的教训、经验与实践

引言：语音代理的技术演进与现实挑战

在人工智能技术快速迭代的背景下，语音代理（Voice Agent）正从实验室概念走向真实世界的商业化应用。本期播客以“语音代理的商业落地教训、经验与实践”为主题，由资深AI领域专家李沐深度分享其团队在过去两年中构建和优化语音代理系统的完整历程。通过两个截然不同的项目案例——一款基于角色驱动的开放式语音互动游戏《Stellar》与一个高度规范化的AI电话销售员系统——李沐揭示了语音代理在实际部署中所面临的复杂性与技术挑战。

尽管当前公众普遍认为语音代理技术已趋于成熟并具备大规模落地的能力，但李沐指出，这一判断仍存在显著偏差。他强调：“我们仍处于第一天。” 这一判断并非出于对技术发展的悲观态度，而是基于对系统稳定性、智能水平、延迟控制、合规性及可扩展性的深刻反思。本报告将全面梳理本次访谈的核心内容，涵盖语音代理的基本定义、两大典型应用场景的技术实现路径、模型训练与架构设计的关键决策、评估体系的构建逻辑、以及由此衍生出的行业洞察与未来展望。

一、语音代理的本质：实时性与任务导向的双重约束

在正式进入具体项目分析之前，李沐首先厘清了“语音代理”的核心定义。他明确指出，语音代理并非简单的语音聊天机器人，而是一种具备实时响应能力且以完成特定任务为目标的智能交互系统。

1. 实时性要求：端到端延迟必须低于1秒

语音代理最根本的技术特征是其实时性。与视频生成等可以离线处理的任务不同，语音代理必须在用户发出语音后迅速做出回应，否则将破坏人机交互的自然感。李沐强调：“它的响应必须非常快，比如端到端延迟要在1秒以内。” 这一要求意味着整个系统从音频输入、语义理解、决策推理到语音输出的全流程必须高效协同，任何环节的延迟都会导致用户体验下降。

2. 任务导向而非闲聊：功能边界清晰

另一个关键特征是语音代理的任务导向性。李沐指出：“大多数情况下，语音代理不是用来闲聊的。” 尽管陪伴型对话在某些场景下存在，但绝大多数应用都围绕明确目标展开，如客户服务、信息检索、产品销售、游戏剧情推进等。即使是看似“陪伴”的场景，也往往带有预设目标，例如讲一个故事或完成某个任务。

这种任务导向性决定了语音代理的设计不能依赖通用对话模型的自由发挥，而必须建立在严格的指令遵循机制之上。一旦偏离任务目标，系统即可能陷入无效循环或产生误导性回答，从而影响整体可用性。

二、案例一：开放世界语音游戏《Stellar》——构建沉浸式叙事体验的技术探索

1. 项目背景与核心挑战

《Stellar》是一款于两年前启动、两个月前上线的实验性语音互动游戏。玩家通过语音与主角Stellar互动，共同推动故事情节发展。该游戏设定在一个2000年后的外星世界，Stellar因飞船坠毁而被困，玩家需协助其逃离星球。

该项目的核心挑战在于：如何让一个AI代理同时扮演“游戏设计师”与“演员”双重角色。作为演员，它必须严格符合角色设定；作为游戏设计师，它必须动态构建合理、有趣且非线性的故事情节。

李沐描述道：“这个角色有非常详细的背景设定，可能有几十页，大概20页那么多，这是演员的部分。” 同时，“作为游戏设计师，当玩家和游戏互动时，你需要引导故事情节，如果只是单线故事，那就算不上是代理了，它得有复杂的结构，甚至是图状结构。”

2. 开放式互动中的智能困境

在开放世界游戏中，玩家输入具有高度不可预测性。他们不仅会提出合理问题，还会测试系统的边界，甚至故意制造僵局。例如，在一次早期测试中，玩家坚持拒绝帮助Stellar选择食物，导致系统陷入死循环。

李沐还原了一段原始对话：

“Stellar找到了一些食物，问玩家该吃哪个，但玩家的设定就是我偏不帮你。他说我觉得你什么都不能吃……于是Stella回应说：我想吃肉，但这里好像只有蔬菜。可玩家还是不帮忙，反而说我真的需要你的帮助。玩家仍然坚持说：我不想帮你，如果卡在这里，故事就进行不下去了。”

为应对此类情况，系统设定“试三次后自动随机选择”，结果导致角色“快死了”，玩家嘲讽：“你死定了，真不是个好人。” 这暴露了一个深层矛盾：系统既要保持角色一致性，又要避免陷入无法推进的僵局。

3. 模型训练策略：自研预训练 + 后训练闭环

面对上述挑战，团队采取了分阶段的技术路线：

#### （1）预训练阶段：自建300亿参数模型

当时GPT-4价格昂贵，LLAMA2性能不足，团队决定自研模型。他们使用约5万亿TOKEN的数据进行预训练，语料主要来自小说和角色扮演类文本。该模型在通用任务上与LLAMA2持平，在角色扮演任务上略优。

然而，李沐坦言：“预训练模型要花好几个月，即便你最后性能超过了LLAMA2，但人家还有LLAMA2 70B，所以如果花太多时间在预训练上，可能进展并不会那么理想。” 这成为第一个重要教训：过度投入预训练未必带来边际收益。

此外，由于GPU成本高昂，团队还自建数据中心以降低长期运营成本。

#### （2）后训练阶段：人工标注 + 奖励模型驱动

进入后训练阶段，团队面临更复杂的挑战：如何让模型在开放世界中持续生成合情合理的回应？

为此，团队招募20名标注员，并将其培训为“游戏设计师”。这些标注员负责判断哪些回应符合角色设定、情节逻辑与节奏控制。随后，团队通过自动化偏好学习（preference learning）处理标注数据，构建排序模型。

经过约一个季度的迭代，模型在真人玩家测试中表现超越GPT-4。

#### （3）扩展性瓶颈：提示词工程的不可持续性

随着项目推进，团队意识到：若想将此模式推广至多个游戏和角色类型，依赖人工编写提示词（prompt engineering）是不可持续的。提示词对不同版本的GPT-4极为敏感，且难以复用。

因此，团队转向“奖励模型”范式：训练一个专门用于评估“回应质量”的奖励模型，用于指导后续模型的微调。这标志着从“人工规则”向“自动反馈机制”的跃迁。

4. 关键洞见：通用能力是领域性能的基石

李沐总结道：“即使做游戏听起来简单，但其实也包含大量指令遵循之类的任务。你需要让模型的回答合情合理，所以模型本身仍然需要有足够强的通用能力。”

他进一步指出，即使在特定领域内训练，模型的通用能力仍需达标。他举例说明：

“最好的开放模型或闭源API的通用能力得分是90分。但在你的应用场景里，可能需要通用能力达到85分。如果低于这个水平，你的应用表现就会有一个天花板。”

这意味着：领域专用模型的成功前提是强大的通用基础模型。若通用能力不足，再精细的领域调优也无法突破性能上限。

5. 当前局限：多轮对话质量衰减与多角色处理难题

尽管取得阶段性成果，系统仍存在明显短板：

对话质量在50轮后显著下降：经过长时间交互，模型表现出“智能水平大幅降低”的现象。
多角色处理能力极弱：目前几乎所有语音/视频模型仅能稳定处理两到三个角色，四个角色以上即面临巨大挑战。
世界观设定迁移困难：尽管模型被训练于未来世界设定，但当涉及未明确定义的细节时，仍可能出现“说出一部现在的电影”等严重出戏行为。

李沐直言：“如今的模型在处理复杂的世界观设定和多个角色时依然很吃力，这在目前仍然是个难题。”

三、案例二：企业级AI电话销售员——精准合规下的高可靠性系统构建

1. 项目背景与业务需求

第二个项目聚焦于保险行业的AI电话销售员，目标是在多个国家通过语音通话方式销售健康保险。该项目今年启动，合作方为一家财富500强保险巨头。

与游戏项目的自由探索不同，该场景具有极强的规范性与合规性要求：

用户必须是已有兴趣的潜在客户；
必须通过“电话销售员认证考试”——模拟真人考核，需达到80分以上；
必须达成业绩指标：成功卖出一定数量保单，投诉率低于阈值；
所有信息必须准确无误，错误回答可能导致客户投诉。

李沐强调：“如果你回答最高可以报销600美元，这完全是错的。你这次考试就挂了，因为准确的答案是一些常见的项目可以报销400美元，600美元只适用于门牙。”

2. 精准回应的严苛标准

“精准回应”是该系统的核心能力之一。李沐举例说明：

“如果你说只要牙齿有任何问题那就不对，正确的说法是如果你的牙齿有特定的疾病。”

这表明，系统不仅要理解问题，还需精确匹配产品手册中的条款，任何模糊或泛化表达均属失败。

此外，系统还需处理复杂的组合逻辑，如客户要求“便宜点的方案”，系统需根据价格、覆盖范围、免赔额等维度动态推荐合适产品。

3. 多次拒绝后的策略判断

更具挑战的是社交信号识别与策略切换。系统最多只能尝试三次约访，若三次均被拒绝，则必须停止尝试并重新安排时间。

李沐举出一个典型情境：

“第一次对方说不用了，谢谢；第二次还是拒绝；第三次对方只是哼了一声。你可能会觉得‘哼’代表有兴趣，于是换说法继续。但实际上，你需要判断出这个声音里带着不耐烦，再结合上下文，意识到已经试了三次，应立即重新安排时间。”

这要求系统具备音频情绪识别能力，并能结合历史交互记录进行综合判断，远超传统NLP范畴。

4. 架构设计：两段式级联方案实现高智能与低延迟

为满足实时性要求（端到端延迟<1秒），团队采用两段式级联架构：

1. 理解模型（300亿参数）：接收音频输入，生成文本回应；

2. 生成模型（10亿参数）：接收文本，生成语音输出。

该架构的优势在于：

可异步调用更大模型进行思考（如搜索内部工具、计算组合方案）；
支持上下文工程，动态构建提示词；
易于定制与复用。

李沐进一步解释：“你可以一边听一边逐句生成回应，在这期间你可以异步调用更大的生成模型去思考，比如我怎样才能回应的更好？或者我怎样才能更好的搜索信息，其他部分都可以异步进行。”

此外，系统还引入“组织者”模块，负责：

用户类型识别；
意图分析；
拒绝次数统计；
实时任务追踪。

这套机制确保了系统在复杂环境下仍能保持一致性和可控性。

5. 评估体系：真人测试为主，自动化评估受限

李沐坦承：“对端到端的语音代理进行评估是相当有挑战性的，因为你需要一个真人去打电话，一旦打了电话就很难做自动化的评估了。”

因此，项目初期依赖真人测试，最终通过大半年时间，使模型得分从55分稳步提升至人类水平（80分）。这一过程验证了“评估是关键”，没有真实场景测试，难以掌握系统全貌。

四、核心技术共识：统一架构下的差异化实现

尽管两个项目应用场景差异巨大——一个追求创意与沉浸感，一个强调精准与合规——但李沐指出，其底层技术架构高度一致。

1. 模型架构共通性

无论是游戏还是销售，系统均基于同一套大语言模型（LM），并通过不同数据配比进行持续预训练或微调：

理解模型：需数千小时高质量音频+大量文本数据；
生成模型：需更多高质量音频；
大语言模型：可加入领域特定数据。

这种“共享基础模型 + 场景微调”的模式，极大提升了系统的可扩展性。

2. 数据与评估的差异化

唯一区别在于：

数据：游戏侧重角色设定、叙事风格；销售侧重产品手册、合规条款；
评估方式：游戏依赖玩家体验评分；销售依赖认证考试与业绩指标。

李沐总结：“这两者非常不同，游戏要好玩，电话销售要非常精准，同时还要非常小心的处理用户输入。但我认为现在这项技术已经能够在这些领域落地了。”

五、行业洞察与未来展望

1. 企业服务中开源模型的局限性

李沐特别指出，在企业级服务中，开源模型未必能主导市场。原因在于：

数据安全要求极高：如保险业务，模型数据不能离开国家或公司内部安全组；
合规性壁垒高：需满足本地监管要求；
私有化部署成本高：因此，企业更倾向于自研模型或租用闭源API。

这解释了为何团队虽有开源模型可用，仍选择自建系统。

2. 语音代理的适用边界

李沐认为，语音代理最适合价格在500至5,000美元之间的产品，尤其是那些需要复杂解释、个性化推荐与情感共鸣的产品。

但目前系统尚不具备“通用地销售任何产品”的能力。每推出新产品，仍需大量调优。

3. 未来发展方向

多角色交互突破：解决四角色及以上对话的稳定性问题；
长对话记忆管理：缓解50轮后智能下降的问题；
全双工交互普及：推动端到端全双工模式的落地；
跨场景复用增强：通过标准化评测基准与通用模型，加速新应用开发。

六、结语：语音代理的“第一天”与无限可能

李沐在结尾反复强调：“但我们仍处于第一天。” 这并非否定当前成就，而是提醒业界：语音代理虽已具备初步落地能力，但距离真正“像真人一样自然互动”仍有遥远距离。

他指出，当前技术已在游戏、客服、销售等领域展现潜力，未来几年将迎来更多激动人心的变革。

最后，他呼吁合作与交流：“如果大家有兴趣和我们合作或成为我们的伙伴，请联系我们。我们设有一个展位，我们的联合创始人也会在场，欢迎大家来和我们交流。”

附录：核心观点提炼

| 主题 | 核心观点 |

|------|----------|

| 语音代理定义 | 实时响应（<1秒）、任务导向、非闲聊 |

| 游戏项目挑战 | 开放式叙事、角色一致性、多轮对话衰减 |

| 销售项目挑战 | 精准合规、情绪识别、组合推荐 |

| 模型训练 | 预训练耗时长，通用能力是基础 |

| 架构设计 | 两段式级联 + 异步思考 + 组织者模块 |

| 评估难点 | 真人测试为主，自动化评估难 |

| 可扩展性 | 技术架构统一，数据与评估差异化 |

| 行业趋势 | 企业服务中自研模型更具优势 |

| 未来方向 | 全双工交互、多角色支持、长对话优化 |

报告撰写依据：本报告完全基于提供的播客清洗稿与ASR原文，未引入任何外部信息或推测。所有观点、案例、数据均源自访谈内容，忠实还原原声论述逻辑与技术细节。