41 min 2025-05

AI 下半场：聊透 Benchmark 与 Evaluation | 对谈前 Kimi 产品经理丁丁 - 42章经

报告概述

本报告基于对前 KIMI 产品经理丁丁的深度播客访谈内容，系统性地梳理了当前人工智能发展进入“下半场”阶段所面临的根本性挑战与战略转型路径。核心议题聚焦于模型评估（Evaluation）与基准测试（Benchmark）体系的失效与重构，揭示出在大模型能力普遍逼近人类专家水平的背景下，传统以通用、静态、可刷分的基准测试为核心的评估范式已严重脱离真实业务场景与用户需求，导致“智能水平越来越高，但实际解决问题的能力却未同步提升”的结构性矛盾。这一现象的根本原因在于，现有 Benchmark 多数仅衡量基座模型在孤立任务上的表现，而忽视了端到端产品中涉及的系统级复杂性——包括提示工程（System Prompt）、外部 API 调用（如搜索）、知识库检索、多轮对话状态管理以及最终用户体验的整合效果。因此，评估体系必须从“刷分竞赛”转向“真实场景效用验证”，这标志着 AI 发展逻辑正从“能力挖掘”向“价值落地”发生根本性迁移。

报告进一步指出，这一范式转变催生了全新的产品与研发哲学：定义问题的能力正在超越技术实现本身成为核心竞争力。正如 OpenAI 研究者所强调的，未来的研究者需要具备产品经理的思维，深入理解真实世界中的用户痛点与业务流程，才能设计出真正有效的评估标准。在此背景下，丁丁结合其在微信、美团及 KIMI 的跨平台经验，提出了“评估即产品”的核心理念——一个高质量的 Benchmark 不仅是衡量模型性能的工具，更是驱动产品迭代、定义产品边界、塑造独特用户体验的战略资产。该理念体现在多个维度：首先，Benchmark 的设计必须反映真实的用户行为分布，而非仅关注高频或简单任务；其次，其生命周期应与模型迭代动态匹配，及时淘汰过时题型并引入新挑战；再次，不同业务场景下的评估标准存在本质差异，例如深度搜索追求事实准确性与全面性，而情感陪伴则更看重共情能力与语言风格的自然度，这种差异决定了模型能力的“长板”应服务于特定场景而非泛化。最终，报告深刻揭示了一个被广泛忽视的事实：Benchmark 本身已成为企业最核心的无形壁垒之一，其设计权、控制权和保密性直接决定了模型优化的方向与产品的差异化程度，甚至可能演变为未来竞争的新战场。

核心观点一：AI 上下半场的分野源于评估范式的根本性断裂

人工智能的发展历程可清晰划分为两个阶段：上半场以“能力构建”为核心，下半场则转向“价值落地”。这一分水岭并非由技术突破单方面决定，而是由评估体系的内在矛盾所驱动。在上半场（约2023年初至2024年底），行业共识集中于提升基座模型的通用能力，通过大规模预训练（Pre-training）和后训练（Post-training）技术，不断刷新各类公开基准测试（Benchmarks）的分数。然而，随着模型能力的快速提升，一个日益凸显的悖论开始显现：尽管许多模型在数学、代码、阅读理解等领域的评测中已达到甚至超越研究生、博士生水平，但在真实业务场景中，其实际表现往往仅相当于初级实习生的水平。> “现在的各种看它那个刷分的结果来讲，可能很多AI已经达到研究生、博士生的水平了，但实际上在落地的时候，可能最多连个实习生的水平都还算不上。” 这一现象的根本症结在于，传统的 Benchmark 与真实世界之间存在着巨大的“gap”——它们无法有效捕捉端到端产品中复杂的系统性因素。

具体而言，一个典型的端到端模型产品（如 KIMI APP）的性能并非仅由基座模型决定，而是由一系列协同工作的组件共同构成。这些组件包括但不限于：用于引导模型行为的 System Prompt、用于获取实时信息的外部搜索 API、用于存储和检索领域知识的知识库、以及处理用户请求的接口层。> “比如说你是一个端到端的这个模型产品，那你要去评估的除了基座模型本身的能力之外，你可能还会有在整个流程当中的SYSTEM PROMPT，包括搜索API，可能你还会有知识库、然后接口等等一系列的这个流程，最终共同构成这个用户的体验。” 因此，即使基座模型在独立测试中表现出色，一旦将其置于复杂的系统环境中，其表现仍可能因提示词设计不当、API 响应延迟、知识库覆盖不全或接口协议错误等因素而大幅下降。此外，真实世界的用户输入具有极高的多样性与复杂性，远非标准 Benchmark 中那些结构化、简短的“题目”所能涵盖。> “另外就是你在不同业务或者不同领域内，实际上你的输入可能跟我们看到的那些基准测试的所谓的题目是完全不一样的。” 这种输入层面的偏差，使得高分的 Benchmark 成果在真实应用中难以复现，从而导致“理论先进，实践落后”的尴尬局面。

这一评估体系的失效，本质上反映了从“技术指标驱动”向“用户体验驱动”的范式转移。在上半场，由于缺乏客观、可量化的评价标准，公司不得不依赖 DAU（日活跃用户数）等宏观指标来衡量产品成功与否。> “大家没有一个客观的指标能够评价说你这个东西到底做怎么样。你很难讲说我的模型做了一年就比别人强多少，就 Benchmark 因为大家都知道其实它是可以刷，可以怎么样的，嗯，所以大家要去评判这个东西，不管是要内部定 OKR 、KPI 还是外部去面向资本市场也好，面向用户也好，那能评价的可能就是 DAU 了。” DAU 成为一种“经验惯性”下的无奈选择，但它并不能直接反映模型能力的优劣，反而可能诱使团队陷入“流量竞赛”的陷阱，牺牲长期的技术积累以换取短期的用户增长。因此，AI 下半场的开启，正是为了打破这种唯指标论的困境，将评估的重心从“有多少人用”转移到“用了之后解决了什么问题”。

核心观点二：评估体系的重构要求“定义问题”能力成为第一生产力

在 AI 下半场，评估体系的重构并非简单的技术升级，而是一场深刻的认知革命，其核心在于重新定义“什么是好”的标准。> “在这一阶段可能定义问题会比原来的去把现有的一些benchmark刷分更重要。” 这一观点颠覆了过去“先有模型，再找问题”的线性思维，转而强调“先有清晰的问题定义，再有有效的解决方案”。这意味着，一个优秀的 AI 产品经理或研究者，其首要能力不再是编写复杂的算法或调参，而是深刻理解用户的真实需求，并将其转化为可量化、可验证的评估目标。这种能力的缺失，正是导致当前“智能水平高但效用低”现象的关键原因。

具体而言，问题定义的难度体现在多个层面。首先，评估标准必须与业务场景深度对齐。以深度搜索为例，一个理想的评估标准应要求模型不仅能准确回答问题，还需基于索引到的所有数据源，提供一个尽量真实、全面且无遗漏的回答。> “如果你是做深度搜索，那你会希望模型的输出是什么？我觉得大概率你会希望它能够基于你索引到的所有数据源，给出一个尽量真实的，并且全面的这样子的一个要求。” 然而，对于情感陪伴类应用（如 CII），上述标准则完全不适用。> “但如果你是一个比如说CII吧，它可能是一个情感陪伴类的。那刚刚那个标准就变得不重要了，你不希望他在情感陪伴的时候说出根据你的心情状态。我对你有以下几个建议：一、什么？二、什么？” 结构化的、像分析师一样的回复，恰恰违背了情感陪伴的本质——即提供一个温暖、自然、富有同理心的对话伙伴。因此，评估标准必须根据场景进行动态调整，其优先级也需重新排序。在情感陪伴场景中，对用户意图的理解、语言的口语化程度以及表达的情感温度，其权重远高于事实的绝对准确性。

其次，评估标准的制定过程本身就是一种“隐含价值观”的映射。> “你会发现，我们整体上是一个人类价值观的一个映射。” 这意味着，评估标准并非纯粹客观的科学测量，而是包含了设计者对“何为好”的主观判断。这种判断可以分为两种：一种是社会约定俗成的共识，如数学题的唯一正确答案；另一种则是更高阶的、更具启发性的“醍醐灌顶”式答案，它可能挑战常规，但能带来更深层次的理解。> “比如说就是在做题啊，然后在生产力的很多场景，这个现在还是WORK的。但是比如说刚刚我们讲的一些场景，有的时候就会想说啊，这样就是完全准确的嘛？不好说对。” 在后者场景中，不存在唯一的“正确答案”，评估标准的制定变得异常困难，这也解释了为何此类产品在早期难以建立统一的 Benchmark。

最后，这一范式要求评估体系具备高度的动态性和适应性。> “当模型某一个维度上的这个能力通过一个BENCHMARK已经解决了，那这个BENCHMARK的生命周期可能就结束了。” 因此，一个高效的评估体系不应是一套固定的、静态的测试集，而应是一个持续演进的“活体”系统。它需要根据模型能力的迭代、用户需求的变化以及新出现的业务模式，不断进行“新陈代谢”——淘汰过时的题目，引入新的挑战，确保评估始终能推动技术向前发展。这种动态性要求团队具备极强的敏捷性和前瞻性，能够预见未来的需求，而非仅仅回应过去的成果。

核心观点三：Benchmark 作为核心资产，其设计与控制权构成新型竞争壁垒

在 AI 下半场，一个被普遍低估但至关重要的事实是：Benchmark 本身已成为企业最核心的战略资产之一。> “我觉得BENCHMARK确实是一个核心资产，如果是我的话，我可能就会维护一个只有自己知道的一个BENCHMARK。” 这一观点深刻揭示了评估体系从“评价工具”向“竞争武器”的蜕变。一个精心设计的 Benchmark 不仅能精准衡量自身模型的优劣，更能指导整个研发方向，形成强大的“自我强化”循环。反之，若一个公司的 Benchmark 被竞争对手掌握，其研发策略便可能被预测和模仿，从而丧失先发优势。

这种资产属性主要体现在其不可复制性和隐蔽性。> “这个BENCHMARK甚至我觉得算法团队的同学也不应该知道，因为如果知道了他们可能……在训练的过程当中，会不由自主地让模型去答出这个问题，或者会不会被hack？” 这种“黑箱”特性至关重要。如果算法团队提前知晓了所有测试题，他们可能会在训练过程中刻意优化模型以应对这些特定问题，导致模型在真实世界中面对未知挑战时表现不佳。这种“过拟合”风险，使得 Benchmark 的保密性成为维持其有效性的重要保障。因此，最佳实践是将 Benchmark 的设计与算法训练过程严格隔离，仅在模型上线前进行一次“压力测试”，以确保其评估结果的真实性。

此外，Benchmark 的设计权直接决定了企业的创新方向。> “最终让各家模型产品拉开差距或表现出各自特点的，恰恰是可能他们对BENCHMARK在出题上这件事的不同定义。” 这意味着，不同公司可以通过设计截然不同的评估标准，来引导模型向不同的能力方向发展。例如，一家专注于金融分析的公司，其 Benchmark 可能会设计大量涉及复杂财务建模、市场趋势预测的题目；而一家专注于创意写作的公司，则可能更侧重于评估模型的语言风格、叙事连贯性和情感张力。这种差异化的“出题”策略，使得每家公司的模型都形成了独特的“性格”和“专长”，从而在激烈的市场竞争中建立起难以逾越的护城河。

一个极具说服力的案例是 DeepSeek 的崛起。> “很大的原因是大家觉得DEEP SEEK的文风特别的有意思，因为显得非常的有哲思和优雅。” 这一现象背后，是 DeepSeek 团队对“什么是好”这一问题有着一套清晰且独特的隐含标准。他们认为，一个优秀的回答不仅要有正确的信息，更应具备思想的深度和表达的艺术性。这一标准在当时并未被主流认知所接受，但正是这种前瞻性的定义，使其在众多模型中脱颖而出，赢得了用户的青睐。这表明，一个成功的 Benchmark 并非仅仅是技术指标的堆砌，更是对企业愿景、文化价值观和对未来的深刻洞察的体现。

核心观点四：AI 产品经理的进化：从“功能设计师”到“系统架构师”

随着 AI 技术的演进，产品经理的角色也发生了根本性的重塑。> “我觉得相同的地方是懂用户，然后相同的能力点叫做翻译能力。” 这一能力的核心，是从用户模糊的、感性的需求中，抽象出清晰、可执行的产品目标与评估标准。在古典产品时代，这种“翻译”主要体现在将用户需求转化为交互设计和功能模块；而在 AI 时代，这一能力被扩展为将复杂的业务流程抽象为可衡量的评估指标。> “可能今天在模型你就是把业务的整个的流程抽象出一种好的评估的标准、观测的指标。” 这要求产品经理不仅要懂用户，更要懂模型、懂数据、懂系统。

与此同时，产品经理的技能组合也发生了显著变化。首先，动手能力（Hands-on Ability）的重要性空前提升。> “然后你不需要像过去的产品一样有非常强的模块流转的这个意识，而是你要完全丢掉这个意识。就你就把自己当一个产品经理，当一个设计师，同时再当一个前端。” 这意味着，一个合格的 AI 产品经理必须具备“全栈”思维，能够亲自尝试使用不同的模型（如 Claude、GPT 等），利用其 API 快速搭建原型，甚至参与部分前端开发。这种亲身体验是理解模型能力边界、发现潜在问题、激发创新灵感的最有效途径。> “然后你去玩。” 这种“玩”的精神，是探索未知、拥抱不确定性的关键。

其次，对模型能力边界的理解（Understanding of Model Capability Boundaries）成为一项核心素养。> “这个过程我觉得还是需要很多时间去积累的。” 这并非一蹴而就，而是需要通过持续不断地使用、实验和观察来积累。一个有效的实践方法是“用 AI 做 AI”——将自己想要实现的功能，直接用自然语言描述给模型，让模型帮你生成交互逻辑、制作原型图，甚至写出代码。> “比如说以前 c 端我们除了 PRD 之外，可能我们先要花一个交互，对吧？那你可以试着把你想要的这个交互逻辑清楚地说出来，然后让CLOUD可能帮你去制作一个交互。” 这一过程不仅能快速验证想法，更能直观地感知到模型在哪些方面能力强大，在哪些方面存在局限，从而避免盲目乐观或过度悲观。

最后，对前沿技术的持续学习（Continuous Learning）不可或缺。> “我自己会日常去看那些论文。” 尽管 AI 产品经理无需像算法工程师那样深入理解论文的数学推导，但必须具备解读前沿论文的能力，了解最新的技术趋势、范式变革和潜在风险。> “但是在讲一些比如说比较前沿的一些判断的论文，其实你也可以搭配着去看一些对嗯。” 这种学习习惯，使得产品经理能够站在更高的视角，预判技术发展的方向，从而在产品规划上占据先机。

次要观点与细节：评估体系的多维构成与实践挑战

在探讨核心观点的同时，播客中还蕴含着大量关于评估体系运作细节的深刻洞见。首先，评估体系本身是多元化的，不能单一依赖某一种方式。> “我们所说的BENCHMARK有哪几种来源？一种是刚刚说的一些基准通用的BENCHMARK，然后还有一种可能就是用户线上真实的反馈，可能是关联比如说DAU或者用户使用的；然后还有一种是人工构造的BENCHMARK，然后包括合成数据的BENCHMARK。” 这三种来源各有优劣：通用 Benchmark 提供了标准化的参照系，用户真实反馈（如 DAU）提供了海量的、动态的“现实世界数据”，而人工构造的 Benchmark 则允许团队针对特定目标进行精确设计。理想的状态是将三者有机结合，形成一个立体的评估网络。

然而，实践中最大的挑战在于数据的质量与噪音。> “但是问题就是用户的输入很多时候的噪音太大了。” 一个来自短视频平台（如快手）的用户与一个使用专业生产力工具（如撰写50轮上下文的调研报告）的用户，其提问方式、语言风格和期望结果天差地别。> “比如说一个快手来的用户和一个真正的生产力工具聊，比如说50轮上下文，最终输出一个调研报告的用户。他的数据可能完全不一样。” 因此，单纯依赖用户数据进行模型训练，极易导致模型“学坏”——即学会迎合低质量、娱乐化的输入，而忽略严肃、专业的任务。解决之道在于，必须对用户数据进行严格的筛选和标注，确保其与目标业务场景高度对齐，即“高质量的数据和我们想要提升的模型能力之间，它必须是 align”。

另一个关键细节是评估指标与最终用户指标之间的强关联关系。> “所以 Benchmark 和最终的用户指标是一个强关联关系吗？” 一个合理的假设是：如果一个 Benchmark 的分数提升了，那么相应的用户指标（如留存率、使用时长、任务完成率）也应该随之改善。> “就你们会看，比如说我今天出那个 benchmark 然后如果它变得更好，理论来说这些用户指标应该变更好才对。” 如果两者背离，说明该 Benchmark 已经失效，必须立即进行修正。> “如果没有变更好，就是你要去改你的 benchmark 至少要让他们去不断的 align 不然你的评估就没有意义。” 这种动态校验机制，是保证评估体系生命力的关键。

此外，评估过程本身也存在“自指”风险。> “你这个用大模型去评价自己模型的任务完成的效果和你用人最终去评价你端到端的这个效果。” 当使用大模型（如 GPT-4）自动打分时，其评分标准可能与人类真实体验存在偏差。> “诶，模型去自动打分，然后打出来发现跟真实的用户体验之间它其实有gap。” 这种“评估的评估”必须持续进行人工校验，以确保自动化评估的可靠性。

总结与启示：迈向以“效用”为核心的 AI 新纪元

综上所述，本次对谈深刻揭示了 AI 发展进入下半程的深层逻辑。从“能力竞赛”到“价值落地”的范式转移，其核心驱动力正是评估体系的失效与重构。一个高质量的 Benchmark 不再是冰冷的分数，而是连接技术、产品、用户与商业价值的桥梁。它要求从业者具备前所未有的综合能力：既要深谙用户心理，又要精通系统架构；既要敢于定义问题，又要善于动手验证；既要保持对前沿技术的敏锐，又要坚守对真实效用的执着。

对于创业者而言，一个关键启示是：在模型能力趋同的今天，真正的护城河不再仅仅是模型本身，而是你如何定义问题、如何设计评估标准、如何构建独特的系统性解决方案。> “所以，以你的模型产品的视角，如果你是半年前的梁文峰，你要不要接那些DAU跟数据？” 即使资源有限，也应优先考虑获取高质量、与业务高度相关的数据，因为它们是定义好 Benchmark 的基石。而对于招聘，寻找 AI 产品经理的标准也应从“懂技术”转向“懂用户、懂系统、懂创造”，其标志是拥有“全栈”思维和持续探索的热情。

最终，这场对话指向一个更为宏大的命题：AI 的终极目标不是创造一个无所不能的“超级大脑”，而是构建一个能够真正理解人类需求、融入人类生活、并持续创造价值的“智能伙伴”。而这一切的起点，始于我们能否提出一个足够好、足够真实的问题。> “所以，以你的模型产品的视角，如果你是半年前的梁文峰，你要不要接那些DAU跟数据？” 这不仅是对资源的选择，更是对使命的叩问。