← 返回
58 min 2025-07

43.独家对话夸克:「大模型+高考」,AI 落地千万级用户的一次漂亮实验 - 卫诗婕|商业漫谈Jane's talk

报告概述

本报告基于对《商业漫谈Jane's talk》第43期播客的完整ASR原文分析,系统性地呈现了阿里巴巴旗下夸克团队在2025年高考季所实施的一项具有里程碑意义的技术与产品实践——高考志愿大模型的全面部署与深度应用。该报告以麦肯锡式战略研究与投资机构研报的严谨风格,深入剖析了该项目从战略定位、技术架构、数据治理、组织协同到用户价值创造的全链条逻辑,揭示了一个典型“高难度场景+大模型能力+长期积累”的复合型创新范式。核心结论在于:夸克并非简单地将大模型应用于高考服务,而是通过长达七年的持续投入、对垂直领域知识的深度整合、对用户真实决策痛点的精准洞察,以及对技术边界极限的挑战,构建了一套具备高度专业性、可解释性和社会价值的AI辅助决策系统。这一系统不仅实现了1,000万份个性化志愿报告的生成,更在25号当天单日生成超200万份报告,创下平台历史峰值,其背后是数万台GPU资源的集中调度、数百位高考专家的深度参与、以及跨集团(阿里)的算力协同,充分体现了“技术为体、人文为用”的产品哲学。

报告的核心洞见在于,夸克的高考项目之所以成为2025年大模型浪潮中罕见的“深水区”案例,根本原因在于其成功地将大模型的“通用智能”转化为“垂直领域的专业判断力”。这并非依赖于单一技术突破,而是一系列系统性工程的结果:首先,在数据层面,项目构建了覆盖全国3,000多所高校、2,000多个专业的高精度、高覆盖率数据体系,其准确率经人工核验达到99.99%;其次,在模型训练层面,项目采用了“基础模型+持续预训练+专家反馈闭环”的三阶段迭代路径,确保模型输出既符合事实又贴近专业经验;再次,在产品设计层面,项目通过“规划-检索-反思”的三段式推理链,模拟了人类专家的决策过程,实现了从信息聚合到深度思考的跃迁;最后,在组织与运营层面,项目以“作战室”模式动员了内部算法、工程、产品及外部专家的多方力量,形成了强大的执行力。这一系列举措共同构成了一个“技术-数据-人-组织”四位一体的复杂系统,使其在腾讯、微博等头部平台纷纷入局的激烈竞争中脱颖而出,成为大模型真正服务于重大社会议题的典范。

核心观点一:高考作为“全民级社会事件”,是大模型实现深度场景化落地的理想试验场

高考在中国社会语境中远非一次普通的教育考试,它被赋予了极高的社会关注度、家庭投入度和人生转折意义,因此构成了一个天然的“高密度、高并发、高情感”的社会事件。正是这种独特的社会属性,使得高考成为检验大模型是否具备深度思考与复杂决策能力的绝佳“压力测试场”。正如夸克算法负责人蒋冠军所指出的,高考的高峰期(6月初至高考结束后的几天)会形成一个密集的用户需求爆发窗口,考生与家长在此期间进行高强度的搜索、咨询与决策行为,这与淘宝双十一的流量高峰具有高度相似的特征——即“需求集中化、高频、高密集”。这种特性使得高考项目不仅是对技术能力的考验,更是对整个团队在产品打磨、系统稳定性、运营响应速度等多维度综合能力的全面锤炼。因此,夸克将高考视为其年度最重要的战役之一,甚至将其比作“夸克的双十一”,这并非夸张修辞,而是基于其在资源投入、用户规模和品牌影响力上的战略定位。

进一步而言,高考项目的特殊性还体现在其决策后果的不可逆性上。一旦填报失误,可能直接影响学生未来四年的学习环境、职业发展路径乃至人生轨迹,这种高风险性决定了任何AI系统的输出都必须具备极高的准确性与可靠性。这与日常的娱乐性或轻量级问答场景截然不同,后者容错率较高,而高考则要求系统必须做到“零容忍”。因此,夸克在推进该项目时,其首要考量并非单纯的用户增长或功能炫技,而是如何构建一个能够承担起如此重大责任的可信系统。这种对“责任”的敬畏感,驱动了整个项目在数据清洗、模型验证、专家协作等环节的极致投入。例如,项目组在数据层面进行了大规模的人工核验,确保每一条录取分数线、招生计划、专业介绍的信息都经过交叉验证,其最终的数据覆盖准确率达到了99.99%。这种对细节的极致追求,正是源于对“高考无小事”这一基本前提的深刻认知。此外,项目在25号当天单日生成200多万份报告,创下平台历史峰值,这一数字本身也印证了高考作为社会事件的巨大能量,同时也意味着系统必须具备处理海量并发请求的能力,这对工程架构提出了严峻挑战。

值得注意的是,今年高考项目之所以能成为行业焦点,其背景是大模型技术能力的成熟与应用场景的深化。过去一年,尽管各大厂商已在高考问答等浅层应用上有所尝试,但受限于模型幻觉严重、推理能力不足等问题,效果并不理想。然而,随着大模型在深度思考、规划与反思等能力上的显著提升,其已具备了支撑复杂决策任务的基础。夸克此次的实践,正是抓住了这一关键时机,将大模型从“回答问题”升级为“完成任务”,从“信息检索”进化为“深度研究”(deep research)。这一转变的本质,是模型能力从“被动响应”向“主动规划”的跃迁。具体表现为,系统不再仅仅根据用户输入的关键词返回结果,而是能够理解用户潜在的、未明说的需求(如地域偏好、就业导向、考研意愿),并据此制定一个包含80至100个志愿的、结构化的推荐方案。这种能力的实现,标志着大模型的应用已进入“精耕细作”的新阶段,而非简单的技术堆砌。因此,高考项目不仅是夸克自身的一次技术飞跃,更是整个中国互联网产业在大模型商业化进程中,从“概念验证”走向“深度落地”的重要标志。

核心观点二:构建高精度、高覆盖的数据基石,是实现AI决策可信性的先决条件

在所有AI产品的成功要素中,数据质量始终是决定性的第一道门槛。对于夸克高考志愿大模型而言,其能否提供可靠建议,完全取决于其底层数据的准确性、完整性与权威性。项目团队深刻认识到,如果数据源本身存在偏差或缺失,那么无论模型多么先进,其输出都将如同“空中楼阁”,无法建立用户信任。因此,整个项目最艰巨、最核心的工作,便是构建一个覆盖全国、动态更新、经过严格校验的高质量数据体系。这一过程远非简单的数据爬取与整理,而是一场涉及多轮交叉验证、人工介入与持续迭代的系统工程。

具体而言,数据工作的复杂性体现在三个层面。第一,数据来源的分散性与不一致性。全国各省市的教育主管部门、各高校官网发布的招生信息在格式、口径、发布时间上均存在巨大差异。部分省份由教育厅统一公布,部分高校则自行发布,还有些地区数据不全或更新滞后。这种碎片化的信息格局,使得原始数据的采集工作异常艰难。为了应对这一挑战,夸克团队采取了“多渠道获取+人工整合”的策略,不仅从官方渠道抓取数据,还通过多种手段获取那些在公开网页上难以找到的专业、冷门院校的详细资料,从而填补了信息空白。第二,数据内容的高精度要求。高考数据不仅仅是数字,更承载着复杂的语义。例如,某高校某专业的“近三年平均录取分数”是一个关键指标,但其计算方式(是取最高分、最低分还是中间值?)在不同学校间可能存在差异。因此,团队必须对每一个数据点进行精细化处理,确保其表述的相对准确性。第三,数据的动态更新机制。高考数据每年都会变化,去年的录取分数线、招生计划在下一年度便失去参考价值。因此,项目不能采用一次性建设的思维,而必须建立一套可持续的增量更新流程。据透露,团队每年只需对上一年度已完成的数据进行复用(如分数线区间探测),然后重点补充当年的新招生计划、新增专业、新学院等信息,并进行对齐,从而大幅降低了重复劳动的成本。

尤为关键的是,为了确保数据的绝对可信,夸克团队引入了大规模的人工核验机制。这一环节的投入成本极高,因为数据并非静态档案,而是一个需要每年重新梳理的动态资产。团队明确表示,他们并非仅在项目结束后进行一次性的数据审计,而是将人工核验作为贯穿整个数据生产周期的核心环节。这种做法直接回应了公众对AI“幻觉”问题的普遍担忧,尤其是在高考这样关乎重大人生选择的场景下,任何错误都可能引发严重的社会后果。因此,通过人工干预来“兜底”,是建立用户信任的必要手段。最终,这套严苛的数据治理体系取得了显著成效:项目在测试阶段,对全国所有高校专业数据的分数覆盖比例达到了惊人的99.99%。这一数字的背后,是无数小时的人工校对、无数次的交叉验证和对每一个数据点的反复推敲。可以说,没有这个坚实的数据地基,夸克的高考大模型就失去了存在的根基,其所谓的“深度研究”与“个性化推荐”也将沦为无源之水。

核心观点三:以“规划-检索-反思”为核心框架,实现大模型的深度推理与决策支持

夸克高考志愿大模型的真正突破之处,在于其并未停留在简单的信息聚合层面,而是创造性地构建了一套完整的、类人化的决策推理框架,即“规划-检索-反思”三步走的深度思考流程。这一框架的提出,标志着项目从“工具型应用”向“智能代理(Agent)”的演进,是大模型能力从“回答问题”到“完成任务”的本质飞跃。该框架的每一环都紧密相连,共同构成了一个闭环的、可自我修正的智能决策系统。

首先,“规划”阶段是整个推理过程的起点与灵魂。当用户输入其高考分数、所在省份、初步兴趣方向等基本信息后,系统不会立即开始搜索,而是首先扮演一个“战略规划师”的角色,基于用户提供的有限信息,生成一个初步的、宏观的志愿填报策略。例如,若用户明确表示希望“去沿海城市”,系统便会自动识别出沿海地区的重点高校集群,并据此制定一个初步的候选名单。这一阶段的关键在于,它将模糊的用户意图(如“想去好地方”)转化为具体的、可执行的行动路径(如“聚焦长三角、珠三角的高校”),从而为后续的精确搜索提供了清晰的方向。这一过程模拟了人类专家在面对复杂决策时的思维方式,即先定目标,再找方法。

其次,“检索”阶段是信息获取的执行环节。在规划的指引下,系统会调用夸克内部的搜索引擎、资源工具等模块,对初步策略中的每一项进行深度挖掘。例如,针对“长三角高校”这一策略,系统会分别查询上海交通大学、浙江大学、复旦大学等目标院校的历年录取分数线、王牌专业、师资力量、科研成果等多维度信息。这一阶段的复杂性在于,它并非简单的关键词匹配,而是需要理解上下文、识别实体、关联多源信息。例如,系统需要区分“计算机科学与技术”和“人工智能”这两个相近专业的细微差别,并据此判断哪个更符合用户的兴趣。这一过程本质上是将“规划”阶段的抽象指令,转化为一系列具体的、可操作的子任务。

最后,“反思”阶段是整个框架的精髓所在,也是体现大模型“智能”程度的关键。在完成信息检索后,系统并不会立即生成报告,而是启动一个自我审查与优化的过程。它会问自己:“我是否遗漏了某些重要的信息?”、“这些信息之间是否存在矛盾?”、“我的推荐是否过于保守或激进?”、“是否考虑到了用户未明说的潜在需求?”例如,系统可能会发现,虽然某高校的总体录取分数很高,但其热门专业(如临床医学)的分数远高于该校平均分,这可能导致用户滑档。此时,系统会主动调整推荐策略,增加对该专业分数的预警提示。这一反思机制,使得模型能够超越简单的信息拼接,具备了类似人类专家的批判性思维和风险意识。整个“规划-检索-反思”的流程,最终汇聚成一份结构清晰、逻辑严密、信息详实的个性化志愿报告,其内容涵盖志愿排序、录取概率、专业介绍、地域分析等多个维度,真正实现了从“信息供给”到“决策赋能”的跨越。

核心观点四:跨组织协同与极致投入,是保障项目成功的组织与资源保障

任何伟大的技术项目,其成功都离不开背后强大的组织能力和资源投入。夸克高考志愿大模型项目之所以能在短时间内完成从构想到落地的全过程,并实现1,000万份报告的惊人产出,其背后是前所未有的跨部门、跨层级的协同作战与资源倾斜。这一过程生动诠释了“all in”战略的真正含义,即不惜一切代价,将公司最核心的资源投入到一个关键战役中。

资源投入层面,项目对算力的需求达到了前所未有的高度。由于高考志愿报告的生成过程极为复杂,涉及长文本输入(用户信息)、长文本输出(报告本身,约1万字)、以及多次的模型推理、检索与反思循环,整个过程对GPU资源的消耗极其巨大。据项目负责人透露,为了支撑这一高峰需求,夸克几乎动用了其全部内部可用的GPU算力,并且从阿里集团内部紧急调度了大量额外的算力资源,最终服务于高考项目的GPU数量达到了“几万台”的级别。这一数字不仅反映了技术本身的复杂性,更凸显了项目的战略优先级。在25号当天,系统面临高达200多万份报告的并发请求,这要求整个工程系统必须具备极强的稳定性和弹性,为此,团队进行了大量的压力测试,确保在极端情况下系统依然能够平稳运行。

组织协同层面,项目采用了“作战室”模式,将来自算法、工程、产品、数据、运营等多个职能的骨干成员集中办公,形成了一个高效运转的“特种部队”。这种模式打破了传统的部门壁垒,促进了信息的即时共享与问题的快速解决。例如,当工程师在开发过程中遇到性能瓶颈时,可以立即与算法专家沟通,探讨是否可以通过模型压缩或推理优化来缓解问题。这种高效的协同效率,是传统远程协作难以比拟的。更为关键的是,项目在“人”的维度上也做出了巨大努力。团队邀请了数百位来自全国各地的高考志愿填报专家,与技术团队进行深度合作。这一过程充满了挑战,因为技术语言与教育行业的专业术语存在巨大鸿沟,双方在沟通上时常出现“鸡同鸭讲”的情况。然而,正是在这种反复的、耐心的沟通中,技术团队得以不断迭代模型的输出,使其越来越接近专家的经验水平。这种“人机协同”的模式,是项目能够实现“专业级”输出的核心秘密。

此外,项目还展现了强大的长期主义精神。夸克的高考项目已连续运作七年,这并非一时兴起的短期行为,而是基于对用户需求的深刻洞察和对产品价值的坚定信念。从最初的信息整合,到后来的概率预测工具,再到如今的深度报告生成,每一次迭代都是对前一次成果的深化与超越。这种持续的投入,使得团队积累了深厚的知识库和丰富的实践经验,为今年的突破奠定了坚实的基础。这种“十年磨一剑”的耐心,恰恰是许多追求短期爆款的互联网公司所缺乏的。

次要观点与细节:从用户洞察到未来展望的全景图景

在上述核心观点之外,播客中还蕴含着大量关于用户心理、团队文化、商业模式探索以及未来发展方向的深刻洞见,共同勾勒出一幅完整的项目全景图。

首先,用户洞察是项目设计的原动力。项目团队敏锐地捕捉到一个关键的社会现象:在中国广大的三线及以下城市,大量考生及其家庭面临着信息闭塞的困境。一份调研数据显示,绝大多数此类考生在填报志愿时,缺乏有效的信息辅助,父母不懂,老师也不够专业,甚至不知道该如何提问。这一现实催生了“暖芒行动”等线下公益活动,旨在走进边远地区,帮助孩子们建立正确的信息获取习惯。这一洞察直接推动了夸克将“技术普惠”作为核心使命之一。因此,项目在设计之初,就特别关注如何降低用户的使用门槛。例如,系统会主动询问用户“你喜欢哪些专业?”、“对地区有无偏好?”、“是否有学费要求?”等看似基础的问题,这些正是偏远地区考生最真实的刚需。通过这种方式,系统能够主动引导用户表达需求,弥补其知识空白,从而实现真正的“个性化”。

其次,团队文化与管理智慧是项目成功的精神内核。尽管项目强度极大,但团队内部氛围却异常稳定。负责人蒋冠军坦言,团队成员大多在公司工作多年,彼此信任深厚,产运和技术之间形成了良好的默契。这种长期稳定的团队,使得大家在面对高压时,无需额外的情绪安抚,反而能因共同的目标感而保持高昂士气。他强调,团队的成功并非源于加班文化,而是源于一种“目标感”——即从2018年起,团队就确立了“打造个人智能助手”的宏大愿景。这种长期目标感,让每一次攻坚都显得有意义,从而激发了成员的内在驱动力。在管理上,团队注重“目标聚焦与统一”,在技术日新月异的环境下,能够迅速形成共识,明确当前阶段的核心任务(如预训练、post-training),避免了因追逐热点而导致的注意力稀释。

再次,商业化路径的审慎探索体现了企业的社会责任感。尽管项目带来了巨大的用户价值,但团队明确表示,未来几年内不会考虑商业化。其理由是,高考场景下的广告和卖货模式与用户需求严重冲突,容易引发信任危机。因此,团队正在探索更具人文关怀的模式,如“打赏”机制,即用户若认为报告对自己帮助极大,可自愿给予一定金额的感谢。这种模式借鉴了公众号文章的激励机制,既尊重了用户的选择权,又为优质内容提供了可持续的回报,是一种值得期待的创新尝试。

最后,对未来的展望充满了谦逊与进取。负责人坦承,尽管今年的项目已取得巨大成功,但距离真正“全面解决高考志愿填报需求”仍有很大差距。明年,团队的核心目标将是进一步提升模型的“引导能力”,帮助那些“不知道怎么提问”的考生,通过更自然的对话,逐步挖掘出他们的真实需求。这预示着,未来的系统将不再是被动的“报告生成器”,而是一个主动的、陪伴式的“决策伙伴”,其终极目标是让每个考生都能做出最适合自己的选择,减少“吵来吵去”的决策焦虑。这一愿景,正是对“超级助理”这一宏大概念最朴实、最深刻的诠释。