← 返回
120 min 2025-10

136: Sora新世界 & Lovart 4个月复盘 | 与陈冕聊怎么做垂类Agent

概述

访谈概述

本场播客以“Sora的发布”为引子,深入探讨了AI视频生成技术对内容创作、社交形态与消费级应用格局的颠覆性影响,并延伸至垂直领域AI Agent的发展路径、全球化布局及创业公司在巨头主导生态中的生存策略。主持人与嘉宾围绕OpenAI最新产品Sora的第一手体验展开对话,逐步从技术现象观察跃迁至产品哲学思考,最终落脚于中国AI创业团队如何在全球化竞争中构建差异化优势。

核心议题包括:

  • Sora的技术突破及其作为“AI社交产品”的本质定位
  • AI驱动下的创作平权与人机协作范式重构
  • 垂直领域Agent的产品设计逻辑与商业模式演进
  • 中美AI生态差异与全球化战略选择
  • 创业公司如何在大模型时代通过“预判+响应”实现非对称竞争

参与人员:

  • 主持人:未具名(代表行业观察者视角)
  • 嘉宾:王志鹏(Lavie/Lever创始人,早期使用并深度解析Sora;注:播客标题提及“陈冕”,但实际发言者为王志鹏,可能存在信息混淆)

讨论结构:

1. 第一部分:Sora的技术冲击与社交基因觉醒

2. 第二部分:从工具到平台——AI原生产品的范式跃迁

3. 第三部分:创作平权理念与Lavie的产品哲学确立

4. 第四部分:全球化用户洞察与组织能力建设

5. 第五部分:AI Agent的商业模型与未来爆发临界点

6. 第六部分:技术预判机制与非对称创新策略

核心观点与论述

观点一:Sora标志着AI视频生成进入“可用化”阶段,开启沉浸式表达新时代

#### 主要论述

Sora不再只是实验室中的演示系统,而是具备完整用户流程和高质量输出的成熟产品形态,首次实现了从文本到视频的低门槛、高保真创作,真正迈入“好用”而非“能做”的阶段。

#### 支撑论据

  • 用户体验极为顺滑,即使无引导也能快速上手,体现出极高的产品设计成熟度。
  • 在动作连贯性、光影细节、镜头运动等方面均远超预期,视觉质量接近专业影视制作水平。
  • 支持音画同步生成,音频元素显著增强情感传递与真实感,形成“沉浸式表达媒介”。

#### 具体案例

  • 输入“我和 Sam walking on the street”,生成9秒自然行走视频,人物姿态与环境互动高度可信。
  • “竹林对决”场景成功实现复杂动作调度与氛围营造,显示模型对抽象概念的理解能力。
  • 开启声音后发出感叹:“感觉新世界的大门被提前打开了”,反映个体认知被颠覆的真实反应。

观点二:Sora展现出真正的“镜头语言”能力,突破传统生成模型局限

#### 主要论述

Sora不仅生成静态画面序列,更具备分镜设计、运镜逻辑与叙事节奏控制能力,标志着多模态AI在语义理解与艺术表达层面的重大跃迁。

#### 支撑论据

  • 能根据脚本还原经典电影场景(如《无间道》屋顶对峙),说明其具备情节结构、角色情绪与视觉张力的深层理解。
  • 镜头切换、视角变化、时间节奏符合影视美学规范,非随机拼接,体现系统级的叙事组织能力。
  • 可通过GPT辅助撰写脚本后导入Sora,生成具有起承转合的9秒短片,包含特写、远景、慢动作等专业镜头语言。

#### 关键意义

这表明AI已从“可视化工具”升级为“叙事引擎”,为大众提供前所未有的创意表达自由。

观点三:Remix + Cameo = AI社交产品的核心范式

#### 主要论述

Sora的本质不是内容生成工具,而是一个以“合拍+Remix”为驱动的社交创作平台原型。其成功源于对人际互动场景的精准把握。

#### 支撑论据

  • Cameo功能是引爆点:允许用户与朋友、名人或虚拟角色“合拍出镜”,强化身份代入与情感连接。OpenAI官方承认:“如果没有Cameo,就不会有这款产品。”
  • Remix机制构建共创闭环:左右滑操作触发“点赞、评论、Remix”新三元按钮,将二次创作嵌入最基础交互路径,实现AI时代的“接力共创”。
  • 社交裂变效应明显:一位同事用嘉宾人脸生成喊话视频“今天早下班!今天不上班了!”,引发强烈共鸣,激发持续参与意愿。

#### 对比分析

  • Meta于2023年9月发布的Vibes虽早于Sora四天,但缺乏独立应用形态与Cameo功能,仅作为Meta AI的信息流存在,未能形成传播势能。
  • B站“梗模仿”、剪映“剪同款”实为前AI时代的民间Remix实践,而Sora将其自动化、系统化、社交化。

#### 结论

Sora的成功并非单纯依赖模型先进性,而是通过社交机制设计激活了用户的创造力与分享欲,完成了从“工具”到“平台”的范式跃迁。

观点四:AI推动“创作平权”,重构创作主体定义

#### 主要论述

AI的意义不在于替代专业设计师,而在于打破技能壁垒,使更多非专业人士也能实现高质量创意表达,实现“想象力的普惠化”。

#### 支撑论据

  • 创作者身份不应被职业标签垄断,普通人同样拥有表达欲望。
  • 技术进步应服务于降低门槛,而非加剧资源集中。
  • 尽管传统“专业设计师”岗位数量可能减少,但广义上的创作者群体正在显著扩大。

#### 具体案例

  • LoRA模型流行期间,大量用户上传个人照片生成艺术写真,体现了普通人对自主创作的强烈意愿。
  • 用户在婚礼、纪念日等情感节点倾向于亲自参与设计,以完整传递个人情感和记忆。

#### 产品定位升华

Lavie提出“Design Agent for everyone who wants to create”,即服务于所有有创作意愿者的AI设计工作室,强调:

  • 不是给“每一个人”用的产品,而是给“每一个想创作的人”用的工具;
  • 角色类比人类设计团队——当用户需要高质量输出时,Lavie即成为其身边的AI创作机构。

观点五:中美AI发展已进入“同频共振”阶段,地理边界模糊化

#### 主要论述

当前中国与美国在AI关键技术概念的认知节奏上高度一致,信息传播速度极快,几乎不存在明显的时间差。

#### 支撑论据

  • 在“reasoning”、“IO”、“agent”、“context”等关键议题上,中美两地几乎同时兴起讨论热潮。
  • 年初中国可能略有滞后,但至年中已实现全面同频,甚至在某些趋势反应速度上更快。
  • 华人背景创始人多集中在南湾帕洛阿尔托,而美国本土AI应用公司(如Midjourney、Crayon)则聚集于旧金山市区,形成新的创新地理分布。

#### 文化差异洞察

  • 美国创业者呈现“兴奋型内卷”——因机会巨大而积极投入;
  • 中国初期偏“焦虑型内卷”,但近期热度上升,创新动能加速释放。

#### 启示

全球化不仅是技术输出,更是对目标市场用户心智、使用习惯与商业文化的深度理解。

观点六:AI不是替代人类,而是重构人机协作关系

#### 主要论述

AI将承担初稿与底稿生成任务,释放人类于重复性劳动之外,转向更高阶的优化与创新工作。

#### 支撑论据

  • 若设计师仅从事模仿或复制他人作品,未来将面临职业挑战;
  • 具备提升内容上限能力的人类创作者仍具不可替代价值。
  • Lavie的目标是成为“设计师智能体”(designer agent),为专业及半专业人士提供灵感支持与基础产出。

#### 协作模式设想

  • AI完成80%的基础构建(构图、配色、风格迁移);
  • 人类在此基础上进行20%的精细化调整与创意升华。

#### 典型案例

  • MidJourney之所以领先,正是因其精准定位为“创意发散工具”,而非完整设计平台;
  • 输出导入Photoshop完成最终创作,形成“AI灵感 + 人工深化”的协同流程。

观点七:AI Agent的商业模型趋于清晰:订阅制为基础,按结果计费为未来方向

#### 主要论述

AI Agent的经济模型已初步显现,未来将从固定订阅向基于服务深度与交付成果的弹性定价演进。

#### 支撑论据

  • 类比律师、设计师等专业服务,任务复杂度、响应时间与资源投入决定成本层级;
  • Agent可根据需求配置不同推理时长(15分钟、两小时或持续运行),对应不同费用等级;
  • 定价逻辑背后是上下文采集广度、推理复杂度与工具链调用深度的技术维度差异。

#### 具体设想

  • 用户让Agent执行短期查询 vs. 长期研究项目,系统可据此提供分级服务并动态计价。

#### 现实挑战

  • 当前ARR已超3,000万美元,但仍无法覆盖API调用成本;
  • 免费用户额度实际消耗高昂,付费转化需周期;
  • 团队对长期模式“并不困惑”,展现出强烈信心。

观点八:垂直领域应用的核心价值在于“塑造灵魂”,而非复制大脑

#### 主要论述

应用型公司不应试图与大模型竞争通用智能,而应聚焦专业化场景,利用大模型基础能力,构建面向特定角色的工作系统。

#### 支撑论据

  • 大模型造的是“大脑”——通才型智能体;
  • 垂直公司要做的是赋予“灵魂和技能”——如同将一名通识人才培养成合格的设计师或导演。
  • 专业能力的本质是经验,而非智力。

#### 核心壁垒构成要素

  • 垂直场景的数据积累(post-train优化)
  • 用户行为洞察
  • 专业流程沉淀
  • 特定领域的VIBE(交互范式、工作流、使用习惯)

#### 产品落地:ChatCanvas的设计理念

  • 支持图文混合交互的协作空间,使AI从对话机器人转变为视觉协作者;
  • 模拟真实创作团队中的白板、草稿纸与参考资料桌;
  • 实现“围绕内容沟通”而非“对着人脸说话”。
“如果是两个设计师在开会,他们会如何互动?答案就是共享屏幕、标记区域、即时修改——这正是ChatCanvas试图还原的体验。”

观点九:领先企业的竞争优势来自“技术预判+前置设计”

#### 主要论述

由于应用层企业无法主导底层模型创新,其增长核心在于对技术拐点的预判能力,并在模型成熟前完成产品设计与工程验证。

#### 支撑论据

  • GPT-4o Image One、Nano Banana、Seed Dreamsterling等模型相继突破复杂指令理解能力;
  • Lavie团队早在GPT-4 Vision发布前就预判图像理解将实现飞跃,启动Lavares项目探索多轮编辑协作;
  • 成功的应用创新是在技术临界点到来之前完成“从想象到实现”的全链路准备。

#### 关键策略

  • 构建模块化架构,便于新模型接入;
  • 设立“假设性需求池”,针对未来能力设计功能蓝图;
  • 警惕“等模型ready再动手”的认知误区。

#### 信息获取机制

  • 通过非保密渠道(社区讨论、研发交流)感知“下一个关键技术命题”;
  • 与OpenAI初创企业服务负责人共进午餐,了解模型团队攻关重点;
  • 中美技术差距缩小,中国创业者反应速度极快。

关键洞察

| 维度 | 核心洞察 |

|------|----------|

| 技术演进速度 | Sora的发布印证“行业变化比想象更快”,ToC AI应用元年已实质性启动。 |

| 产品范式跃迁 | AI产品正从“内容生成工具”向“社交创作平台”演进,Remix与Cameo是关键机制。 |

| 用户体验本质 | 真正伟大的ToC产品具备瞬间感知的“魔力时刻”(Wow Moment),如ChatGPT、抖音、Sora。 |

| 人机关系重构 | AI不是替代人类,而是成为“类人新人”——需通过实践积累行业经验才能胜任专业岗位。 |

| 全球化战略 | 出海不仅是市场扩展,更是文化翻译过程,必须建立本地化内容与审美表达体系。 |

| 创业竞争逻辑 | 在巨头主导下,创业公司的突破口在于“预判+响应”闭环,抢占落地窗口期。 |

| 基础设施瓶颈 | GPU算力与能源供给滞后,形成马太效应,中小企业面临严峻准入壁垒。 |

实践建议

1. 对AI创业者的行动指南

  • 聚焦细分场景:避免与大模型厂商在通用能力上硬碰硬,深耕Adobe类(创意生产)或垂直领域。
  • 构建专属上下文:通过数据积累、流程沉淀与用户洞察建立“经验壁垒”。
  • 采用“共振设计”原则:产品UI/UX应与技术演进保持同步,提前规划未来交互范式。
  • 坚持有机增长:优先品牌传播与社区口碑,避免过早投放pay ads导致用户结构劣化