在视频生成这一新赛道上,快手的优势在于数据资源、战略聚焦和组 织架构优势。
通过对快手的历史发展作回溯,我们认为市场忽视了快手起家的技术基因,早期快手凭借 GIF 动 图制作这一工具属性的单点技术,成功向短视频社区转型并商业化。“快手”成立于 2011 年 3 月,前身是“GIF 快手”,是一款动图生成工具,由程一笑创立。彼时创业团队一共 4 人,均是 技术出身。并且早期用户就是极客和有创意的动图爱好者。凭借快速迭代、持续降低动图制作门 槛,以及微博的传播,GIF 快手一度达到千万级别的月活,因此快手前身即更偏工具属性、技术 能力更突出。此后公司在动图基础上上线了配音功能,内容形态转向短视频,以及创作的短视频 可以分发到快手的视频社区中,从而完成从工具属性到短视频社区的转变。2013 年随着宿华加入、 将短视频 feeds 流和算法结合(早于头条系),产品技术能力进一步得到强化。2017 年起公司开 始商业化,搭建商业化中台和团队,在产品团队运营等方面都采取更加主动进攻的姿态,积极布 局出海、AI 等新业态。因此快手历史上就是一个有技术储备和算法实力的公司,技术力帮助快手 顺利从 PC 互联网后期过渡到移动互联网时代,目前可灵有可能作为下一代 AIGC 内容社区的生 产工具,在持续保持领先的情况下再次帮助快手完成移动互联网时代到 AIGC 内容社区的转型。
公司战略上的重视、资源倾斜以及组织架构的稳定统一性决定可灵技术持续领先。 从战略重视程 度和资源倾斜度上看,相比阿里、腾讯、字节等大厂对于 AI 有更为宏观的叙事,涵义底层云服务、全面的基础模型家族、原生应用场景和生态等,快手除了布局自有快意大模型、提升推荐算法模 型效率、赋能现有业务之后,差异化在于将单点的文生视频模型重要程度提到战略级地位。在可 灵项目开始不到一个月,就获得了程一笑的支持,公司的算力和卡也均是全力优先支持可灵。从 组织架构的稳定统一性看,可灵是由万鹏飞带领的视觉算法团队 2024 年 3 月初立项投入,而其中 的核心人员几乎是“固定队伍”,从2022年开始合作,无需再进行磨合。其余几人分别在数据、 推理、产品等层面进行补充,整体团队的模型-产品统一性和稳定性来说都具有优势。因此我们认 为可灵在战略重心的定位下,组织架构稳定统一,内部决策或更加顺畅,对应带来更高效的贯彻 执行力。
可灵的核心团队经验丰富、技术过硬,核心骨干包括万鹏飞、Xin Tao 等人。万鹏飞,现快手视 觉生成与互动中心负责人,本科毕业于中国科学技术大学 EEIS 系,后获得香港科技大学博士学 位,专注的技术方向包括图像/视频/3D AIGC、XR 与数字人、Mobile/Efficient AI 等,曾任美图影 像实验室 MTlab 负责人,2020 年加入快手后长期担任快手 Y-tech AI 技术中心负责人,牵头快手 数字人系列解决方案 。此外,团队的其他核心成员均为视觉算法领域的资深研究骨干、分工明确。 Xin Tao,快手科技视觉生成组(即可灵团队)的高级研究员和技术负责人,主要负责高效视频生 成和编辑系统的研究和部署,2018 年博士毕业后曾在腾讯优图实验室任高级研究员,加入快手后, 在视频处理和分析组、Y-tech 混合现实团队负责牵头实用视频编辑算法的研究和技术转让,以及 用于直播的 2D 数字人综合系统,研究兴趣包括视觉修复和生成。
对于视频模型的持续迭代和优化,我们认为底层数据和语料库是重要燃料,而对数据的精细化标 注和处理是助燃剂。从快手角度来看,一方面数据量的优势体现在,以 2024 年为例,快手平台 每天有超过 4000 万条新视频上传,UGC 产量优势下快手自有场景下就能积累丰富的素材资源。 并且视频资源的场景覆盖面丰富多元,包括影视娱乐、旅游、美食、游戏、宠物等垂类内容,对 于模型生成视频的内容真实和风格多样有益。比如此前快手可灵出圈的“吃面”“吃汉堡”视频 效果突出,这和快手有大量的吃播视频有关,可灵生成的吃饭视频中人物往往有较为大幅度的嘴 部动作和较好的流畅性,生成效果更生动真实。另一方面数据质量的优势在于,快手作为短视频 内容平台,同时基于推荐算法的逻辑,常年对视频进行清晰地标注以进行更精准的内容推荐和分 发。快手早期在全国各地有很多标注基地,可灵大模型团队也对视频数据从视频基础质量、美学、 自然度等多个维度进行描述和定制化标签特征设计,以便精细筛选和调整训练数据的分布。
因此 我们认为,视频数据资源是未来各家持续迭代差距拉开的重要底层因素之一,且底层训练数据的 风格和调性同样决定了推理生成视频的风格。考虑到海外视频模型训练的素材更多来自 YouTube、影视和游戏画面,国内短视频厂商在短视频资源有更高的产量、历史数据标注工作的 积累,且短视频的运镜和镜头切换风格、更聚焦于画面中的单一主体,而不像影视、游戏等有较 大工业化场面,在未来类似广告素材、电商商品等短内容需求下,国内视频生成模型或有望比海 外的适配性更好。 综上所述,在快手技术基因、战略聚焦和组织统一稳定,并且自有场景下源源不断生产数据和进 行精细化的数据标注工作,再叠加快手本身自有渠道的用户量级等多个维度,我们认为快手可灵 具备持续领先的可能性。