文章总结: 本文阐述了抖音流媒体个性化技术实践,构建了L0至L5分级体系,涵盖动作空间与状态空间等维度。文章回顾了技术演进历程,展示了通过算法优化实现体验提升与成本节约的路径,为行业提供了系统性的技术框架与发展参考。 综合评分: 65 文章分类: 其他
解读流媒体个性化技术:分级体系与短视频演化之旅
原创
抖音研发用户体验
字节跳动技术团队
2025年12月30日 17:52 北京
结合团队在流媒体个性化技术上的认知,对流媒体个性化技术进行了维度拆解与分级定义,并概要地讲述了在抖音短视频上的演进历程。欢迎大家阅读了解~
背景
作为主流的短视频应用,抖音在音视频相关工作上,开创性拓展了个性化x流媒体(亦可称之为个性化x视频,或个性化x播放)的全新、学科交叉的技术体系,即,在行业传统上称之为流媒体技术的工作方向上,大量运用了发端于推荐、广告、用户增长等领域的个性化技术并加以深度改造、适配,不仅在超复杂的应用环境中,仍能提升用户体验至最佳水准,带来业务收益的同时有效控制了成本,近3年成本年均优化亦达数十亿。
其中,个性化叙事视角与传统音视频技术全然不同,不同业务或其他公司或许在部分相关工作事项上有所建树,但仍然缺乏对问题和解法的体系化认知,服务水准参差不齐。因此,参考许多其他行业常用的分级方式,我们对相关工作的个性化维度与等级进行了梳理与总结,希望能够帮助音视频领域的工作同学了解前沿水平,也希望引导未来整个音视频领域的相关工作方向。
流媒体技术 – 传统意义上指的是通过网络按序传输多媒体数据(音频、视频、图像等),让用户可以在下载数据的同时实时播放的一种技术和服务方式。针对抖音的主要视频场景,为了在用户观看当前或切换至下一条视频时持续保持流畅,需要预先下载、解码及渲染多媒体数据,以避免播放出现中断或卡顿。此外,系统还通过自适应码率(ABR,Adaptive Bitrate)或多分辨率流技术,根据当前网络环境动态调整播放质量与带宽,在高流畅度、高画质、低带宽成本三大需求之间寻求最佳平衡。
(在个性化 x 流媒体技术语境下,所需平衡的目标和因素,以及相应干预能力均需大幅拓展并重新定义,详见下文)
个性化能力
与传统根据功能列表来确定A公司较B公司技术更先进的比较方式而言,我们认为技术的个性化程度要远为重要,而与传统的按照不同环节划分工作区域相比,依据优化目标划分工作维度更能凸显技术本质,这一理念已经在抖音系的音视频工作中充分实践,并在应用获取市场头部地位的过程中起到了关键作用。
维度拆解
在我们看来,由于工作方向是构建个性化能力,为每个用户打造极致最优的流媒体传输与播放方案,因此应当比照优化问题,从动作空间、状态空间、策略算法等维度进行理解与迭代,同时在对优化目标的理解与度量本身的精度提升也至关重要。
- 动作空间 – 系统中的全部可能的干预点集合,通过扩展动作空间,使得我们可以控制更多的可调变量或干预点,进一步创造出过去未被发现的干预点。如,视频档位选择、视频缓存大小决策、视频预加载数量等。
➤
动作空间的扩展,是复杂业务中获得收益的最重要来源。
- 状态空间– 指系统全部可能的状态集合,这里指能搜集到有利于进行流媒体策略个性化优化的所有特征空间。通过创造新的特征、信号,丰富状态空间,可不断扩展个性化能力的上限。如,基础的用户信息、机型信息;用户实时手势、姿态、行为序列;视频的基础文件信息、内容理解特征等。
- 策略算法 – 当状态空间较小时,基础的个性化能力可仅为简单或复杂的规则;随着状态空间的增加,使用适当的数学模型会有更好的效果;再随着状态空间的更进一步增加,统计机器学习或深度学习模型能够逐步发挥其价值,更为数据驱动式地为用户量身定制流媒体服务。而当动作空间不断扩展时,需要全面统筹不同的干预动作,进行多干预点联合建模优化或者面向最终目标端到端统一建模。
- 规模难度 – 优化的难度和收益均随着业务或问题的规模量级提升而提升,为可实施个性化技术的基础。且高精度下优化的理解与度量本身即具备极高的技术门槛。
➤
面向百万用户群体下,不值得去做的事情,在面向亿级群体时会变得十分有意义;而在面向亿级用户群体时,对于百万用户群体来说的微小问题,也会有很大的负向影响。
➤
抖音目前包含短视频、中长视频、版权视频,覆盖全类型视频内容,包含各年龄段、各知识层级水平的全类型用户,其视频内容与用户的双重多样性,带来远较一般平台更高的优化复杂度。
分级定义
在我们看来,应当将流媒体的个性化等级分为 L0 到 L5共 6 个级别。在对每一级别进行定义的同时,分不同维度进一步拆解定义,此种分级方式能够帮助衡量技术水平,同时指明发展方向。
| | | | | | | | — | — | — | — | — | — | | 级别 | 定义 | 分维度定义 | | | | | 动作空间 | 状态空间 | 策略算法 | 规模难度 | | L0 | 面向功能需求的流媒体系统开发。 | · 解决可用性为主,流程跑通、功能可用。 · 对视频播放作通用处理或有限数量的技术选择。 · 功能需求驱动、Bug驱动。 | | | | | L1 | 基于基础特征的人工规则调整。 | · 建立若干在调干预点,干预点自然、显著且必要。 · 基于经验,进行人工挖掘。 | · 用户信息、机型信息等可以直接收集的基础特征,作为有限离线值域进行使用。 | · 基于单一状态的有限离散值域,制定简单的规则。 · 系统内各模块独立优化,不考虑状态空间联合优化。 · 主要以性能指标的优化为策略目标。 | · 视频全类型覆盖>60%,用户全类型覆盖>60%; · 业务优化精度百分之一。 | | L2 | 对齐人群、设备或视频类别等维度进行策略优化。 | · 建立十级别的在调干预点,基于业务设计非业界通用的干预点。 · 基于经验,借助基础分析工具,进行人工挖掘。 | · 利用较完备的性能特征(百级)和部分业务特征,且能够基于基础特征进行交叉等再加工。 · 支持直接使用连续型值域的原始信号。 | · 系统内部分模块联合优化、多状态组合使用进行策略制定。 · 使用性能和成本目标的影响进行优劣判断。 | · 视频全类型覆盖>80%,用户全类型覆盖>80%。 · 业务优化精度千分之一。 | | L3 | 广泛使用各领域的个性化技术实践,在 User、Item、Context 粒度上进行策略调控,形成领域内的个性化技术范式。 | · 建立百级别的在调干预点,设计各模块间联动的干预点;同一干预点进行深入细化,如扩展值域。 · 建立方法论,基于逻辑推演,借助高阶数据分析工具,进行人工挖掘。 | · 能够结合业务场景定制化特征,能够利用完备的业务特征与性能特征(千级),且能够对特征进行深度加工和有效性检验。 · 支持所有常见特征类型 | · 面向业务建模为主的策略算法,包括留存、时长、营收指标、成本指标。 · 广泛使用端到端模型,从专家策略驱动为主迁移至数据算法驱动为主。 | · 视频全类型覆盖100%,用户全类型覆盖100%; · 业务优化精度万分之一。 | | L4 | 对齐最先进的个性化技术进行策略调控。 | · 建立千级别的在调干预点,设计系统内外协同的干预点。 · 支持半自动化挖掘新干预点,支持自动化评估。 | · 支持运用高阶信号,如 长序列、拓扑图、多模态等,能够提炼深层特征。 · 支持从业务影响度的视角端到端进行特征建设,能够通过数据挖掘技术驱动特征构建。 | · 系统内各模块全链路融合优化;系统外关联模块联合优化。 · 策略全以业务目标建模,统筹单一场景下的多业务协同达到全局最优。 · 面对业务目标具备自适应性,策略可快速适应业务目标的战略调整。 ·广泛使用最先进的个性化技术。 | · 视频全类型覆盖100%,用户全类型覆盖100%; · 业务优化精度十万分之一。 | | L5 | 全系统、全链路精准可感知、精确可计算,形成系统级的跨领域个性化技术范式。 | · 建立万级别的在调干预点,设计全系统、全链路协同的干预点。 · 支持全系统、全链路、全自动化的自主挖掘,取得代码上的最优实现。 | · 多场景多业务联合信号。 · 自动化拓展状态空间,形成挖掘、生产、检验判断的整体技术链路。 | · 考虑多场景、多业务,全系统、全链路的端到端统筹优化,在策略统筹、模型精度、计算复杂度等方面均达到理论最优。 | · 视频全类型覆盖100%,用户全类型覆盖100%; · 业务优化精度百万分之一。 |
名词解释
针对分级定义中包含的各类专有名词进行解释。
| | | | — | — | | _ | 解释(包括 说明、关键词、举例) | | 个性化 | 在每个用户处于不同状态时,观看每个视频过程中,动态决策最优的流媒体策略 | | 最先进的个性化技术 | 在推荐、搜索、广告、用户增长等所有从事个性化的技术领域内,新近产出的大规模落地取得效果突破的技术,包括深度学习模型、LLM、因果推断、最优化建模方法等等 | | 全链路 | 指从视频包括拍摄制作上传的生产端,到服务端视频增强、转码,网络部署调度,客户端下载播放的消费端的整个过程 | | 全系统 | App 内的所有功能和业务、系统和框架 | | 系统级 | 从整体视角来分析和解决问题,对系统内各个模块统筹协调,避免各模块各自为政、互相冲突 | | User | 指产品的用户,主要包含拍摄制作上传作品的用户和观看消费作品的用户 | | Item | 指用户可以交互的对象,如视频、图片、文字、直播流、商品等 | | Context | 上下文信息,这里指用户的历史消费行为数据和当前设备的消费状态等,如用户历史的点赞/转发等交互行为、历史卡顿时长/首帧时长等性能特征 | | 视频全类型 | 所在市场中,所有视频平台内细分内容类型的全集 | | 用户全类型 | 所在市场中,所有视频平台内细分用户类型的全集 | | 基础特征 | 显而易见或广泛使用的特征,比如设备的类型、品牌、型号、硬件性能 | | 自动化 | 指一种方法或运行模式对人工干预的需求度;全自动化即表示方法的执行完全依赖预先设定的程序与流畅,不需要人工干预;半自动化表示方法的执行主要依赖预先设定的程序,但是过程中需要一定的人工干预 | | 干预点 | 可以对不同用户在不同情景下,可调节的参数项及其取值,比如,预加载的视频个数、每个视频的缓存大小、分辨率选择、线程的启动时机 等等 | | 动作空间 | 系统中的全部可能的干预点集合,通过扩展动作空间,使得我们可以控制更多的可调变量或干预点,进一步创造出过去未被发现的干预点 | | 状态空间 | 一般指系统全部可能的状态集合,这里指能搜集到有利于进行流媒体策略个性化优化的所有特征空间 | | 策略 | 为了达成优化目标,决策如何调整系统中干预点的方法 | | 多场景 | 指 App 中提供不同功能的业务场景,如 信息流页面、投稿页面、搜索页面、商城页面 等 | | 多业务 | 指 App 中提供不同价值的业务划分,如 广告业务、搜索业务、直播业务、电商业务 等 | | 多系统 | 服务于流媒体的技术系统,以及与相关联业务的技术系统。如,文件存储系统、视频转码系统、流媒体网络系统;推荐系统、广告系统、电商系统 | | 端到端 | “全链路”的另一种表达,指从视频包括拍摄制作上传的生产端,到服务端视频增强、转码,网络部署调度,客户端下载播放的消费端的整个过程 | | 高阶数据分析工具 | 具备通过复杂的分析手段、机器学习、因果推断、挖掘系统和可视化技术,在简单数据分析之外获得新洞察、发现隐藏模式的数据分析工具 | | 高阶信号 | 需要通过复杂手段或者模型而制得的信号特征,且模型需要为这些信号做定制化适配,如实时化、长序列、多模态、拓扑网络等 | | 数据驱动 | 相对于专家策略驱动来说的,决策时无需过多的人工经验总结,利用数据进行自动决策。例如,使用机器学习技术进行实时决策,替代人工分析数据分布制定不同情景下的具体策略 | | 联合优化 | 考虑多个目标之间的相互关系,通过综合考虑各个目标的取值来找到一个全局/近似全局最优解 | | 融合优化 | 比联合优化更进一步,统一系统内的多个模块及节点进行建模优化 | | 业务目标 | 指期望对用户行为产生的影响,可能包括产品的用户活跃度、观看时长等用户规模相关目标,广告、直播打赏、电商收入等营收相关目标,更宽泛地,还可以包含成本占收比、用户口碑等 | | 性能指标 | 衡量和评估系统效果和效率的指标。如 发布时长、卡顿时长、首帧时长、RTT(数据流往返的网络耗时)等 | | 业务指标 | 每个业务所具体关注、可精确度量的北极星指标。如 用户活跃天数、用户活跃时长、CPM、GMV 等 | | 业务优化精度 | 极致化提升业务指标,不止是技术上追求极致,也是精进对指标的度量能力,如测量出提升核心业务指标 0.001%,需要满足统计学上的“显著性”要求 |
抖音短视频上的演进
自 2016 年启动至 2025 年为止,抖音经历了一段高速发展的进程,并在此期间逐步构建起日渐成熟的个性化流媒体技术能力。纵观这一发展阶段,通过不同部门协作,在诸多关键优化项上持续突破,代表性优化列举如下:
| | | | | | — | — | — | — | | 分级 | 时间周期 | 阶段描述 | 代表性优化项 | | L0 | 2016 年 | 业务功能实现,流媒体链路各环节性能符合基础需求 抖音: 实现基本功能 | – | | L1 | 2016 年 ~ 2018 年 | 在流媒体链路的服务端、客户端等主要环节支持利用用户(设备)、视频的基础信息进行策略干预 抖音: 服务端提供多码率转码能力,客户端支持网速预测、预加载、档位选择等 | * 利用基础信息(如,观看数),使用规则化方法进行转码资源使用 * 利用基础信息(如,设备分、预测网速)进行预加载与播放的过程控制 | | L2 | 2019 年 ~ 2021 年 | 在流媒体端到端链路上的不同环节上,覆盖式建立策略干预点,利用主要用户、视频特征,能够在局部利用复杂算法,并对部分模块能进行联合优化 抖音: 主要的端到端环节完成策略化覆盖,能够综合运用用户、视频等特征,使用了价值预测模型,预加载算法等 | * 基于CAE的视频转码能力 * 基于ROI 区域的编码能力 * 基于视频价值模型预测的转码资源使用策略 * CDN冷热文件调度 * CDN节点调度(质量 & 成本) * 多特征拟合曲线的档位选择 * 预加载算法化 | | L3 | 2022 年 ~ 2024 年 | 支持大量干预点,支持各模块联动,广泛使用画像等经过深度加工的特征,使用复杂算法、模型,并同时平衡各类业务指标如留存类、营收类与成本类等 抖音: 增加了大量可调干预点,同时广泛运用了音视频、网络、设备特征,推荐、商业化、投稿、评论等业务特征,对主要性能维度建设敏感画像,在端内不同组件间、端云之间统筹联动,并与端智能紧密结合,由少数专家驱动过渡至数据、算法驱动的研发模式 | * 视频粒度的档位组合能力(UIAE) * 前处理、转码、重转码等多模块联合的资源分配 * 为不同价值与诉求的视频,最优化分配异构编码硬件资源 * 基于实时视频价值预测的冷热 CDN 文件调度 * 基于网络状态、设备性能、用户行为、用户偏好、商业价值的自适应档位选择 * 基于视频内容、动态性能分的端上超分、锐化等增强,并与档位选择能力进行联合决策 * 基于网络状态、用户行为/偏好、商业价值、时间服务、成本预测的视频缓存决策 * 基于剩余时间预测模型的 LoadMore 技术 * 流媒体系统内的端云策略联合:档位组合、编码策略、档位选择、解码策略的个性化联合决策 * 广泛引入因果推断技术进行决策 | | L4 | 2025 年 ~ 2028 年 | 迈向未来,广泛对齐最先进的个性化技术 抖音: 技术生态持续完善中 | 建设中,举例: * B级以上参数的深度模型预测,支持长序列特征与生成式模型 * 使用多模态模型对视频进行画质向理解,以支持个性化策略 * 档位组合实现编码、选档、网络调度的端云结合 * 干预点组合探索,半自动化挖掘新干预点 * 用户长期行为建模,进行播放优化 * 对业务目标与主观体验建模,如画质感受、音质感受、流畅度感受 * 多业务联合(广告、电商、直播、点播)优化建模 * 下载与播放决策面向业务目标直接建模 * 基于生成式技术的端到端编解码器、前后处理能力 |
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:字节跳动技术团队 抖音研发用户体验《解读流媒体个性化技术:分级体系与短视频演化之旅》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论