2025-12-31 00:56:56 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文阐述了抖音流媒体个性化技术实践，构建了L0至L5分级体系，涵盖动作空间与状态空间等维度。文章回顾了技术演进历程，展示了通过算法优化实现体验提升与成本节约的路径，为行业提供了系统性的技术框架与发展参考。 综合评分： 65 文章分类： 其他

cover_image

解读流媒体个性化技术：分级体系与短视频演化之旅

原创

抖音研发用户体验

字节跳动技术团队

2025年12月30日 17:52 北京

结合团队在流媒体个性化技术上的认知，对流媒体个性化技术进行了维度拆解与分级定义，并概要地讲述了在抖音短视频上的演进历程。欢迎大家阅读了解～

背景

作为主流的短视频应用，抖音在音视频相关工作上，开创性拓展了个性化x流媒体（亦可称之为个性化x视频，或个性化x播放）的全新、学科交叉的技术体系，即，在行业传统上称之为流媒体技术的工作方向上，大量运用了发端于推荐、广告、用户增长等领域的个性化技术并加以深度改造、适配，不仅在超复杂的应用环境中，仍能提升用户体验至最佳水准，带来业务收益的同时有效控制了成本，近3年成本年均优化亦达数十亿。

其中，个性化叙事视角与传统音视频技术全然不同，不同业务或其他公司或许在部分相关工作事项上有所建树，但仍然缺乏对问题和解法的体系化认知，服务水准参差不齐。因此，参考许多其他行业常用的分级方式，我们对相关工作的个性化维度与等级进行了梳理与总结，希望能够帮助音视频领域的工作同学了解前沿水平，也希望引导未来整个音视频领域的相关工作方向。

流媒体技术 – 传统意义上指的是通过网络按序传输多媒体数据（音频、视频、图像等），让用户可以在下载数据的同时实时播放的一种技术和服务方式。针对抖音的主要视频场景，为了在用户观看当前或切换至下一条视频时持续保持流畅，需要预先下载、解码及渲染多媒体数据，以避免播放出现中断或卡顿。此外，系统还通过自适应码率（ABR，Adaptive Bitrate）或多分辨率流技术，根据当前网络环境动态调整播放质量与带宽，在高流畅度、高画质、低带宽成本三大需求之间寻求最佳平衡。

（在个性化 x 流媒体技术语境下，所需平衡的目标和因素，以及相应干预能力均需大幅拓展并重新定义，详见下文）

个性化能力

与传统根据功能列表来确定A公司较B公司技术更先进的比较方式而言，我们认为技术的个性化程度要远为重要，而与传统的按照不同环节划分工作区域相比，依据优化目标划分工作维度更能凸显技术本质，这一理念已经在抖音系的音视频工作中充分实践，并在应用获取市场头部地位的过程中起到了关键作用。

维度拆解

在我们看来，由于工作方向是构建个性化能力，为每个用户打造极致最优的流媒体传输与播放方案，因此应当比照优化问题，从动作空间、状态空间、策略算法等维度进行理解与迭代，同时在对优化目标的理解与度量本身的精度提升也至关重要。

动作空间 – 系统中的全部可能的干预点集合，通过扩展动作空间，使得我们可以控制更多的可调变量或干预点，进一步创造出过去未被发现的干预点。如，视频档位选择、视频缓存大小决策、视频预加载数量等。

➤

动作空间的扩展，是复杂业务中获得收益的最重要来源。

状态空间– 指系统全部可能的状态集合，这里指能搜集到有利于进行流媒体策略个性化优化的所有特征空间。通过创造新的特征、信号，丰富状态空间，可不断扩展个性化能力的上限。如，基础的用户信息、机型信息；用户实时手势、姿态、行为序列；视频的基础文件信息、内容理解特征等。
策略算法 – 当状态空间较小时，基础的个性化能力可仅为简单或复杂的规则；随着状态空间的增加，使用适当的数学模型会有更好的效果；再随着状态空间的更进一步增加，统计机器学习或深度学习模型能够逐步发挥其价值，更为数据驱动式地为用户量身定制流媒体服务。而当动作空间不断扩展时，需要全面统筹不同的干预动作，进行多干预点联合建模优化或者面向最终目标端到端统一建模。
规模难度 – 优化的难度和收益均随着业务或问题的规模量级提升而提升，为可实施个性化技术的基础。且高精度下优化的理解与度量本身即具备极高的技术门槛。

➤

面向百万用户群体下，不值得去做的事情，在面向亿级群体时会变得十分有意义；而在面向亿级用户群体时，对于百万用户群体来说的微小问题，也会有很大的负向影响。

➤

抖音目前包含短视频、中长视频、版权视频，覆盖全类型视频内容，包含各年龄段、各知识层级水平的全类型用户，其视频内容与用户的双重多样性，带来远较一般平台更高的优化复杂度。

分级定义

在我们看来，应当将流媒体的个性化等级分为 L0 到 L5共 6 个级别。在对每一级别进行定义的同时，分不同维度进一步拆解定义，此种分级方式能够帮助衡量技术水平，同时指明发展方向。

名词解释

针对分级定义中包含的各类专有名词进行解释。

抖音短视频上的演进

自 2016 年启动至 2025 年为止，抖音经历了一段高速发展的进程，并在此期间逐步构建起日渐成熟的个性化流媒体技术能力。纵观这一发展阶段，通过不同部门协作，在诸多关键优化项上持续突破，代表性优化列举如下：

| | | | | | — | — | — | — | | 分级 | 时间周期 | 阶段描述 | 代表性优化项 | | L0 | 2016 年 | 业务功能实现，流媒体链路各环节性能符合基础需求抖音：实现基本功能 | – | | L1 | 2016 年～ 2018 年 | 在流媒体链路的服务端、客户端等主要环节支持利用用户（设备）、视频的基础信息进行策略干预抖音：服务端提供多码率转码能力，客户端支持网速预测、预加载、档位选择等 | * 利用基础信息（如，观看数），使用规则化方法进行转码资源使用 * 利用基础信息（如，设备分、预测网速）进行预加载与播放的过程控制 | | L2 | 2019 年～ 2021 年 | 在流媒体端到端链路上的不同环节上，覆盖式建立策略干预点，利用主要用户、视频特征，能够在局部利用复杂算法，并对部分模块能进行联合优化抖音：主要的端到端环节完成策略化覆盖，能够综合运用用户、视频等特征，使用了价值预测模型，预加载算法等 | * 基于CAE的视频转码能力 * 基于ROI 区域的编码能力 * 基于视频价值模型预测的转码资源使用策略 * CDN冷热文件调度 * CDN节点调度（质量 & 成本） * 多特征拟合曲线的档位选择 * 预加载算法化 | | L3 | 2022 年～ 2024 年 | 支持大量干预点，支持各模块联动，广泛使用画像等经过深度加工的特征，使用复杂算法、模型，并同时平衡各类业务指标如留存类、营收类与成本类等抖音：增加了大量可调干预点，同时广泛运用了音视频、网络、设备特征，推荐、商业化、投稿、评论等业务特征，对主要性能维度建设敏感画像，在端内不同组件间、端云之间统筹联动，并与端智能紧密结合，由少数专家驱动过渡至数据、算法驱动的研发模式 | * 视频粒度的档位组合能力（UIAE） * 前处理、转码、重转码等多模块联合的资源分配 * 为不同价值与诉求的视频，最优化分配异构编码硬件资源 * 基于实时视频价值预测的冷热 CDN 文件调度 * 基于网络状态、设备性能、用户行为、用户偏好、商业价值的自适应档位选择 * 基于视频内容、动态性能分的端上超分、锐化等增强，并与档位选择能力进行联合决策 * 基于网络状态、用户行为/偏好、商业价值、时间服务、成本预测的视频缓存决策 * 基于剩余时间预测模型的 LoadMore 技术 * 流媒体系统内的端云策略联合：档位组合、编码策略、档位选择、解码策略的个性化联合决策 * 广泛引入因果推断技术进行决策 | | L4 | 2025 年～ 2028 年 | 迈向未来，广泛对齐最先进的个性化技术抖音：技术生态持续完善中 | 建设中，举例： * B级以上参数的深度模型预测，支持长序列特征与生成式模型 * 使用多模态模型对视频进行画质向理解，以支持个性化策略 * 档位组合实现编码、选档、网络调度的端云结合 * 干预点组合探索，半自动化挖掘新干预点 * 用户长期行为建模，进行播放优化 * 对业务目标与主观体验建模，如画质感受、音质感受、流畅度感受 * 多业务联合（广告、电商、直播、点播）优化建模 * 下载与播放决策面向业务目标直接建模 * 基于生成式技术的端到端编解码器、前后处理能力 |

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：字节跳动技术团队抖音研发用户体验《解读流媒体个性化技术：分级体系与短视频演化之旅》