WWW2026|让双塔“开天眼”:快手GRank赋予生成器“预判”能力,在线召回快准兼得

admin 2026-04-16 04:41:26 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 快手提出GRank召回框架,通过生成-重排解耦设计平衡效率与精度。训练时Auxiliary模块传递目标感知信号优化Generator表征,推理时保持双塔高效检索。DCSA优化使计算量降至17.8%,离线Recall@500提升30%以上,线上已部署验证效果。 综合评分: 80 文章分类: 其他


cover_image

WWW 2026|让双塔“开天眼”:快手GRank赋予生成器“预判”能力,在线召回快准兼得

快手技术

2026年4月13日 11:48 北京

在小说阅读器读本章

去阅读

当你在短视频App上轻轻滑动,系统需要在百毫秒内从百亿级的商品池中,为你挑出最可能感兴趣的几个。这背后是推荐系统的“第一道关卡”——召回。作为整个链路的起始,召回阶段的核心挑战在于检索效率与建模精度之间的权衡(Trade-off)。长期以来,工业界主要面临两种路径的局限:

  • 想要快,就得用双塔模型,把用户压缩成一个固定向量,通过MIPS(最大内积搜索)实现了极致的推理效率,但其核心缺陷在于“候选无关性(Target-agnostic)”,面对用户复杂的兴趣,常常“看不懂”,无法捕捉用户与目标物料之间细粒度的特征交互。
  • 想要准,引入目标感知(Target-aware)能力以提升精度,业界尝试过构建树、图这种结构化索引的方案,但代价是维护成本高、延迟不稳定、且索引与模型优化目标天然存在偏差。

如何在保持高效率的同时,突破双塔模型的精度瓶颈?快手技术团队在WWW 2026发表的论文《GRank: Towards Target-Aware and Streamlined Industrial Retrieval with a Generate-Rank Framework》中提出:面对效率与精度的固有博弈,相比于对现有范式的微调,通过“生成-重排”的解耦设计,实现训练态与推理态的深度协同。

  • 论文链接:

    https://arxiv.org/abs/2510.15299

一、破局点:

剪枝与打分,本就不该“绑定”着走

当团队深入分析各类结构化索引方案时,发现了一个普遍存在的架构限制:“剪枝”(搜索路径决策)和“打分”(节点精准评估)这两个任务往往是高度耦合的。

无论是树的逐层判断,还是图的逐跳筛选,每一步既要快速决策搜索路径,又要精确评估节点好坏。这种耦合导致:

  • 双塔模型:侧重检索效率,将“打分”简化为向量内积,难以捕捉非线性交互特征;
  • 树/图模型:侧重检索精度,在搜索过程中融入复杂的“打分”逻辑,导致索引结构固定,维护成本与延迟压力剧增。

基于此,GRank尝试将“剪枝”与“打分”职能进行显式解耦:

  • 第一阶段(生成/剪枝):只管“快速找出可能感兴趣的候选”,确保效率和广度。
  • 第二阶段(排序/打分):只管“精准判断这些候选好不好”。范围已经很小,可以慢一点,但必须准。

但简单的分阶段串联并不能解决所有问题。其核心挑战在于:两阶段之间存在目标偏移(Objective Mismatch)。如果第一阶段的检索过程完全独立于第二阶段的评价标准,那么初筛出的候选集将难以支撑后续的高精度排序。

想象一下这个场景:A同学负责从书海里快速挑出100本书(召回),B同学负责从这100本书里选出最好的10本(排序)。如果A和B从来没交流过,A全凭自己的感觉挑书,那结果很可能就是:A挑的书,B一本都看不中。这就是今天绝大多数两阶段召回模型面临的困境——“两阶段脱节”。

快手最新提出的GRank框架,通过一种“训练态协同、推理态透明”的策略巧妙解决了这一难题。

在训练阶段,团队引入了一个辅助增强模块(Auxiliary Module),它充当了Generator与Ranker之间的“感知桥梁”。利用参数共享机制,Ranker侧高精度的目标感知(Target-aware)信号,能够通过梯度反向传播,实时“纠偏”并重塑Generator的表征空间。这意味着,Generator虽然在推理时依然保持高效的独立检索,但在训练过程中已经隐式地学习并内化了Ranker复杂的评价标准。

这种设计确保了第一阶段圈选出的候选集,在分布上趋同于第二阶段的高分期望。在快手的真实业务场景中,这种跨阶段的表征对齐,让最终的召回(Recall@500)相比结构化索引召回提升30%,相比双塔提升+100.3%。

二、GRank:

三位一体的“联合训练,解耦推理”

基于这一洞察,快手提出了GRank——一个全新的 “Generate→Rank”检索框架。它的核心在于设计了三个分工明确、却又紧密协同的模块,在训练时融为一体,在推理时各司其职。

2.1 Generator(生成器):效率担当,负责“快速圈选”

序列编码器: 用户侧的核心是一个N层Causal Self-Attention(因果自注意力)解码器,用于捕捉用户近期的点击、转化等显式行为以及行为背后的时间演进逻辑。

个性化Query Token(U):行为序列后追加个性化查询标记(Personalized Query Token)U,经过N层Transformer层,以该Token对应的输出向量(h_u)凝练用户核心的兴趣表征。

由于本质上是一个经过强化的双塔模型,推理时,用户兴趣编码输出h_u,通过高效的向量检索(MIPS)快速生成一个候选集合(如几千个)。

它的目标是快,QPS与线上高效模型持平。

2.2 Ranker(排序器):精度担当,负责“精挑细选”

不同于双塔模型的向量内积,Ranker采用了Cross-Attention架构。它将每一个候选物料作为Query,与用户长达1000个行为轨迹的序列进行逐点交互。这种方式能精准识别出用户历史中与当前候选最相关的细微信号,实现真正的“目标驱动型”匹配。

为了确保能够从全局视角审视物料优劣,Ranker在训练阶段采用了InfoNCE损失函数。通过利用同批次内的其他样本作为负例,Ranker能够在对比学习的框架下,学习如何将真正的目标物料从众多的“噪声”和“干扰项”中分辨出来。

它的目标是准,但因为范围小,计算成本可控。

2.3 Auxiliary(辅助器):“翻译官”,只在训练时出现

这是GRank解决两阶段脱节的关键模块。

训练时:Auxiliary模块让Generator的Self-Attention结构与当前候选物品做交互。通过InfoNCE损失函数,强制Generator去学习“对于这个特定候选,用户历史中哪些行为是重要的”。由于Generator和Auxiliary共享参数,Auxiliary的梯度会反向优化Generator,让它在生成用户向量时,就隐式地融入了对候选的感知。

推理时:Auxiliary模块完全消失。Generator依然像双塔一样高效检索,但它产出的用户向量,已经携带了Ranker的“眼光”,知道Ranker喜欢什么样的候选,从而为其提供更精准的候选集。

总结:通过Auxiliary,GRank成功将“目标感知”的能力,从推理时的结构设计,转移到了训练时的目标优化中。模型学会了如何兼顾效率与精度。

三、工程实战:

用DCSA破解训练时的算力“死结”

理念虽好,落地时却遇到一个棘手难题:Auxiliary模块让Generator与候选物品做交互,这在训练时带来了O(N²)的计算复杂度。当batch里有几百个样本时,计算开销呈平方级增长,给工业化训练带来了巨大的算力压力。

团队通过对因果自注意力(Causal Self-Attention)的计算算子进行深度分析,发现原始注意力矩阵在Causal Mask(因果掩码) 的约束下存在大量无效计算。由于各候选物品之间在逻辑上互不感知,它们仅需单向“回溯”用户历史行为序列。这意味着,原始的全量计算中包含大量被掩码覆盖的零值区域。

基于此,团队提出了DCSA(Decomposed Causal Self-Attention,分解式因果自注意力)。这是一种数学等效的矩阵分解计算方法:它将规模巨大的全局矩阵拆解为“历史序列自注意力”、“候选-历史交叉注意力”以及“候选自相关得分”等多个子矩阵的线性组合,从而规避了冗余计算。

其中,

实验结果验证了DCSA的高效性: 在典型实验配置下,该优化将Auxiliary模块的计算量降低至原始方案的17.8%。这一优化有效化解了大规模序列建模的算力瓶颈,为GRank的工业化大规模部署提供了算力支撑。

四、实验评估:

多维度指标实现显著提升

GRank在离线、在线均取得了显著的性能提升:

4.1 离线效果

  • 离线评测

  • 在工业级数据集上,GRank的Recall@500相对最优基线模型(TDM)+30%,NDCG@500 +28.5%;

  • 对比双塔类范式(DSSM、Kuaiformer),Recall@500+103.8%,NDCG@500+100.7%,性能远超双塔模型;

  • 性能对比:在P99延迟控制在100ms的条件下,GRank的QPS(每秒查询数) 是Graph-based方案NANN的2倍,是Tree-based方案TDM的2.8倍,实现了“高精度+高效率”的设计目标。

4.2 在线收益

  • 线上收益:自2025年Q2起,GRank已在快手平台全面部署,核心业务指标全面正向。

4.3 消融实验——深度拆解 GRank 的模块贡献

在复杂的工业级架构中,奥卡姆剃刀原则(如无必要,勿增实体)至关重要。为了验证 GRank每一项核心设计的必要性,研究团队进行了一系列消融实验(Ablation Study)。

1、Auxiliary模块是否真的让生成器具备了“预判”能力?

2、Ranker模块的交叉注意力对最终召回精度的边际贡献有多大?

3、CA-Ranker(Cross-Attention)与SA-Auxiliary(Self-Attention)的协同,是否达到了“1+1>2”的效果?

洞察一:辅助增强模块(Auxiliary Module)——生成器的“上帝视角”

实验发现,在训练阶段注入目标感知排序损失后,生成器的表现发生了显著变化。

性能分析: 第一阶段产生的2000个候选集是后续所有排序器的“天花板”。实验显示,引入辅助模块后,生成器本身的Recall@2000从0.1512提升至0.3685。

这一结果验证了“训练态强化、推理态解耦”范式的有效性:通过在训练阶段引入显式的目标感知(Target-aware)监督信号,显著增强了用户向量h_u的表达能力;而在推理阶段,模型回归纯双塔结构,确保了检索的高效性。

洞察二:Ranker 模块——从“海选”到“精选”

如果说生成器负责“大海捞针”,那么Ranker则是负责“沙里淘金”。实验结果清晰地展示了二阶段重评分(Re-scoring)在复杂匹配场景下的核心作用:

关键结论: 一旦移除Ranker模块,系统的Recall@500出现了50.7%的性能损失。这一显著退化说明,在超大规模物料池中,单靠向量内积(Inner Product)等线性映射方式,难以完全建模用户与物料之间复杂的非线性交互兴趣。

Ranker的存在,本质上是在检索层植入了一个精排感知层。它通过深层的特征交互,将召回精度显著提升,有效弥补了传统双塔召回的精度短板。

洞察三:CA-SA协同进化——效率与深度的博弈平衡

在序列建模的路径选择上,GRank采用了非对称的架构设计,以平衡计算复杂度和建模深度。

  • 多机制协同增益:

  • 消融实验证明,结合Cross-Attention (CA) 与Self-Attention (SA) 的混合架构优于单一建模路径。CA侧重于目标感知的全局对齐,而SA则擅长捕捉用户行为序列中的细粒度时序依赖。

  • 训练与推理的解耦:

  • 训练态:完整的GRank框架同时利用CA进行全局建模,利用SA捕捉细粒度的序列依赖,并驱动共享稀疏表示的更新。

  • 推理态:关键在于“静默屏蔽 Auxliary”。通过排除SA-Auxiliary,模型在保持 CA 带来的极低延迟优势的同时,依然保留了训练阶段通过SA沉淀下的高判别性表征能力。

这种协同优化策略使GRank在复杂的工业级约束下,实现了高准确性与低延迟之间的平衡。

五、总结

GRank的核心贡献在于通过架构上的解耦与协同训练,缓解了工业级检索系统中长期存在的效率与精度博弈。实验结果与线上业务收益证明,通过引入辅助模块(Auxiliary Module)实现训练态的目标感知,可以在不增加在线推理延迟的前提下,有效提升双塔模型的表征上限。

这一方案的成功落地,为大规模推荐系统处理“两阶段目标不一致”问题提供了切实可行的参考路径:通过在训练阶段对齐召回与排序的目标分布,使得系统在保持高吞吐特性的同时,能够捕捉更深层次的用户兴趣。目前,该架构已在快手多项核心业务中保持稳定运行,验证了其在复杂工业环境下的健壮性与有效性。

六、关于我们

作为支撑快手国内与海外(Kwai)短视频推荐系统的核心团队,快手推荐模型部生成与排序模型中心长期致力于生成式推荐(OneRec)、大语言模型与推荐系统结合(LLM4Rec)以及前沿深度学习技术的研发与应用。团队研究成果持续发表于KDD、SIGIR、WWW等国际顶级学术会议。

  • 团队优势:

  • 双引擎技术布局:拥有业界少见的“端到端生成式推荐”与“级联式双引擎”并行架构,既支持传统推荐模型的持续优化,也全面开展生成式推荐的前沿探索。

  • 充沛的计算资源:作为模型中台团队,提供充足的计算资源支持,助力各类实验与创新想法的落地。

  • 积极的学术氛围:团队鼓励技术落地与论文发表相结合,提供良好的协作环境与学术发表支持,助力成员提升行业影响力。

  • 具备竞争力的薪酬待遇:提供行业领先的薪酬福利体系。

  • 招聘岗位:

  • 推荐算法工程师-【Matching方向】

  • 推荐大模型算法专家-【OneRec】

  • 推荐大模型算法实习生-【OneRec】

  • 职位描述

主要负责快手主APP、快手极速版等产品的推荐粗排、召回模型优化。我们使用最前沿的深度学习技术进行端到端建模并不断创新突破,专注打造性能与效果兼顾的Matching模型,充分给同学们提供成长自我的机会。同时,我们积极探索生成式大模型在推荐系统中的应用,利用大模型的强大表征与推理能力,为亿级用户带来更智能、更个性化的推荐体验。

1、参与亿级用户规模的粗排模型优化,提升停留时长、点击率、留存率等核心指标;

2、通过分析海量用户行为数据和视频数据,增加有效的特征与模型结构,提升模型精度;探索利用生成式大模型(如GPT、LLaMA等)进行用户/物品表征学习、行为序列建模或数据增强;

3、通过机器学习算法,提升排序链路一致性;研究生成式大模型与经典推荐模型的融合方式(如大模型蒸馏、协同推理等);

4、参与搭建推荐系统框架,提升GPU训练效率与线上服务性;对生成式大模型进行轻量化部署与加速推理,实现推荐场景下的实时应用。

  • 任职要求

1、熟练使用C++、Java中至少一种编程技术,熟练使用多种语言加分,例如Python,Scala等;

2、计算机相关专业,本科及以上学历,三年以上相关实际工作经验;

3、对推荐算法有深入研究,同时精通常见机器学习算法,如:Transfomer、MMOE、PPNET等;

4、至少熟练使用一种深度学习开源框架,如Caffe,Tensorflow,Pytorch等;

5、在AAAI,ICML,NIPS,IJCAI等顶会上发表论文加分。

  • 招聘岗位面向:

  • 校园招聘:面向2026届毕业生

  • 日常实习:面向2027届及之后的在校同学

  • 社会招聘:算法领域专家

  • 具备能力:

  • 对人工智能技术充满热情,坚信技术可推动业务发展;关注LLM/推荐大模型的前沿动态,具备扎实的算法基础;

  • 拥有优秀的工程实现能力,能够快速复现学术界最新成果;

  • 如有在ICML、NeurIPS、ACL等顶级会议发表的论文,或获得ACM/ICPC等竞赛奖项,将成为重要加分项。

  • 投递方式

扫描下方二维码投递,或将简历发送至邮箱:[email protected]

推荐阅读

点击【阅读原文】,加入我们!


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:快手技术 《WWW 2026|让双塔“开天眼”:快手GRank赋予生成器“预判”能力,在线召回快准兼得》

评论:0   参与:  0