2026-04-16 04:41:26 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 快手提出GRank召回框架，通过生成-重排解耦设计平衡效率与精度。训练时Auxiliary模块传递目标感知信号优化Generator表征，推理时保持双塔高效检索。DCSA优化使计算量降至17.8%，离线Recall@500提升30%以上，线上已部署验证效果。 综合评分： 80 文章分类： 其他

cover_image

WWW 2026｜让双塔“开天眼”：快手GRank赋予生成器“预判”能力，在线召回快准兼得

快手技术

2026年4月13日 11:48 北京

在小说阅读器读本章

去阅读

当你在短视频App上轻轻滑动，系统需要在百毫秒内从百亿级的商品池中，为你挑出最可能感兴趣的几个。这背后是推荐系统的“第一道关卡”——召回。作为整个链路的起始，召回阶段的核心挑战在于检索效率与建模精度之间的权衡（Trade-off）。长期以来，工业界主要面临两种路径的局限：

想要快，就得用双塔模型，把用户压缩成一个固定向量，通过MIPS（最大内积搜索）实现了极致的推理效率，但其核心缺陷在于“候选无关性（Target-agnostic）”，面对用户复杂的兴趣，常常“看不懂”，无法捕捉用户与目标物料之间细粒度的特征交互。
想要准，引入目标感知（Target-aware）能力以提升精度，业界尝试过构建树、图这种结构化索引的方案，但代价是维护成本高、延迟不稳定、且索引与模型优化目标天然存在偏差。

如何在保持高效率的同时，突破双塔模型的精度瓶颈？快手技术团队在WWW 2026发表的论文《GRank: Towards Target-Aware and Streamlined Industrial Retrieval with a Generate-Rank Framework》中提出：面对效率与精度的固有博弈，相比于对现有范式的微调，通过“生成-重排”的解耦设计，实现训练态与推理态的深度协同。

论文链接:

https://arxiv.org/abs/2510.15299

一、破局点：

剪枝与打分，本就不该“绑定”着走

当团队深入分析各类结构化索引方案时，发现了一个普遍存在的架构限制：“剪枝”（搜索路径决策）和“打分”（节点精准评估）这两个任务往往是高度耦合的。

无论是树的逐层判断，还是图的逐跳筛选，每一步既要快速决策搜索路径，又要精确评估节点好坏。这种耦合导致：

双塔模型：侧重检索效率，将“打分”简化为向量内积，难以捕捉非线性交互特征；
树/图模型：侧重检索精度，在搜索过程中融入复杂的“打分”逻辑，导致索引结构固定，维护成本与延迟压力剧增。

基于此，GRank尝试将“剪枝”与“打分”职能进行显式解耦：

第一阶段（生成/剪枝）：只管“快速找出可能感兴趣的候选”，确保效率和广度。
第二阶段（排序/打分）：只管“精准判断这些候选好不好”。范围已经很小，可以慢一点，但必须准。

但简单的分阶段串联并不能解决所有问题。其核心挑战在于：两阶段之间存在目标偏移（Objective Mismatch）。如果第一阶段的检索过程完全独立于第二阶段的评价标准，那么初筛出的候选集将难以支撑后续的高精度排序。

想象一下这个场景：A同学负责从书海里快速挑出100本书（召回），B同学负责从这100本书里选出最好的10本（排序）。如果A和B从来没交流过，A全凭自己的感觉挑书，那结果很可能就是：A挑的书，B一本都看不中。这就是今天绝大多数两阶段召回模型面临的困境——“两阶段脱节”。

快手最新提出的GRank框架，通过一种“训练态协同、推理态透明”的策略巧妙解决了这一难题。

在训练阶段，团队引入了一个辅助增强模块（Auxiliary Module），它充当了Generator与Ranker之间的“感知桥梁”。利用参数共享机制，Ranker侧高精度的目标感知（Target-aware）信号，能够通过梯度反向传播，实时“纠偏”并重塑Generator的表征空间。这意味着，Generator虽然在推理时依然保持高效的独立检索，但在训练过程中已经隐式地学习并内化了Ranker复杂的评价标准。

这种设计确保了第一阶段圈选出的候选集，在分布上趋同于第二阶段的高分期望。在快手的真实业务场景中，这种跨阶段的表征对齐，让最终的召回（Recall@500）相比结构化索引召回提升30%，相比双塔提升+100.3%。

二、GRank：

三位一体的“联合训练，解耦推理”

基于这一洞察，快手提出了GRank——一个全新的 “Generate→Rank”检索框架。它的核心在于设计了三个分工明确、却又紧密协同的模块，在训练时融为一体，在推理时各司其职。

2.1 Generator（生成器）：效率担当，负责“快速圈选”

序列编码器：用户侧的核心是一个N层Causal Self-Attention（因果自注意力）解码器，用于捕捉用户近期的点击、转化等显式行为以及行为背后的时间演进逻辑。

个性化Query Token(U)：行为序列后追加个性化查询标记（Personalized Query Token）U，经过N层Transformer层，以该Token对应的输出向量(h_u)凝练用户核心的兴趣表征。

由于本质上是一个经过强化的双塔模型，推理时，用户兴趣编码输出h_u，通过高效的向量检索（MIPS）快速生成一个候选集合（如几千个）。

它的目标是快，QPS与线上高效模型持平。

2.2 Ranker（排序器）：精度担当，负责“精挑细选”

不同于双塔模型的向量内积，Ranker采用了Cross-Attention架构。它将每一个候选物料作为Query，与用户长达1000个行为轨迹的序列进行逐点交互。这种方式能精准识别出用户历史中与当前候选最相关的细微信号，实现真正的“目标驱动型”匹配。

为了确保能够从全局视角审视物料优劣，Ranker在训练阶段采用了InfoNCE损失函数。通过利用同批次内的其他样本作为负例，Ranker能够在对比学习的框架下，学习如何将真正的目标物料从众多的“噪声”和“干扰项”中分辨出来。

它的目标是准，但因为范围小，计算成本可控。

2.3 Auxiliary（辅助器）：“翻译官”，只在训练时出现

这是GRank解决两阶段脱节的关键模块。

训练时：Auxiliary模块让Generator的Self-Attention结构与当前候选物品做交互。通过InfoNCE损失函数，强制Generator去学习“对于这个特定候选，用户历史中哪些行为是重要的”。由于Generator和Auxiliary共享参数，Auxiliary的梯度会反向优化Generator，让它在生成用户向量时，就隐式地融入了对候选的感知。

推理时：Auxiliary模块完全消失。Generator依然像双塔一样高效检索，但它产出的用户向量，已经携带了Ranker的“眼光”，知道Ranker喜欢什么样的候选，从而为其提供更精准的候选集。

总结：通过Auxiliary，GRank成功将“目标感知”的能力，从推理时的结构设计，转移到了训练时的目标优化中。模型学会了如何兼顾效率与精度。

三、工程实战：

用DCSA破解训练时的算力“死结”

理念虽好，落地时却遇到一个棘手难题：Auxiliary模块让Generator与候选物品做交互，这在训练时带来了O(N²)的计算复杂度。当batch里有几百个样本时，计算开销呈平方级增长，给工业化训练带来了巨大的算力压力。

团队通过对因果自注意力（Causal Self-Attention）的计算算子进行深度分析，发现原始注意力矩阵在Causal Mask（因果掩码）的约束下存在大量无效计算。由于各候选物品之间在逻辑上互不感知，它们仅需单向“回溯”用户历史行为序列。这意味着，原始的全量计算中包含大量被掩码覆盖的零值区域。

基于此，团队提出了DCSA（Decomposed Causal Self-Attention，分解式因果自注意力）。这是一种数学等效的矩阵分解计算方法：它将规模巨大的全局矩阵拆解为“历史序列自注意力”、“候选-历史交叉注意力”以及“候选自相关得分”等多个子矩阵的线性组合，从而规避了冗余计算。

其中，

实验结果验证了DCSA的高效性：在典型实验配置下，该优化将Auxiliary模块的计算量降低至原始方案的17.8%。这一优化有效化解了大规模序列建模的算力瓶颈，为GRank的工业化大规模部署提供了算力支撑。

四、实验评估：

多维度指标实现显著提升

GRank在离线、在线均取得了显著的性能提升：

4.1 离线效果

离线评测
在工业级数据集上，GRank的Recall@500相对最优基线模型（TDM）+30%，NDCG@500 +28.5%；
对比双塔类范式（DSSM、Kuaiformer），Recall@500+103.8%，NDCG@500+100.7%，性能远超双塔模型；

性能对比：在P99延迟控制在100ms的条件下，GRank的QPS（每秒查询数）是Graph-based方案NANN的2倍，是Tree-based方案TDM的2.8倍，实现了“高精度+高效率”的设计目标。

4.2 在线收益

线上收益：自2025年Q2起，GRank已在快手平台全面部署，核心业务指标全面正向。

4.3 消融实验——深度拆解 GRank 的模块贡献

在复杂的工业级架构中，奥卡姆剃刀原则（如无必要，勿增实体）至关重要。为了验证 GRank每一项核心设计的必要性，研究团队进行了一系列消融实验（Ablation Study）。

1、Auxiliary模块是否真的让生成器具备了“预判”能力？

2、Ranker模块的交叉注意力对最终召回精度的边际贡献有多大？

3、CA-Ranker（Cross-Attention）与SA-Auxiliary（Self-Attention）的协同，是否达到了“1+1>2”的效果？

洞察一：辅助增强模块（Auxiliary Module）——生成器的“上帝视角”

实验发现，在训练阶段注入目标感知排序损失后，生成器的表现发生了显著变化。

性能分析：第一阶段产生的2000个候选集是后续所有排序器的“天花板”。实验显示，引入辅助模块后，生成器本身的Recall@2000从0.1512提升至0.3685。

这一结果验证了“训练态强化、推理态解耦”范式的有效性：通过在训练阶段引入显式的目标感知（Target-aware）监督信号，显著增强了用户向量h_u的表达能力；而在推理阶段，模型回归纯双塔结构，确保了检索的高效性。

洞察二：Ranker 模块——从“海选”到“精选”

如果说生成器负责“大海捞针”，那么Ranker则是负责“沙里淘金”。实验结果清晰地展示了二阶段重评分（Re-scoring）在复杂匹配场景下的核心作用：

关键结论：一旦移除Ranker模块，系统的Recall@500出现了50.7%的性能损失。这一显著退化说明，在超大规模物料池中，单靠向量内积（Inner Product）等线性映射方式，难以完全建模用户与物料之间复杂的非线性交互兴趣。

Ranker的存在，本质上是在检索层植入了一个精排感知层。它通过深层的特征交互，将召回精度显著提升，有效弥补了传统双塔召回的精度短板。

洞察三：CA-SA协同进化——效率与深度的博弈平衡

在序列建模的路径选择上，GRank采用了非对称的架构设计，以平衡计算复杂度和建模深度。

多机制协同增益：
消融实验证明，结合Cross-Attention (CA) 与Self-Attention (SA) 的混合架构优于单一建模路径。CA侧重于目标感知的全局对齐，而SA则擅长捕捉用户行为序列中的细粒度时序依赖。
训练与推理的解耦：
训练态：完整的GRank框架同时利用CA进行全局建模，利用SA捕捉细粒度的序列依赖，并驱动共享稀疏表示的更新。
推理态：关键在于“静默屏蔽 Auxliary”。通过排除SA-Auxiliary，模型在保持 CA 带来的极低延迟优势的同时，依然保留了训练阶段通过SA沉淀下的高判别性表征能力。

这种协同优化策略使GRank在复杂的工业级约束下，实现了高准确性与低延迟之间的平衡。

五、总结

GRank的核心贡献在于通过架构上的解耦与协同训练，缓解了工业级检索系统中长期存在的效率与精度博弈。实验结果与线上业务收益证明，通过引入辅助模块（Auxiliary Module）实现训练态的目标感知，可以在不增加在线推理延迟的前提下，有效提升双塔模型的表征上限。

这一方案的成功落地，为大规模推荐系统处理“两阶段目标不一致”问题提供了切实可行的参考路径：通过在训练阶段对齐召回与排序的目标分布，使得系统在保持高吞吐特性的同时，能够捕捉更深层次的用户兴趣。目前，该架构已在快手多项核心业务中保持稳定运行，验证了其在复杂工业环境下的健壮性与有效性。

六、关于我们

作为支撑快手国内与海外（Kwai）短视频推荐系统的核心团队，快手推荐模型部生成与排序模型中心长期致力于生成式推荐（OneRec）、大语言模型与推荐系统结合（LLM4Rec）以及前沿深度学习技术的研发与应用。团队研究成果持续发表于KDD、SIGIR、WWW等国际顶级学术会议。

团队优势：
双引擎技术布局：拥有业界少见的“端到端生成式推荐”与“级联式双引擎”并行架构，既支持传统推荐模型的持续优化，也全面开展生成式推荐的前沿探索。
充沛的计算资源：作为模型中台团队，提供充足的计算资源支持，助力各类实验与创新想法的落地。
积极的学术氛围：团队鼓励技术落地与论文发表相结合，提供良好的协作环境与学术发表支持，助力成员提升行业影响力。
具备竞争力的薪酬待遇：提供行业领先的薪酬福利体系。
招聘岗位：
推荐算法工程师-【Matching方向】
推荐大模型算法专家-【OneRec】
推荐大模型算法实习生-【OneRec】
职位描述

主要负责快手主APP、快手极速版等产品的推荐粗排、召回模型优化。我们使用最前沿的深度学习技术进行端到端建模并不断创新突破，专注打造性能与效果兼顾的Matching模型，充分给同学们提供成长自我的机会。同时，我们积极探索生成式大模型在推荐系统中的应用，利用大模型的强大表征与推理能力，为亿级用户带来更智能、更个性化的推荐体验。

1、参与亿级用户规模的粗排模型优化，提升停留时长、点击率、留存率等核心指标；

2、通过分析海量用户行为数据和视频数据，增加有效的特征与模型结构，提升模型精度；探索利用生成式大模型（如GPT、LLaMA等）进行用户/物品表征学习、行为序列建模或数据增强；

3、通过机器学习算法，提升排序链路一致性；研究生成式大模型与经典推荐模型的融合方式（如大模型蒸馏、协同推理等）；

4、参与搭建推荐系统框架，提升GPU训练效率与线上服务性；对生成式大模型进行轻量化部署与加速推理，实现推荐场景下的实时应用。

任职要求

1、熟练使用C++、Java中至少一种编程技术，熟练使用多种语言加分，例如Python，Scala等；

2、计算机相关专业，本科及以上学历，三年以上相关实际工作经验；

3、对推荐算法有深入研究，同时精通常见机器学习算法，如：Transfomer、MMOE、PPNET等；

4、至少熟练使用一种深度学习开源框架，如Caffe，Tensorflow，Pytorch等；

5、在AAAI，ICML，NIPS，IJCAI等顶会上发表论文加分。

招聘岗位面向：
校园招聘：面向2026届毕业生
日常实习：面向2027届及之后的在校同学
社会招聘：算法领域专家
具备能力：
对人工智能技术充满热情，坚信技术可推动业务发展；关注LLM/推荐大模型的前沿动态，具备扎实的算法基础；
拥有优秀的工程实现能力，能够快速复现学术界最新成果；
如有在ICML、NeurIPS、ACL等顶级会议发表的论文，或获得ACM/ICPC等竞赛奖项，将成为重要加分项。
投递方式

扫描下方二维码投递，或将简历发送至邮箱：[email protected]

推荐阅读

点击【阅读原文】，加入我们！

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：快手技术《WWW 2026｜让双塔“开天眼”：快手GRank赋予生成器“预判”能力，在线召回快准兼得》