2026-01-17 02:00:26 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 小红书提出Hi-Guard内容审核框架，通过规则对齐与层级推理解决传统模型黑盒及规则偏离问题。该方法引入层级分类体系与路径感知强化学习，实现精准识别与可解释决策。实验表明其在未见类别零样本学习中准确率提升超12%，显著增强内容治理的透明度与泛化能力。 综合评分： 92 文章分类： AI安全,安全建设,应用安全

cover_image

KDD 2026 | 小红书内容审核：Hi-Guard 让内容治理“知其然，更知其所以然”

等你加入的等你加入的

小红书技术REDtech

2026年1月15日 18:02 北京

引言：内容安全是平台治理的生命线，旨在精准识别与处置色情和暴力等不健康和违规内容。传统审核模型通过“黑盒”分数直接给出识别结论，在处理复杂语义和隐晦内容时和规则对齐方面存在困难。推动治理模型从“标签驱动”向“政策规则驱动”演进，同时具有政策规则的可解释性，已成为构建可信可泛化安全系统的核心方向。为解决上述问题，小红书内容理解团队提出层级式治理框架 Hi-Guard，通过分层流水线与路径感知的强化学习，改进模型对复杂审核标准的内化能力。该方法为构建透明可信的内容审核系统提供了新思路，相关研究成果已被 KDD2026 录用。

论文标题：Towards Trustworthy Multimodal Moderation via Policy-Aligned Reasoning and Hierarchical Labeling

论文链接：https://arxiv.org/pdf/2508.03296

代码链接：https://github.com/lianqi1008/Hi-Guard

关键词：多模态内容安全，可信内容审核，强化学习

在海量用户生成内容 (UGC）的社交平台，模型审核系统通常由 “基础内容召回-风险标签识别-决策降量” 三个阶段组成。其中，“决策降量” 环节承担了主要的自动化判别处置职能。虽然多模态大模型（MLLMs）已广泛应用于决策层，但依然面临三大瓶颈：

规则标准偏离：模型从带噪声的标注数据中拟合学习，而非背后的复杂审核规则，导致识别结果与动态更新的平台政策规则脱节。
决策过程不透明：传统模型输出“黑盒”结果（相关分数），缺乏可核查的证据或逻辑解释，导致模型优化方向不透明，影响用户体验，同时算法结果与人工审核员之间存在证据壁垒。
相似规则理解困难：对于规则相近的类别（如“未成年人过度成人化”与“未成年人着装不当”），模型极易产生混淆，引发过度处置或审核疏漏。

为解决上述问题，小红书内容理解团队提出了一种全新的规则对齐和高泛化治理框架——Hi-Guard

Hi-Guard 的核心思想是将审核决策转化为一种“基于规则对齐的层级推理任务”。

2.1 学习规则而非单纯拟合数据

Hi-Guard通过层级化提示（Hierarchical Prompting）实现了政策规则的逻辑对齐。模型在推理时不再是完全基于噪声标注下的数据统计和拟合，而是像人类审核员一样，依赖 Prompt 中的规则和大量数据学习经验。这种设计使得模型能够更好地泛化到未见过的新场景，并支持通过修改 Prompt 快速适应政策调整。

2.2 层级分类体系（Hierarchical Taxonomy）

我们将扁平的分类任务转化为“路径预测”：

结构：领域 (Domain) → 主题 (Topic) → 子类(Subtype) → 行为(Behavior)。通过逐级缩小搜索空间，模型能够更聚焦于细微特征，将分类准确率从“模糊判断”提升至“精确打击”。

2.3 软边界奖励强化学习（Soft-margin Reward & GRPO）

在优化阶段，我们采用了Group Relative Policy Optimization (GRPO) 算法，并设计了独特的路径感知软边界奖励：

分级惩罚：不再是非黑即白的0或1。如果模型判错到“兄弟类别”（语义相近），我们给予较轻惩罚；如果跨领域判错，则给予重罚。
深度加权：越是底层的细粒度判错，惩罚力度越大，强制模型在最困难的环节学会“深度思考”。

3.1 实验性能：泛化与准确的双重提升

在长尾及未见类别（Generalization Set）的零样本学习（Zero-shot）测试中：

准确率：相较于传统的监督微调（SFT）变体，Hi-Guard 的总体准确率提升了12.13%。

查准与查全：在风险内容识别上，Precision 提升14.02%，Recall 提升10.28%。

以上测试基于小红书内容审核2个风险域多个未参与训练的风险标签（训练和测试细节见论文附件A部分），查准和查全严格遵循元风险标签，非黑白两个类别。论文地址：

https://arxiv.org/pdf/2508.03296

以上测试基于小红书内容审核2个风险域多个未参与训练的风险标签（训练和测试细节见论文(https://arxiv.org/pdf/2508.03296)附件A部分），查准和查全严格遵循元风险标签，非黑白两个类别。

消融分析：实验证明，规则的结构化注入对模型性能提升最为显著，其次是层级标签的设计。

3.2 可解释性：让模型“讲人话”，拒绝张冠李戴

通过 Chain-of-Thought (CoT) 机制，Hi-Guard 会先输出一段结构化的推理过程，再给出结论。

案例对比：面对一张儿童室内写真的图片，画面背景中出现了一个酒瓶。

SFT 模型（传统微调）：看到酒瓶就产生了“幻觉”，直接判定为“未成年饮酒” (Underage Drinking)，完全忽视了这是摆拍场景而非真实饮酒行为。
Hi-Guard：它展现了缜密的推理能力——首先识别出酒瓶的存在，但结合场景排除了饮酒风险；随后，它根据规则定义，敏锐地捕捉到了画面中儿童穿着背心短裤可能存在的风险点，精准判定为“未成年内衣裤暴露” (Underwear Exposure)。

这证明了Hi-Guard 不仅能识别风险，更能精准定义风险，避免了传统模型“看图编故事”的毛病。

Hi-Guard 成功验证了一条可规模化的内容审核路径：用强化学习驱动生成式推理，并利用政策规则对齐和层级约束引导模型行为。

未来，我们将探索更具动态性的“指令化审核大模型”，使业务团队仅通过修改Prompt 即可实时生效新的审核策略，进一步推动小红书内容治理向智能化、透明化演进。

李安琪

现博士就读于上海交通大学，小红书应用算法内容理解组算法实习生，主要研究方向：视频生成、多模态大模型。作为第一作者，已在顶级国际会议（如 ICLR、KDD）上发表多篇论文。

玉京

小红书应用算法内容理解组基础算法工程师。曾在 NeurIPS、KDD、IJCAI 等会议发表多篇论文。主要负责小红书内容安全审核业务的多模态理解、检索匹配算法研发，并推进相关平台能力建设与落地。

擒虎

小红书应用算法内容理解组算法负责人，负责内容安全审核相关业务的算法研究与应用。在内容安全、生态治理以及搜索推荐等方向拥有多年经验。

内容安全-多模态大模型审核算法专家（社招）

工作职责

小红书应用算法内容理解组，目前专注于多模态大模型在内容安全场景的技术落地，希望通过多模态大模型的表征和理解能力，更快、更好和更有效率建设CV&多模态业务标签体系。保障信息流场景的内容安全，工作内容包括但不限于：

围绕内容安全场景，应用大模型/NLP/CV/多模态算法能力进行内容理解，构建内容风险标签体系，降低内容违规风险；
负责多模态大模型在安全领域理解相关研究，包括高效微调、逻辑推理、agent设计及评价机制等，并推进相关模型落地应用；
内容安全应急能力建设，建设完整的突发事件治理能力，借助内容识别、行为理解能力对常规内容和复杂内容进行识别处置。

任职资格

熟练掌握CV/NLP/多模态、机器学习、数据挖掘中一项或多项，能够对业务问题进行技术方案拆解，同时具备较强的工程实现能力；
具备跨部门沟通和协调能力，与产品、运营等部门进行沟通和协调的能力，保障定义清晰、落地到位；
具备较强的问题分析能力，能够结合业务场景快速建模和设计算法，分析算法的不足并提出解决方案；
具备广告审核、内容生态、内容安全、内容分发等领域工作经验者优先；
有成果发表在ICLR、CVPR、ICCV、ECCV、NeurIPS、ICML、TPAMI等国际顶级会议、期刊者加分。

投递邮箱

[email protected]

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：小红书技术REDtech 等你加入的等你加入的《KDD 2026 | 小红书内容审核：Hi-Guard 让内容治理“知其然，更知其所以然”》