文章总结: 该文分享了LLM词表污染研究,定义了符合3U原则的PoCtokens,并发现GPT-4o等模型词表污染率高达46.6%,导致模型无法理解相关内容。研究团队通过微调GLM-4构建POCDETECT检测器,并利用ID与频率映射关系追溯训练语料污染程度。结论强调了数据清洗与词表安全对大模型可靠性的重要性。 综合评分: 86 文章分类: AI安全,数据安全,威胁情报
【论文分享】LLM词表的污染中文token与训练语料污染
原创
创新研究院
绿盟科技研究通讯
2025年12月29日 17:54 北京
一. 引言
大模型安全研究通常聚焦于模型、数据和供应链的安全,而最近的一篇文献《Speculating LLMs’ Chinese Training Data Pollution from Their Tokens》对GPT等不同大模型家族的词表进行了研究,发现大模型的词表中普遍存在污染中文词元(PoC tokens),在此基础上以主流中文语言学的角度给出了PoC tokens的定义和分类,并发现通过PoC tokens能够推测出训练语料库的污染程度,揭示了词表安全对大模型安全的重要性。
二. Token与大模型
大语言模型(Large Language Model,LLMs)的训练数据大多来自于互联网,有时会通过爬虫获取公开数据作为训练集的一部分。在这部分开源数据中,很可能存在网络赌博、色情等不合规的污染内容,如果没有进行严格的数据清洗,将影响到LLMs的响应质量。
在当前大模型的安全研究与应用中,关于LLMs的数据污染研究大多集中在训练数据的污染上,词表污染较少被关注到。而近期的一些研究发现,词表当中存在的污染tokens会引发大模型的响应出现异常,甚至可以借助污染tokens窥见模型预训练语料的污染情况,这一发现给大模型的安全防护提供了新的视角。
要想研究污染tokens对LLMs的影响,首先需要理解tokens与LLMs之间的联系。LLMs在处理数据时“看到的”并非自然语言,而是一个个token,也就是说,token是LLMs处理文本时的基本单元。通过分词技术(如BPE、WordPiece等)将自然语言划分为短小的字词并映射为数值向量,使得模型可以用有限的词表表达出无限的语言组合。由于采用的分词技术和训练数据存在差异,LLMs的词表大小、内容也存在不同,而词表的质量会对LLMs的响应质量造成影响。
图1 大模型的token[1]
如果大模型的词表中混入污染tokens,就会扰乱模型的输出,例如,GPT-4o面对“天天中彩票”会进行与问题无关的响应:
图2 污染中文token对模型响应的影响[2]
LLMs面对污染中文tokens进行响应时可能会关联到非相关内容的现象,说明模型对于污染中文tokens的理解准确率较正常中文tokens更低。《Speculating LLMs’ Chinese Training Data Pollution from Their Tokens》[3]的研究团队进一步评估了模型对于污染中文tokens的内部理解能力和外部生成能力,发现当输入涉及到污染中文tokens时,GPT-4.5、GPT-4.1和GPT-4o无法解释其含义,只会生成无意义内容,也无法重复污染词元,而是生成不相关的内容。
图 3 LLMs无法理解和重复污染中文tokens[3]
经统计,GPT-4.5、GPT-4.1和GPT-4o的中文token污染比例达到了46.6%,而中文词元库没有受到污染的GPT-4-turbo能够解释并复现污染中文tokens,可见词表中存在的污染中文tokens会对模型的响应造成干扰。这种词元表中存在污染的情况在其他大模型(如Qwen、DeepSeek-V3/R1)中也被发现,污染中文tokens的广泛存在反映出数据清洗的重要性。
三. 污染中文词元PoC tokens
3.1
PoC tokens定义和分类
文献将污染中文词元(Polluted Chinese tokens,PoC tokens)定义为编码了“3U原则”的中文词汇,也即需满足“不希望出现(Undesirable)、不常见(Uncommon)、无用(Useless)”中的至少一项。其中,“不希望出现(Undesirable)”指不适当、不道德或违反法律规定的内容(例如色情/赌博相关的表达),“不常见(Uncommon)”指非标准的中文表达,通常不太可能出现在标准中文语言环境中(例如“大香蕉”这类表述)、“无用(Useless)”指语义价值缺失的表述(例如“给主人留下些什么吧”)。
在该定义的基础上,PoC tokens被进一步划分为五个类别:
1) 成人内容:明确/隐晦的色情相关内容,如“青青草”。
2) 在线赌博:赌博网站、投注平台、彩票或相关的赌博活动,如“天天中彩票”。
3) 在线游戏:非官方或未授权的在线游戏服务,如“传奇私服”。
4) 在线视频:在线视频平台或流媒体内容,如“免费视频”。
5) 异常内容:出现频率低、表达奇特或语境无关的短语,如“给主人留下些什么吧”。
3.2
PoC tokens标注
将上节中的五个类别作为标签,该团队组建了专家团队(6位哲学、社会学、中文语言学、计算机科学和人工智能博士学位的专家,以及6位大学本科生)对GPT词汇表中的PoC tokens进行了标注。标注过程中,专家不仅会依赖自身的中文知识,为保障准确性,同时也会结合搜索引擎中的内容确定token的标签。
图 4 标注流程
团队同时构建了一个标记系统(见下图),该系统用于自动记录和计算标记结果。
图 5 标记系统
3.3
PoC tokens的检测
检测PoC tokens的任务需要模型对PoC tokens具备良好的理解能力,但正如前文提到,GPT无法理解PoC tokens,因此自动化检测其他LLM中的PoC tokens无法直接借助GPT。文献选用中文理解能力出众且词表污染程度较低的GLM-4-32B模型进行微调,构建PoC tokens检测器POCDETECT。
同时,考虑到PoC tokens可能比较隐晦,其语义特征往往难以直接呈现,在检测时通常需要结合上下文信息,文献在检测时结合了网页浏览机制,使用SerpAPI检索查询待评估token的前10条Google搜索结果,从中提取出结构化信息(具体包括搜索结果标题、搜索结果摘要、网址信息、搜索结果排序、页面日期),然后将这些信息作为上下文信息放入提示中。
检测使用的提示词模板如下,该模板能够使微调后的模型系统地根据语义属性和上下文关联来分析token:
图 6 检测PoC tokens采用的提示词模板
3.4
PoC tokens溯源
文献提出的PoC tokens溯源方法POCTRACE是一种量化估计方法,通过”频率-token ID映射”揭示了特定PoC token在训练语料库中的出现频率,反推训练语料库的污染程度。具体思路如下:
由于自然语言语料库中某个词的出现频率与其在语料库中的排名大致成反比,可以依此建立起词元与其出现频率之间的关系。文献认为可以基于词元ID与词频之间的关系模型,根据词元ID估算该词在训练语料库中的占比,从而估计出训练语料的污染程度。
为了探究词元与词频之间的统计规律,文献首先在开源语料库上训练了BPE tokenizer,并统计生成词汇表中每个词元的出现频率。在获取到所有频率-token ID对后,将两者进行对数转换为线性关系,由此绘制的散点图(见图7)呈现了数据点的分布情况。从图中可以看出,虽然数据点并没有完全契合线性分布规律,但其上下边界大致呈现出线性关系,因此可以通过推导上下界确认数据点的范围,以此达成凭借词元ID估算训练语料库中词元频率范围的目标。
图 7 tokenID与词频之间的映射关系
文献在开源语料库Pile、C4、Dolma和Roots上进行了验证,表明POCTRACE能有效估算预训练语料库中的PoC token频率,并且在不同训练语料库之间具备可迁移性,可用于对训练语料库整体污染情况的评估。
图 8 POCTRACE估计的词频边界准确率
四. 总结
《Speculating LLMs’ Chinese Training Data Pollution from Their Tokens》这篇文献聚焦LLMs中的token污染问题,以污染中文词元(PoC tokens)为研究对象,指出借助PoC tokens能够推测出模型训练语料库的污染程度,揭示了词表污染对LLM可靠性和安全性的影响。这项研究也发现PoC tokens广泛存在于大模型中,提醒大模型防御也应当关注token的污染与安全问题。
在本文的研究基础上,未来研究可延伸拓展探索更多关于LLMs安全的相关问题,例如:检测PoC tokens时能否在上下界计算的基础上,结合其他语义识别方法提高检测准确率?除中文外的其他语言是否存在同样的污染tokens,又是否对LLMs有着同样的影响?污染tokens除了能够推断出训练语料库的污染情况,是否还能够挖掘出其他的隐私信息?从token着手挖掘LLMs的安全性之后可能会成为一个有趣的研究方向。
内容编辑:杨鑫宜
责任编辑:舒 展
参考文献
[1] https://www.xiaohongshu.com/explore/68aed5ab000000001c01068f?app_platform=android&ignoreEngage=true&app_version=9.2.0&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBmNFQK5nocw95aHtjgwlAuHy6UA7J7riEK_EfuW4ft-U=&author_share=1&xhsshare=WeixinSession&shareRedId=N0s1Nzw5NUA2NzUyOTgwNjY0OTc1S0hN&apptime=1758705868&share_id=6f72232eaa0f4b178a8f3a3b2c23f237&share_channel=wechat&wechatWid=af8ffbe03f3c23e890a783314993f344&wechatOrigin=menu
[2] https://github.com/openai/tiktoken/issues/297
[3] Zhang Q, Wang D, Qian H, et al. Speculating LLMs’ Chinese Training Data Pollution from Their Tokens[J]. arXiv preprint arXiv:2508.17771, 2025.
本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。
关于我们
绿盟科技研究通讯由绿盟科技创新研究院负责运营,绿盟科技创新研究院是绿盟科技的前沿技术研究部门,包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。
绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。
我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。
长按上方二维码,即可关注我
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:绿盟科技研究通讯 创新研究院《【论文分享】LLM词表的污染中文token与训练语料污染》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。








评论