文章总结: ICLR2026论文揭示文言文可近乎百分之百绕过主流大模型安全检测。研究提出的CC-BOS框架结合文言文与仿生算法,在GPT-4o等六大顶级模型上实现百分之百攻击成功率,平均仅需一到两次尝试。该漏洞源于模型对文言文语义理解与安全过滤机制的不匹配。随着AI智能体权限提升,此类语言漏洞恐引发严重安全威胁,亟需构建更深层的防御机制。 综合评分: 85 文章分类: AI安全,漏洞分析,红队,威胁情报
文言文击穿大模型安全防线,顶级模型的全线溃败
信安在线资讯
2026年3月12日 08:59 北京
随着 OpenClaw 等 AI 智能体工具迅速走红,越来越多的人开始尝试让 AI 接管电脑执行各种任务。然而就在这一波热潮之中,工信部连续发布安全提示,也让这场技术狂欢多了一丝冷静。
当 AI 智能体逐渐具备操作系统级权限时,一个无法回避的问题也随之浮出水面:
智能体到底是否安全?
而这个问题,很大程度上取决于为其提供“思考能力”的——大语言模型。
如果模型的安全限制太弱,AI 就可能输出违法、有害甚至危险的信息,国外已经出现过多起因为 AI 内容而引发的诉讼案例。
但如果安全策略过于严格,又会严重影响模型能力,使其难以产生有创造力的回答。
在这个平衡问题上,目前的 AI 模型呈现出明显差异。
例如马斯克的 Grok 几乎不设置过多限制,许多内容都可以直接回答,这让它在娱乐和社交平台上极具话题性。
而国产的 DeepSeek 则采取了完全不同的策略,只要提问中出现疑似敏感内容,模型往往直接拒绝回答,以最大限度避免风险。
这种极端的安全策略虽然提高了安全性,却也明显削弱了模型的可用性。
AI安全与“越狱”的博弈
为了绕开这些安全限制,AI 爱好者和研究人员不断尝试新的方法。
常见手段包括:
- 改用英文提问
- 调整语序
- 更换表达方式
- 利用隐晦提示词
不过随着模型对齐机制的不断升级,这些技巧的成功率正在下降。
然而近期一篇被 ICLR 2026 接收的论文却提出了一个出人意料的结论:
文言文几乎可以100%绕过当前主流大模型的安全检测机制。
换句话说,来自中国古代的语言体系,竟然成为现代 AI 安全系统的“天然漏洞”。
#
大模型的“文化盲区”
研究人员指出,大语言模型在多语言环境下往往存在明显差异。
由于训练语料中英文占比极高,因此很多安全规则也是围绕现代语言构建的。
一些冷门小语种由于语料太少,模型甚至难以理解,自然也无法用于绕过安全限制。
但文言文却是一个例外。
作为中国古代长期使用的正式书面语言,大量历史文献为模型提供了丰富语料,因此 AI 能够理解文言文。
然而与此同时,文言文却具备几个特殊特征:
1、信息高度压缩
短短几个字往往包含复杂含义。
2、语义多义性
同一句话甚至同一个字都可能存在多种解释。
3、隐喻与典故丰富
借代、象征、历史典故等表达方式极其常见。
这些特性让现代 AI 安全检测机制很难准确判断内容是否违规。
于是出现一种奇特现象:
模型可以理解用户意图,但安全过滤系统却无法识别其中风险。
#
CC-BOS:用“语文+生物算法”攻击AI
为验证这一漏洞,研究团队设计了一套名为 CC-BOS 的攻击框架(Classical Chinese Bionic Optimization Search)。
这个框架结合了两种思路:
- 文言文提示词工程
- 仿生优化算法
研究人员首先将 AI 的安全弱点拆分为 8 个维度,例如:
- 角色身份设定(Role Identity)
- 行为引导(Behavior Guidance)
- 隐喻映射(Metaphor Mapping)
- 文体限制(Expression Style)
- 情景设定
- 触发机制
- 知识关联
- 叙事结构
简单来说,就是让 AI:
“假装生活在古代,以古人的身份回答问题。”
通过这种方式,现代安全检测系统很容易被误导。
#
果蝇算法:自动寻找漏洞
在数万种提示词组合中寻找有效攻击策略并不容易,因此研究团队引入了一种生物算法:
Fruit Fly Optimization(果蝇优化算法)
其工作逻辑类似果蝇寻找食物:
#
第一阶段:嗅觉搜索
算法随机生成提示词进行测试,一旦某个提示词略微突破安全机制,就围绕它进行微调。
第二阶段:视觉搜索
一旦发现效果较好的提示词,系统会让更多提示词向该方向优化。
第三阶段:柯西突变
如果当前策略始终无法突破安全防御,算法会直接放弃当前路径,重新探索完全不同的策略。
通过这种方式,系统可以在庞大的提示词空间中快速寻找漏洞。
#
顶级模型全部失守
研究团队测试了当时最先进的六个模型:
- GPT-4o
- Claude-3.7 Sonnet
- Gemini-2.5 Flash
- Grok-3
- DeepSeek Reasoner
- Qwen3
结果令人震惊:
攻击成功率达到 100%。
更令人担忧的是攻击效率。
传统越狱攻击通常需要 50-90 次以上尝试。
而 CC-BOS 的平均尝试次数仅为:
1.12 – 2.38 次。
也就是说,大多数情况下:
不到三次尝试就能成功绕过安全机制。
这意味着攻击几乎没有成本,同时也极难被监测。
此外,研究人员还发现这些提示词具有很强的跨模型迁移能力。
在一个模型上生成的攻击提示词,放到其他模型上依然能保持 80%–96% 的成功率。
这说明问题并不是某个模型的漏洞,而是当前大语言模型体系的普遍弱点。
#
智能体时代的安全挑战
如果 AI 仅仅用于聊天,这个问题或许并不会造成太大影响。
但随着 AI 智能体逐渐具备操作电脑和手机的能力,情况就完全不同了。
试想一种场景:
攻击者不需要编写复杂病毒,只需在网页、邮件或 PDF 中嵌入一段精心设计的文言文指令。
当 AI 智能体读取这些内容时,安全机制可能完全无法识别风险。
于是 AI 在不知情的情况下:
- 读取用户文件
- 打包敏感数据
- 上传到远程服务器
一切都在自动完成。
语言理解层面的漏洞,最终可能直接威胁现实世界的资产安全。
#
结语
文言文越狱事件揭示了一个事实:
当前的大模型安全机制,很大程度上仍停留在浅层过滤阶段。
而复杂的神经网络本身就像一个黑盒,人类很难完全理解其中的运作方式。
文言文或许只是一个偶然被发现的漏洞。
在那些尚未被探索的角落,很可能还隐藏着更多未知的安全盲区。
当 AI 智能体逐渐成为数字生活的“操作系统”时,如何建立真正可靠的安全机制,已经成为整个 AI 行业必须面对的关键问题。
原文来源:安全圈
end
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:信安在线资讯 《文言文击穿大模型安全防线,顶级模型的全线溃败》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。








评论