文言文击穿大模型安全防线,顶级模型的全线溃败

admin 2026-03-12 22:54:58 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: ICLR2026论文揭示文言文可近乎百分之百绕过主流大模型安全检测。研究提出的CC-BOS框架结合文言文与仿生算法,在GPT-4o等六大顶级模型上实现百分之百攻击成功率,平均仅需一到两次尝试。该漏洞源于模型对文言文语义理解与安全过滤机制的不匹配。随着AI智能体权限提升,此类语言漏洞恐引发严重安全威胁,亟需构建更深层的防御机制。 综合评分: 85 文章分类: AI安全,漏洞分析,红队,威胁情报


cover_image

文言文击穿大模型安全防线,顶级模型的全线溃败

信安在线资讯

2026年3月12日 08:59 北京

随着 OpenClaw 等 AI 智能体工具迅速走红,越来越多的人开始尝试让 AI 接管电脑执行各种任务。然而就在这一波热潮之中,工信部连续发布安全提示,也让这场技术狂欢多了一丝冷静。

当 AI 智能体逐渐具备操作系统级权限时,一个无法回避的问题也随之浮出水面:

智能体到底是否安全?

而这个问题,很大程度上取决于为其提供“思考能力”的——大语言模型

如果模型的安全限制太弱,AI 就可能输出违法、有害甚至危险的信息,国外已经出现过多起因为 AI 内容而引发的诉讼案例。

但如果安全策略过于严格,又会严重影响模型能力,使其难以产生有创造力的回答。

在这个平衡问题上,目前的 AI 模型呈现出明显差异。

例如马斯克的 Grok 几乎不设置过多限制,许多内容都可以直接回答,这让它在娱乐和社交平台上极具话题性。

而国产的 DeepSeek 则采取了完全不同的策略,只要提问中出现疑似敏感内容,模型往往直接拒绝回答,以最大限度避免风险。

这种极端的安全策略虽然提高了安全性,却也明显削弱了模型的可用性。


AI安全与“越狱”的博弈

为了绕开这些安全限制,AI 爱好者和研究人员不断尝试新的方法。

常见手段包括:

  • 改用英文提问
  • 调整语序
  • 更换表达方式
  • 利用隐晦提示词

不过随着模型对齐机制的不断升级,这些技巧的成功率正在下降。

然而近期一篇被 ICLR 2026 接收的论文却提出了一个出人意料的结论:

文言文几乎可以100%绕过当前主流大模型的安全检测机制。

换句话说,来自中国古代的语言体系,竟然成为现代 AI 安全系统的“天然漏洞”。


#

大模型的“文化盲区”

研究人员指出,大语言模型在多语言环境下往往存在明显差异。

由于训练语料中英文占比极高,因此很多安全规则也是围绕现代语言构建的。

一些冷门小语种由于语料太少,模型甚至难以理解,自然也无法用于绕过安全限制。

但文言文却是一个例外。

作为中国古代长期使用的正式书面语言,大量历史文献为模型提供了丰富语料,因此 AI 能够理解文言文

然而与此同时,文言文却具备几个特殊特征:

1、信息高度压缩

短短几个字往往包含复杂含义。

2、语义多义性

同一句话甚至同一个字都可能存在多种解释。

3、隐喻与典故丰富

借代、象征、历史典故等表达方式极其常见。

这些特性让现代 AI 安全检测机制很难准确判断内容是否违规。

于是出现一种奇特现象:

模型可以理解用户意图,但安全过滤系统却无法识别其中风险


#

CC-BOS:用“语文+生物算法”攻击AI

为验证这一漏洞,研究团队设计了一套名为 CC-BOS 的攻击框架(Classical Chinese Bionic Optimization Search)。

这个框架结合了两种思路:

  • 文言文提示词工程
  • 仿生优化算法

研究人员首先将 AI 的安全弱点拆分为 8 个维度,例如:

  • 角色身份设定(Role Identity)
  • 行为引导(Behavior Guidance)
  • 隐喻映射(Metaphor Mapping)
  • 文体限制(Expression Style)
  • 情景设定
  • 触发机制
  • 知识关联
  • 叙事结构

简单来说,就是让 AI:

“假装生活在古代,以古人的身份回答问题。”

通过这种方式,现代安全检测系统很容易被误导。


#

果蝇算法:自动寻找漏洞

在数万种提示词组合中寻找有效攻击策略并不容易,因此研究团队引入了一种生物算法:

Fruit Fly Optimization(果蝇优化算法)

其工作逻辑类似果蝇寻找食物:

#

第一阶段:嗅觉搜索

算法随机生成提示词进行测试,一旦某个提示词略微突破安全机制,就围绕它进行微调。

第二阶段:视觉搜索

一旦发现效果较好的提示词,系统会让更多提示词向该方向优化。

第三阶段:柯西突变

如果当前策略始终无法突破安全防御,算法会直接放弃当前路径,重新探索完全不同的策略。

通过这种方式,系统可以在庞大的提示词空间中快速寻找漏洞。


#

顶级模型全部失守

研究团队测试了当时最先进的六个模型:

  • GPT-4o
  • Claude-3.7 Sonnet
  • Gemini-2.5 Flash
  • Grok-3
  • DeepSeek Reasoner
  • Qwen3

结果令人震惊:

攻击成功率达到 100%。

更令人担忧的是攻击效率。

传统越狱攻击通常需要 50-90 次以上尝试

而 CC-BOS 的平均尝试次数仅为:

1.12 – 2.38 次。

也就是说,大多数情况下:

不到三次尝试就能成功绕过安全机制。

这意味着攻击几乎没有成本,同时也极难被监测。

此外,研究人员还发现这些提示词具有很强的跨模型迁移能力

在一个模型上生成的攻击提示词,放到其他模型上依然能保持 80%–96% 的成功率。

这说明问题并不是某个模型的漏洞,而是当前大语言模型体系的普遍弱点


#

智能体时代的安全挑战

如果 AI 仅仅用于聊天,这个问题或许并不会造成太大影响。

但随着 AI 智能体逐渐具备操作电脑和手机的能力,情况就完全不同了。

试想一种场景:

攻击者不需要编写复杂病毒,只需在网页、邮件或 PDF 中嵌入一段精心设计的文言文指令。

当 AI 智能体读取这些内容时,安全机制可能完全无法识别风险。

于是 AI 在不知情的情况下:

  • 读取用户文件
  • 打包敏感数据
  • 上传到远程服务器

一切都在自动完成。

语言理解层面的漏洞,最终可能直接威胁现实世界的资产安全。


#

结语

文言文越狱事件揭示了一个事实:

当前的大模型安全机制,很大程度上仍停留在浅层过滤阶段

而复杂的神经网络本身就像一个黑盒,人类很难完全理解其中的运作方式。

文言文或许只是一个偶然被发现的漏洞。

在那些尚未被探索的角落,很可能还隐藏着更多未知的安全盲区。

当 AI 智能体逐渐成为数字生活的“操作系统”时,如何建立真正可靠的安全机制,已经成为整个 AI 行业必须面对的关键问题。


原文来源:安全圈

end


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:信安在线资讯 《文言文击穿大模型安全防线,顶级模型的全线溃败》

评论:0   参与:  0