2026-03-12 22:54:58 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： ICLR2026论文揭示文言文可近乎百分之百绕过主流大模型安全检测。研究提出的CC-BOS框架结合文言文与仿生算法，在GPT-4o等六大顶级模型上实现百分之百攻击成功率，平均仅需一到两次尝试。该漏洞源于模型对文言文语义理解与安全过滤机制的不匹配。随着AI智能体权限提升，此类语言漏洞恐引发严重安全威胁，亟需构建更深层的防御机制。 综合评分： 85 文章分类： AI安全,漏洞分析,红队,威胁情报

cover_image

文言文击穿大模型安全防线，顶级模型的全线溃败

信安在线资讯

2026年3月12日 08:59 北京

随着 OpenClaw 等 AI 智能体工具迅速走红，越来越多的人开始尝试让 AI 接管电脑执行各种任务。然而就在这一波热潮之中，工信部连续发布安全提示，也让这场技术狂欢多了一丝冷静。

当 AI 智能体逐渐具备操作系统级权限时，一个无法回避的问题也随之浮出水面：

智能体到底是否安全？

而这个问题，很大程度上取决于为其提供“思考能力”的——大语言模型。

如果模型的安全限制太弱，AI 就可能输出违法、有害甚至危险的信息，国外已经出现过多起因为 AI 内容而引发的诉讼案例。

但如果安全策略过于严格，又会严重影响模型能力，使其难以产生有创造力的回答。

在这个平衡问题上，目前的 AI 模型呈现出明显差异。

例如马斯克的 Grok 几乎不设置过多限制，许多内容都可以直接回答，这让它在娱乐和社交平台上极具话题性。

而国产的 DeepSeek 则采取了完全不同的策略，只要提问中出现疑似敏感内容，模型往往直接拒绝回答，以最大限度避免风险。

这种极端的安全策略虽然提高了安全性，却也明显削弱了模型的可用性。

AI安全与“越狱”的博弈

为了绕开这些安全限制，AI 爱好者和研究人员不断尝试新的方法。

常见手段包括：

改用英文提问
调整语序
更换表达方式
利用隐晦提示词

不过随着模型对齐机制的不断升级，这些技巧的成功率正在下降。

然而近期一篇被 ICLR 2026 接收的论文却提出了一个出人意料的结论：

文言文几乎可以100%绕过当前主流大模型的安全检测机制。

换句话说，来自中国古代的语言体系，竟然成为现代 AI 安全系统的“天然漏洞”。

大模型的“文化盲区”

研究人员指出，大语言模型在多语言环境下往往存在明显差异。

由于训练语料中英文占比极高，因此很多安全规则也是围绕现代语言构建的。

一些冷门小语种由于语料太少，模型甚至难以理解，自然也无法用于绕过安全限制。

但文言文却是一个例外。

作为中国古代长期使用的正式书面语言，大量历史文献为模型提供了丰富语料，因此 AI 能够理解文言文。

然而与此同时，文言文却具备几个特殊特征：

1、信息高度压缩

短短几个字往往包含复杂含义。

2、语义多义性

同一句话甚至同一个字都可能存在多种解释。

3、隐喻与典故丰富

借代、象征、历史典故等表达方式极其常见。

这些特性让现代 AI 安全检测机制很难准确判断内容是否违规。

于是出现一种奇特现象：

模型可以理解用户意图，但安全过滤系统却无法识别其中风险。

CC-BOS：用“语文+生物算法”攻击AI

为验证这一漏洞，研究团队设计了一套名为 CC-BOS 的攻击框架（Classical Chinese Bionic Optimization Search）。

这个框架结合了两种思路：

文言文提示词工程
仿生优化算法

研究人员首先将 AI 的安全弱点拆分为 8 个维度，例如：

角色身份设定（Role Identity）
行为引导（Behavior Guidance）
隐喻映射（Metaphor Mapping）
文体限制（Expression Style）
情景设定
触发机制
知识关联
叙事结构

简单来说，就是让 AI：

“假装生活在古代，以古人的身份回答问题。”

通过这种方式，现代安全检测系统很容易被误导。

果蝇算法：自动寻找漏洞

在数万种提示词组合中寻找有效攻击策略并不容易，因此研究团队引入了一种生物算法：

Fruit Fly Optimization（果蝇优化算法）

其工作逻辑类似果蝇寻找食物：

#

第一阶段：嗅觉搜索

算法随机生成提示词进行测试，一旦某个提示词略微突破安全机制，就围绕它进行微调。

第二阶段：视觉搜索

一旦发现效果较好的提示词，系统会让更多提示词向该方向优化。

第三阶段：柯西突变

如果当前策略始终无法突破安全防御，算法会直接放弃当前路径，重新探索完全不同的策略。

通过这种方式，系统可以在庞大的提示词空间中快速寻找漏洞。

顶级模型全部失守

研究团队测试了当时最先进的六个模型：

GPT-4o
Claude-3.7 Sonnet
Gemini-2.5 Flash
Grok-3
DeepSeek Reasoner
Qwen3

结果令人震惊：

攻击成功率达到 100%。

更令人担忧的是攻击效率。

传统越狱攻击通常需要 50-90 次以上尝试。

而 CC-BOS 的平均尝试次数仅为：

1.12 – 2.38 次。

也就是说，大多数情况下：

不到三次尝试就能成功绕过安全机制。

这意味着攻击几乎没有成本，同时也极难被监测。

此外，研究人员还发现这些提示词具有很强的跨模型迁移能力。

在一个模型上生成的攻击提示词，放到其他模型上依然能保持 80%–96% 的成功率。

这说明问题并不是某个模型的漏洞，而是当前大语言模型体系的普遍弱点。

智能体时代的安全挑战

如果 AI 仅仅用于聊天，这个问题或许并不会造成太大影响。

但随着 AI 智能体逐渐具备操作电脑和手机的能力，情况就完全不同了。

试想一种场景：

攻击者不需要编写复杂病毒，只需在网页、邮件或 PDF 中嵌入一段精心设计的文言文指令。

当 AI 智能体读取这些内容时，安全机制可能完全无法识别风险。

于是 AI 在不知情的情况下：

读取用户文件
打包敏感数据
上传到远程服务器

一切都在自动完成。

语言理解层面的漏洞，最终可能直接威胁现实世界的资产安全。

结语

文言文越狱事件揭示了一个事实：

当前的大模型安全机制，很大程度上仍停留在浅层过滤阶段。

而复杂的神经网络本身就像一个黑盒，人类很难完全理解其中的运作方式。

文言文或许只是一个偶然被发现的漏洞。

在那些尚未被探索的角落，很可能还隐藏着更多未知的安全盲区。

当 AI 智能体逐渐成为数字生活的“操作系统”时，如何建立真正可靠的安全机制，已经成为整个 AI 行业必须面对的关键问题。

原文来源：安全圈

end

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：信安在线资讯《文言文击穿大模型安全防线，顶级模型的全线溃败》