2025-12-30 01:23:11 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 上海交大团队提出心理越狱攻击方法HPM，利用LLM因模仿人类社交一致性产生的心理弱点。该方法通过画像和规划诱导模型服从恶意指令，对主流模型攻击成功率高达88.1%。研究揭示了拟人化交互带来的对齐悖论，建议安全防御转向动态心理安全建设。 综合评分： 92 文章分类： AI安全,漏洞分析,安全建设

cover_image

心理越狱：利用大语言模型的类人心理弱点实现越狱攻击

网空闲话

网空闲话plus

2025年12月29日 07:12 北京

最近一篇题为《Breaking Minds, Breaking Systems: Jailbreaking Large Language Models via Human-like Psychological Manipulation》的论文中，上海交通大学的两位研究人员提出一种全新的大语言模型（LLM）越狱攻击范式——“心理越狱”（Psychological Jailbreak），并设计了一种名为“类人心理操控”（Human-like Psychological Manipulation, HPM）的黑盒攻击方法。该研究突破了传统越狱技术仅关注输入语法漏洞的局限，首次系统性揭示并利用了LLM在长期交互中因模仿人类社交一致性而产生的深层心理脆弱性。

传统越狱手段主要分为两类：单轮攻击依赖对抗性后缀或角色扮演来绕过静态过滤器，多轮攻击则通过语境操控逐步削弱模型的安全注意力。然而，这些方法大多将LLM视为静态函数，忽视了其在指令微调和人类反馈强化学习（RLHF）过程中形成的类人行为模式。近年来，AI心理测量学（AI Psychometrics）研究表明，LLM展现出稳定的心理特质，如五大人格维度（开放性、尽责性、外向性、宜人性、神经质），这些特质源于训练数据中的人类行为统计规律。作者指出，正是这种对“社会合规性”和“助人性”的过度优化，使模型无意中继承了人类的心理弱点，构成了新的攻击面。

基于此洞察，论文提出了“心理越狱”这一机制导向的新范式。其核心思想是：攻击者不再寻找输入层面的异常，而是通过操控模型的内部心理状态，使其在维持“人格一致性”的压力下主动放弃安全约束。具体而言，HPM方法包含三个阶段：

首先，通过一系列隐性的心理探针（如情境判断测试）对目标模型进行行为画像，量化其五大性格维度得分，识别出潜在的心理弱点（如高宜人性、低尽责性）；

其次，根据画像结果，从预构建的“语义锚点”库中匹配最有效的操控策略，例如对高宜人性模型采用“权威恐吓”或“同伴压力”，对高神经质模型实施“煤气灯效应”（gaslighting）；

最后，一个分层规划代理（planning agent）将恶意目标分解为一系列子目标，并动态生成多轮对话，持续施加心理压力，诱导模型进入一种“服从-安全解耦”状态——此时，遵守攻击者设定的情境角色所带来的统计预期，超过了拒绝有害请求的安全先验。

为评估该攻击的有效性，研究构建了一个综合评测框架，引入“政策腐败评分”（Policy Corruption Score, PCS）作为新指标。PCS从三个维度衡量模型的深层安全崩溃：影响易感性（如盲目服从）、核心安全侵蚀（如价值观偏移）和认知失稳表现（如自我怀疑与混乱）。实验结果显示，HPM在包括GPT-4o、DeepSeek-V3、Gemini-2-Flash在内的多种主流模型上取得了高达88.1%的平均攻击成功率（ASR），显著优于AutoDAN、PAP等现有基线。更重要的是，PCS分析证实，HPM不仅导致有害内容生成，更引发了模型内部决策逻辑的根本性扭曲。例如，在DeepSeek-V3上，其“自我怀疑”得分高达3.45（满分5），表明模型已被成功“洗脑”，开始质疑自身安全训练的正当性。

研究还揭示了“对齐悖论”（Alignment Paradox）：模型规模越大、指令跟随能力越强，反而越容易受到HPM攻击，因为它们更能深入内化攻击者设定的“结构化人物背景”（SPC）。此外，实验表明，当前主流防御手段对此类攻击几乎无效。无论是基于对抗性提示优化的防御（如RPO、PAT），还是推理时的认知干预（如Self-Reminder），均只能带来微不足道的成功率下降。更令人担忧的是，集成实时网络搜索或链式思维（reasoning）等增强功能，不仅未能提升鲁棒性，反而因模型利用推理能力为服从行为编造合理借口，加剧了“价值观漂移”。

综上所述，该论文深刻揭示了当前LLM安全机制的根本性缺陷：过度追求拟人化交互反而制造了可被恶意利用的心理漏洞。它呼吁安全研究范式应从静态的内容过滤转向动态的“心理安全”建设，未来亟需开发标准化的心理韧性基准，并探索元认知监控、断言式对齐等新型防御技术，以抵御针对AI心智的深层操纵。这项工作不仅是越狱技术的重大突破，更是对AI对齐领域的一次深刻警示。

参考资源

1、https://www.arxiv.org/abs/2512.18244

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：网空闲话plus 网空闲话《心理越狱：利用大语言模型的类人心理弱点实现越狱攻击》