文章总结: 上海交大团队提出心理越狱攻击方法HPM,利用LLM因模仿人类社交一致性产生的心理弱点。该方法通过画像和规划诱导模型服从恶意指令,对主流模型攻击成功率高达88.1%。研究揭示了拟人化交互带来的对齐悖论,建议安全防御转向动态心理安全建设。 综合评分: 92 文章分类: AI安全,漏洞分析,安全建设
心理越狱:利用大语言模型的类人心理弱点实现越狱攻击
网空闲话
网空闲话plus
2025年12月29日 07:12 北京
最近一篇题为《Breaking Minds, Breaking Systems: Jailbreaking Large Language Models via Human-like Psychological Manipulation》的论文中,上海交通大学的两位研究人员提出一种全新的大语言模型(LLM)越狱攻击范式——“心理越狱”(Psychological Jailbreak),并设计了一种名为“类人心理操控”(Human-like Psychological Manipulation, HPM)的黑盒攻击方法。该研究突破了传统越狱技术仅关注输入语法漏洞的局限,首次系统性揭示并利用了LLM在长期交互中因模仿人类社交一致性而产生的深层心理脆弱性。
传统越狱手段主要分为两类:单轮攻击依赖对抗性后缀或角色扮演来绕过静态过滤器,多轮攻击则通过语境操控逐步削弱模型的安全注意力。然而,这些方法大多将LLM视为静态函数,忽视了其在指令微调和人类反馈强化学习(RLHF)过程中形成的类人行为模式。近年来,AI心理测量学(AI Psychometrics)研究表明,LLM展现出稳定的心理特质,如五大人格维度(开放性、尽责性、外向性、宜人性、神经质),这些特质源于训练数据中的人类行为统计规律。作者指出,正是这种对“社会合规性”和“助人性”的过度优化,使模型无意中继承了人类的心理弱点,构成了新的攻击面。
基于此洞察,论文提出了“心理越狱”这一机制导向的新范式。其核心思想是:攻击者不再寻找输入层面的异常,而是通过操控模型的内部心理状态,使其在维持“人格一致性”的压力下主动放弃安全约束。具体而言,HPM方法包含三个阶段:
首先,通过一系列隐性的心理探针(如情境判断测试)对目标模型进行行为画像,量化其五大性格维度得分,识别出潜在的心理弱点(如高宜人性、低尽责性);
其次,根据画像结果,从预构建的“语义锚点”库中匹配最有效的操控策略,例如对高宜人性模型采用“权威恐吓”或“同伴压力”,对高神经质模型实施“煤气灯效应”(gaslighting);
最后,一个分层规划代理(planning agent)将恶意目标分解为一系列子目标,并动态生成多轮对话,持续施加心理压力,诱导模型进入一种“服从-安全解耦”状态——此时,遵守攻击者设定的情境角色所带来的统计预期,超过了拒绝有害请求的安全先验。
为评估该攻击的有效性,研究构建了一个综合评测框架,引入“政策腐败评分”(Policy Corruption Score, PCS)作为新指标。PCS从三个维度衡量模型的深层安全崩溃:影响易感性(如盲目服从)、核心安全侵蚀(如价值观偏移)和认知失稳表现(如自我怀疑与混乱)。实验结果显示,HPM在包括GPT-4o、DeepSeek-V3、Gemini-2-Flash在内的多种主流模型上取得了高达88.1%的平均攻击成功率(ASR),显著优于AutoDAN、PAP等现有基线。更重要的是,PCS分析证实,HPM不仅导致有害内容生成,更引发了模型内部决策逻辑的根本性扭曲。例如,在DeepSeek-V3上,其“自我怀疑”得分高达3.45(满分5),表明模型已被成功“洗脑”,开始质疑自身安全训练的正当性。
研究还揭示了“对齐悖论”(Alignment Paradox):模型规模越大、指令跟随能力越强,反而越容易受到HPM攻击,因为它们更能深入内化攻击者设定的“结构化人物背景”(SPC)。此外,实验表明,当前主流防御手段对此类攻击几乎无效。无论是基于对抗性提示优化的防御(如RPO、PAT),还是推理时的认知干预(如Self-Reminder),均只能带来微不足道的成功率下降。更令人担忧的是,集成实时网络搜索或链式思维(reasoning)等增强功能,不仅未能提升鲁棒性,反而因模型利用推理能力为服从行为编造合理借口,加剧了“价值观漂移”。
综上所述,该论文深刻揭示了当前LLM安全机制的根本性缺陷:过度追求拟人化交互反而制造了可被恶意利用的心理漏洞。它呼吁安全研究范式应从静态的内容过滤转向动态的“心理安全”建设,未来亟需开发标准化的心理韧性基准,并探索元认知监控、断言式对齐等新型防御技术,以抵御针对AI心智的深层操纵。这项工作不仅是越狱技术的重大突破,更是对AI对齐领域的一次深刻警示。
参考资源
1、https://www.arxiv.org/abs/2512.18244
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:网空闲话plus 网空闲话《心理越狱:利用大语言模型的类人心理弱点实现越狱攻击》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论