2026-01-28 17:34:18 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 文档指出ChatGPT等主流AI识别Sora深度伪造视频严重失效，失败率超90%。原因在于生成与检测任务差异、水印易丢失及对抗样本难识别。AI常自信误判，加剧虚假信息风险。建议开发专用检测模型，建立统一内容凭证标准，并明确AI能力局限以应对信任危机。 综合评分： 89 文章分类： AI安全,数据安全,技术标准

cover_image

AI检测的失效边界：为何 ChatGPT 难以识别 Sora 生成的深度伪造视频

原创

骨哥说事骨哥说事

骨哥说事

2026年1月28日 10:55 上海

📌 导语：AI 生成 vs AI 识别的惊人鸿沟

随着 AI 生成式内容（AIGC）工具的爆炸性发展，像 OpenAI 的 Sora 这样的文本到视频生成模型已经能够创造出逼真的伪造影像，让人眼难以分辨其真伪。但近期由媒体评级机构 NewsGuard 开展的一项实验显示 —— 就连领先的 AI 聊天助手在识别这些伪造视频时也存在明显短板，其中 OpenAI 自家的 ChatGPT 在测试中对 Sora 生成的视频识别失败率高达 92.5%，这意味着绝大多数伪造视频被错误判定为真实内容。

这一结果不仅令人意外，还直接挑战了公众对 AI 检测能力的预期。

📊 主流 AI 检测能力测试结果

在 NewsGuard 的测试中，分析师采用了 20 个由 Sora 生成、含有明显虚假叙事的视频样本，并分别询问被测试的 AI 是否“真实”或“由 AI 生成”。结果如下：

| AI 检测系统 | 伪造视频识别失败率（无水印） | | — | — | | xAI 官网 Grok | 95.0% | | OpenAI ChatGPT | 92.5% | | Google Gemini | 78.0% |

这意味着在绝大多数情况下，这些 AI 助手无法识别出同一家公司旗下生成系统的产物是“伪造”内容。

📸 示例测试结果可用于直观展示各系统识别能力的差异图：

Grok和ChatGPT在超过90%的情况下未能识别无水印的Sora视频

🔎 水印与元数据为何失效？

Sora 默认为生成的视频添加可见水印和 C2PA 元数据凭证，旨在让观众或系统识别其 AI 来源。但这个机制在实测中存在明显缺陷：

⚠️ 可见水印容易删除

在该实验中，分析师使用免费工具 去除了视频中的可见 “Sora” 水印，使得原本标注身份的视频变成无标记版本，并利用这些样本测试 AI 识别能力。研究指出去除水印后不仅 ChatGPT 识别失败，而且 AI 甚至“自信输出错误判断”。

⚠️ 元数据（C2PA）不稳固

虽然默认还包含隐形内容凭证（C2PA 标准），下载后右键另存为等常见操作会将其完全丢失，甚至在测试环境中，当视频包含该元数据时：

ChatGPT 仍错误声称视频无 C2PA 凭证；
AI 并未能有效利用这一技术性标记来辨伪。

这说明在现实传播场景中，仅凭水印与实时元数据很难确保伪造内容能被 AI 或人类自动检测出来。

🧠 AI 检测失效的技术根本

📌 1. 生成与检测是不同任务

生成模型的目标是“模拟真实”——优化输出质量；而检测模型需要识别生成痕迹与潜在对抗性样本特征，这两者的训练目标完全不同。

ChatGPT 及多数聊天模型并未专门训练或优化用于视觉伪造检测，其核心是语言理解与推理，而非图像／视频特征分析。解读模型甚至声称“无法判断是否由 AI 生成内容”，这本质上是被设计用于描述内容，而非识别来源。

📌 2. 对抗性样本使检测更难

Sora 生成的视频采用最新扩散与场景模拟技术，其帧间动态、光影渲染和语境连贯性极强。大多数通用模型没有接触过这种**“扩散式高级伪造样本”**的检测训练，对这些特征的判别能力不足。学术研究也指出，现有检测器对扩散生成视频的检测鲁棒性明显不足，需要更复杂的时序特征和专门网络训练。

🧠 “自信地错误” —— 更危险的误判行为

更令人担忧的是，不仅是失败识别本身，而是失败后AI 系统往往给出错误确认，甚至生成“伪造的佐证信息”：

有测试视频描述伪造事件，如某执法人员错误行为的深伪内容；
ChatGPT & Gemini 不但未识别为伪造，反而“确认”存在新闻报道和真实来源。

这种“自信错误”比简单未识别更危险，因为它可能赋予错误内容“权威性”，推动错误信息在更广泛社会语境中传播。

🛡 现实风险与深度伪造传播

这些识别失误并非只有实验室现象，而已在现实网络空间中造成恶劣影响：

有用户分享了明显由 Sora 生成并带有水印的视频（如 ICE 官员逮捕了一名六岁儿童），引发大量误导评论与信任危机。
政治、社会事件类深伪可能引发误解、情绪驱动性传播甚至操纵舆论。

这些场景说明 AI 视频识别失败不仅是技术问题，更是社会信任危机与信息治理风险。

📍 技术与治理启示

🧠 1. 检测模型需独立优化

通用聊天模型无论多强，其侧重点不在视频真伪检测。未来防御体系需要专门训练的视觉伪造检测模型，同时结合时序分析、帧级统计与动态差异等技术。

🧠 2. 统一跨平台内容凭证标准

目前各大公司采用不同水印方式（如 Google 的 SynthID 仅识别自己的生成内容），但缺乏跨平台互认标准，导致在第三方检测时存在信息“孤岛”。

🧠 3. 透明披露与模型限制提示

AI 应明确告知用户其无法检测生成内容，并在接口层面实时提醒检测能力限制，而不是自信输出错误判断。

📍 结语：生成与检测的“双向赛跑”

AI 世代工具像 Sora 和 ChatGPT 的这一检测矛盾体现了当下一个核心现实：

生成技术的快速进步远超检测技术的发展速度，单凭现有模型难以有效应对高逼真深伪的泛滥。

在深度伪造内容日益泛滥的时代，单纯依赖一端技术解决问题并不现实。真正可行的防御需要 多层技术结合、行业标准共识、平台责任感及用户教育的长期协同建设。

📚 参考资料

ChatGPT fails to spot 92% of fake videos made by OpenAI’s own Sora tool — Reddit 讨论该检测失败事件。
ChatGPT fails to spot 92% of fake videos made by OpenAI’s own Sora tool — The Decoder 分析 NewsGuard 实验及失效原因。
AI Fools Itself: Top Chatbots Don’t Recognize AI-Generated Videos — NewsGuard 官方测试报道。
Even the most advanced chatbots don’t recognize AI-generated videos — 进一步解读检测失败后果。
Turns Out I’m Not Real: Towards Robust Detection of AI-Generated Videos — 学术研究提出的检测方法改进方向。

END –

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：骨哥说事骨哥说事骨哥说事《AI检测的失效边界：为何 ChatGPT 难以识别 Sora 生成的深度伪造视频》