AI大模型满地跑,12000多个明文密钥四处飙

admin 2026-02-02 00:30:04 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 研究发现DeepSeek等大模型训练数据来源的CommonCrawl中包含逾1.2万个有效API密钥及凭证,源于开发者在前端代码硬编码密钥被抓取。此外WaybackCopilot攻击显示AI工具仍能访问设为私有前的代码库。建议使用TruffleHog等工具扫描数据集,并避免在客户端代码泄露敏感信息。 综合评分: 86 文章分类: 数据泄露,AI安全,漏洞分析,安全工具,威胁情报


cover_image

AI大模型满地跑,12000多个明文密钥四处飙

二进制空间安全

2025年3月1日 20:25 北京

part1

点击上方蓝字关注我们

将二进制空间安全设为”星标⭐️”

第一时间收到文章更新

从2022年ChatGPT横空出世, 到2025年1月的DeepSeek刷屏, 全球都在享受AI带来的全新体验。谁曾想过, 这些大模型的训练数据中却包含12000多个可用的明文密钥, 并且可被用来进行身份验证。

在说明这个问题之前, 首先需要知道什么是公共爬虫服务, 也被称为Common Crawl, 这里维护着一个免费且开放的网页爬取数据库存储库, 在这个庞大的数据集中包含超过了2500亿个网页,时间跨度长达18年。

Common Crawl的下载地址: https://commoncrawl.org/get-started

该存档具体包含了400TB的压缩网页数据, 90000个WARC文件(Web ARChive格式), 以及来自3830万个注册域的4750万个主机的数据。

经分析, Common Crawl 数据集中包含 219 种不同类型的密钥, 这些密钥都是能够成功验证其对应服务的API密钥、密码及其他凭证。

由于LLMs在训练过程中无法区分有效和无效的密钥, 因此二者在提供不安全代码示例时具有同等影响。如图:

公共源代码库中的数据在被设为私有后,仍可能通过 AI 聊天机器人(如 Microsoft Copilot)访问,因为这些数据已被 Bing 索引并缓存。

这一攻击方法被称为“Wayback Copilot”,已经发现 20,580 个这样的 GitHub 代码库,涉及 16,290 家组织,其中包括Microsoft、Google、Intel、Paypal、IBM等大型公司以及所有使用了相关数据集的组织。这些代码库还泄露了 300 多个 GitHub、Hugging Face、Google Cloud 和 OpenAI 的私有令牌、密钥和凭据。

如何扫描Common Crawl中的数据?

我们搭建了一个分布式任务队列, 使用了20台中等性能服务器(每个配备16核CPU和32GB内存), 每个节点执行以下步骤:

  • 下载约4GB大小的Common Crawl文件。
  • 使用awk按照WARC记录头(WARC/1.0)对文件进行解压缩和拆分。
  • 在提取的内容上运行TruffleHog,命令如下:
  trufflehog filesystem --only-verified --json --no-update .
  • 将扫描结果存入数据库。
  • 重复执行90000次。

关于密钥泄漏的说明

Common Crawl 数据集是互联网的公开快照。公网上泄露密钥的风险早已有充分记录。

Common Crawl 数据集中包含的泄露密钥,并不代表其所在组织的失误;开发者在前端 HTML 和 JavaScript 中硬编码密钥,这并非 Common Crawl 的责任。同时,Common Crawl 也不应负责对密钥进行删除,他们的目标是提供一个基于互联网的免费公共数据集,以供像 Truffle Security 这样的机构进行研究。

参考文献:

https://thehackernews.com/2025/02/12000-api-keys-and-passwords-found-in.html

https://trufflesecurity.com/blog/research-finds-12-000-live-api-keys-and-passwords-in-deepseek-s-training-data


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:二进制空间安全 《AI大模型满地跑,12000多个明文密钥四处飙》

评论:0   参与:  0