文章总结: 研究发现DeepSeek等大模型训练数据来源的CommonCrawl中包含逾1.2万个有效API密钥及凭证,源于开发者在前端代码硬编码密钥被抓取。此外WaybackCopilot攻击显示AI工具仍能访问设为私有前的代码库。建议使用TruffleHog等工具扫描数据集,并避免在客户端代码泄露敏感信息。 综合评分: 86 文章分类: 数据泄露,AI安全,漏洞分析,安全工具,威胁情报
AI大模型满地跑,12000多个明文密钥四处飙
二进制空间安全
2025年3月1日 20:25 北京
part1
点击上方蓝字关注我们
将二进制空间安全设为”星标⭐️”
第一时间收到文章更新
从2022年ChatGPT横空出世, 到2025年1月的DeepSeek刷屏, 全球都在享受AI带来的全新体验。谁曾想过, 这些大模型的训练数据中却包含12000多个可用的明文密钥, 并且可被用来进行身份验证。
在说明这个问题之前, 首先需要知道什么是公共爬虫服务, 也被称为Common Crawl, 这里维护着一个免费且开放的网页爬取数据库存储库, 在这个庞大的数据集中包含超过了2500亿个网页,时间跨度长达18年。
Common Crawl的下载地址: https://commoncrawl.org/get-started
该存档具体包含了400TB的压缩网页数据, 90000个WARC文件(Web ARChive格式), 以及来自3830万个注册域的4750万个主机的数据。
经分析, Common Crawl 数据集中包含 219 种不同类型的密钥, 这些密钥都是能够成功验证其对应服务的API密钥、密码及其他凭证。
由于LLMs在训练过程中无法区分有效和无效的密钥, 因此二者在提供不安全代码示例时具有同等影响。如图:
公共源代码库中的数据在被设为私有后,仍可能通过 AI 聊天机器人(如 Microsoft Copilot)访问,因为这些数据已被 Bing 索引并缓存。
这一攻击方法被称为“Wayback Copilot”,已经发现 20,580 个这样的 GitHub 代码库,涉及 16,290 家组织,其中包括Microsoft、Google、Intel、Paypal、IBM等大型公司以及所有使用了相关数据集的组织。这些代码库还泄露了 300 多个 GitHub、Hugging Face、Google Cloud 和 OpenAI 的私有令牌、密钥和凭据。
如何扫描Common Crawl中的数据?
我们搭建了一个分布式任务队列, 使用了20台中等性能服务器(每个配备16核CPU和32GB内存), 每个节点执行以下步骤:
- 下载约4GB大小的Common Crawl文件。
- 使用
awk按照WARC记录头(WARC/1.0)对文件进行解压缩和拆分。 - 在提取的内容上运行TruffleHog,命令如下:
trufflehog filesystem --only-verified --json --no-update .
- 将扫描结果存入数据库。
- 重复执行90000次。
关于密钥泄漏的说明
Common Crawl 数据集是互联网的公开快照。公网上泄露密钥的风险早已有充分记录。
Common Crawl 数据集中包含的泄露密钥,并不代表其所在组织的失误;开发者在前端 HTML 和 JavaScript 中硬编码密钥,这并非 Common Crawl 的责任。同时,Common Crawl 也不应负责对密钥进行删除,他们的目标是提供一个基于互联网的免费公共数据集,以供像 Truffle Security 这样的机构进行研究。
参考文献:
https://thehackernews.com/2025/02/12000-api-keys-and-passwords-found-in.html
https://trufflesecurity.com/blog/research-finds-12-000-live-api-keys-and-passwords-in-deepseek-s-training-data
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:二进制空间安全 《AI大模型满地跑,12000多个明文密钥四处飙》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。








![[AICoding]一.腾讯CodeBuddyIDE内测、安装及基本用法(国产AIIDE启航)](/images/random/titlepic/1.jpg)

评论