文章总结: 本文揭示黑客通过五种手段免费获取大模型token:地下论坛售卖攻击性模型、加密货币支付第三方服务、滥用免费版API、搜寻泄露API密钥及入侵自托管服务器。研究显示恶意软件已嵌入实时API动态调整行为,65%泄露密钥来自Android应用且99.5%已失效,扫描发现LocalAI等平台存在大规模自动化攻击痕迹。建议开发者避免硬编码密钥并加强服务器认证。 综合评分: 84 文章分类: 威胁情报,恶意软件,漏洞分析,安全工具,安全意识
关于黑客白嫖大模型token的手段
原创
黑鸟 黑鸟
黑鸟
2026年6月4日 23:30 广东
在小说阅读器读本章
去阅读
如今能力最强的商业 AI 模型对攻击者而言已经具备足够的实用价值,成为其杀伤链(kill chain)多个环节中不可或缺的组成部分。
攻击性网络任务中,目前排名靠前的模型(Claude Opus 4.6、Claude Sonnet 4.5、Grok 4)能够编写可执行的漏洞利用代码,梳理凭证链逻辑,还能完成复杂的侦察工作流。
这些多步骤的攻击性任务此前都需要专业人员才能完成。恶意软件家族已经开始利用这一点,它们不再离线生成载荷再分发,而是将实时大模型API 直接嵌入恶意软件本身,使其能够在受感染主机上运行时动态调整行为。
商业服务商运行着滥用检测系统,会终止与恶意活动相关的账户。支付方式会留下可被调查人员追踪的纸质记录,因此攻击者解决资源获取问题的方式和以往别无二致,要么窃取,要么寻找免费资源,要么找到无人看守的资源。
本文将介绍威胁行为者无需付费即可获取大模型推理访问权限的五种途径,包括在地下论坛购买攻击性模型、通过支持比特币支付的第三方大模型服务使用前端模型、利用免费版或无密钥公共API、在开发者制品中搜寻泄露的API 密钥,以及利用暴露在互联网上的自托管大模型服务器。
方法一:攻击性大模型与匿名支付
在地下论坛售卖的面向网络攻击的大模型是最常见的途径,WormGPT、GhostGPT、KawaiiGPT 和 Xanthorox 是被提及最多的例子,Unit 42 曾对其进行过深入报道。这些要么是重新打包的开源权重模型,要么是基于商业API 的越狱封装程序,专门以无内容过滤为卖点。它们解决了内容审核的问题,但没有解决成本问题,访问权限以订阅制售卖,且能力上限远低于前沿商业模型。因此它们适合生成钓鱼内容或简单的恶意软件片段,但无法完成Cybench 排名中前沿模型所能实现的自主多步骤攻击性工作。
方法二:通过第三方服务使用前沿模型
如果威胁行为者希望使用前沿模型获得最高性能,他们仍然可以通过 PayWithMoon 和 AIMLAPI 等第三方服务实现。
这些服务充当攻击者与商业大模型提供商之间的中介,接受无需身份验证的加密货币支付,然后代表攻击者为合法提供商账户充值。账户本身可以访问前沿模型,但资金追踪在中间商处就会中断。一旦滥用检测触发,账户仍会被封禁,但更换账户的成本很低,上游提供商无法获取任何可用于追查的身份信息。这就是攻击者购买前沿模型访问权限,同时规避普通商业账户会留下的纸质记录的方式。
方法三:免费版与无密钥公共推理API
比地下订阅更廉价的替代方案就摆在明面上。大多数主流推理提供商都提供永久免费版,仅需一个一次性邮箱即可注册,少数服务甚至接受无任何凭证的请求。攻击者注册一批免费版账户,就能不花一分钱获得任意数量的令牌。
免费版生态系统的规模很容易衡量,因为社区已经对其进行了整理。cheahjs/free-llm-api-resources 和 mnfst/awesome-free-llm-apis 等公共整理列表,专门筛选提供永久免费版而非试用额度且无需信用卡的提供商。以下是具有代表性的条目,数据均来自各提供商自身的速率限制文档:
Groq:所有免费版模型均为每分钟 30 次请求(RPM),每日请求数(RPD)上限从 1000 次(70B 参数的 Llama 模型)到 14400 次(8B 参数的 Llama 模型)不等
Cerebras:每分钟 30 次请求,每日 14400 次请求,四款免费版模型中的三款(gpt-oss-120b、llama3.1-8b、qwen-3-235b)每日约有 100 万令牌额度
Cohere:聊天 API 每分钟 20 次请求,试用密钥每月总 API 调用量硬上限为 1000 次
Mistral La Plateforme:实验计划每月提供 10 亿令牌,无需信用卡,但需要验证手机号,这是该组中注册门槛最高的
HuggingFace:免费账户在 Hub API 和推理 API 上均有每 5 分钟窗口的速率限制,存在基于 IP 的匿名访问,但限制比免费账户更严格
OpenRouter:无需充值即可获得每日 50 次免费模型请求,一次性充值 10 美元后可获得每日 1000 次请求,且该充值金额不会被模型使用消耗
SambaNova:每分钟 20 次请求,每日 20 次请求,每日 20 万令牌上限,是该组中日请求上限最低的
这些提供商在速率限制、支持模型和吞吐量上各有不同,但共同点是获取可用凭证仅需一次性邮箱(Mistral 需要手机号)且无需支付方式,额度用尽时只需轮换凭证即可。
完全无密钥的服务数量较少,但确实存在。Pollinations.ai 提供兼容 OpenAI 的端点,接受无需身份验证的基础使用请求。DuckDuckGo 的 Duck.ai 为浏览器访问 Claude 3.5 Haiku、Llama 4 Scout、Mistral Small 3、GPT-5 mini 和GPT-4o mini 提供匿名化服务,完全无需账户。这些服务并非为批量程序化使用设计,但任何HTTP 客户端都可以访问,唯一的成本是速率限制带来的不便。
在引言提到的恶意软件家族中,LameHug/PROMPTSTEAL 是野外使用该途径的典型例子。根据 Splunk 的报告,它调用 HuggingFace 的推理 API 运行 Qwen 2.5-Coder-32B-Instruct 来执行侦察和数据窃取,且未发现嵌入任何凭证。目前尚不清楚该恶意软件是携带令牌还是在运行时注册令牌,但无论哪种情况,促成这一点的都是HuggingFace 无需信用卡的免费版政策。
方法四:暴露的API密钥
获取免费模型访问权限的第四种途径甚至不需要寻找暴露的服务器。开发者经常将凭证直接硬编码到应用程序、配置文件和脚本中,这些凭证可以在GitHub 的开源项目中找到,而闭源项目的应用程序本身也会包含这些凭证。当应用程序被提交进行恶意软件分析时,这些制品会被上传到VirusTotal,可能是APK、ELF、EXE 或任何随产品发布的文件类型。
为了系统性地找到这些密钥,研究人员编写了一条 YARA 规则,针对主要 AI 提供商的密钥格式,包括 Google Gemini(AIzaSy…)、OpenAI(sk-…)、Anthropic(sk-ant-…)、HuggingFace(hf_…)、Replicate、Mistral、Cohere、Groq 等多家提供商。研究人员将该规则作为回溯狩猎查询在 VirusTotal 语料库中运行,收集匹配的样本哈希,然后提取原始文件并通过正则表达式提取所有键值对、提供商信息和周围代码上下文。在此基础上,研究人员为每个样本补充VirusTotal 元数据,以了解检测率和文件类型。最后一步是验证,向每个提供商的模型列表或身份验证端点发送轻量级GET 请求,不发送任何提示词,仅检查密钥是否能够通过身份验证。
该语料库共产生了 647 个不同提供商的唯一密钥,其中约 62% 是 Google Gemini(AIzaSy…)密钥。这种集中性源于 Android 开发生态系统,用于翻译、搜索或聊天机器人功能的应用程序通常会将密钥直接打包在编译资源或 Java 代码中。HuggingFace 密钥约占 11%,Replicate 约占 8%,OpenAI sk – 密钥约占 7%,其余份额由 Voyage(5%)、Mistral(3%)和 Cohere(3%)瓜分,还有少量 Anthropic、Groq 和 OpenAI 环境变量格式的密钥。Mistral 和 Cohere 密钥高度集中在一个文件中,一个破解版的 “柯林斯意大利语词典 MOD” Android APK 捆绑了 20 个 Mistral 密钥、15 个 Cohere 密钥和 2 个 Gemini 密钥,其余少量密钥分散在两个版本的育碧游戏 APK 中。
在 659 个唯一样本中,约 65% 被 VirusTotal 的类型分类确认为 Android 应用,另有 18% 是遵循相同提交模式但未被明确标记为 Android 的 ZIP 归档文件,因此实际 Android 应用的占比在 65% 至 84% 之间。其余样本包括 Windows PE 文件(5%)、HTML 页面、Python 脚本、纯文本凭证转储,以及少量 Mach-O 和 ELF 二进制文件。这种 Android 偏向并不意外,APK 经常被提交到 VirusTotal 进行修改和重新打包,且反编译后密钥仍然保持完整。
研究人员将研究样本提交给 Intezer Analyze 进行基于代码的归因,有三个条目值得关注。四个文件名暗示为 Akira 勒索软件的样本,实际上是三个 Mimikatz 二进制文件和一个未归属的恶意二进制文件,均为凭证窃取工具,只是恰好携带了API 密钥。带有HuggingFace 密钥的样本是SolarMarker,一种具有信息窃取能力的SEO 投毒后门。一个名为SystemSettings.exe 的Windows 二进制文件包含OpenAI、Replicate和Voyage 密钥,这种多密钥组合更符合从开发者机器窃取的特征,而非故意硬编码。
当研究人员进行验证时,几乎所有密钥都已失效,撤销率约为 99.5%。这与语料库偏向较旧样本的情况一致,这些样本在VirusTotal 上存在的时间足够长,已经被检测、轮换或自然过期。仍然有效的少量密钥全部来自Android APK 的Google Gemini 密钥,所有这些似乎都是真正的开发者失误而非被窃取的凭证,包括一个嵌入在打包JavaScript 常量中的密钥、一个在编译Android 类的日志模块中的密钥,以及一个在实用工具APK 资源中的密钥。这三个密钥已被报告给Google。
该方法也说明了为什么在客户端软件中嵌入 API 密钥是一个特别糟糕的主意。从 APK 中提取密钥只需要一个反编译器,且 APK 有一条可靠的路径进入 VirusTotal。用户会提交它们进行恶意软件检查,重新打包的版本会通过第三方商店传播,破解版会被自动标记。近乎 100% 的撤销率强烈表明,大模型提供商会扫描 VirusTotal 查找自己的密钥格式并自动撤销匹配项。那三个仍然有效的密钥都是近期提交的,尚未被该扫描程序捕获。如果这个流程存在,那么在客户端代码中嵌入密钥不仅是安全错误,而且是徒劳的,密钥很可能在被大规模滥用之前就已经失效。
对攻击者而言,在 VirusTotal 中搜寻硬编码密钥是低投入但低产出的方法。更持久的访问方式是暴露的大模型服务器。运行 vLLM(一种流行的开源大模型推理框架)或开放 Ollama 实例的服务器无需身份验证,使用期间不会轮换任何内容,且所有者通常对此一无所知。
方法五:入侵公共大模型托管服务器
自托管大模型平台让用户能够轻松在自己的基础设施上运行模型,但这种便捷性也延伸到了任何能够访问端口的人。大多数平台默认没有身份验证,且暴露管理端点,允许陌生人列出已安装的模型、排队推理任务、从远程URL 加载新模型,在某些情况下甚至可以在主机上执行代码。当服务器暴露在公共互联网上时,攻击者不需要窃取的密钥或论坛订阅,受害者会支付GPU 账单、承担API 密钥费用,甚至托管远程代码执行(RCE)。
研究人员扫描了 11 个平台的约 4500 台主机,每个服务都存在开放实例,其中 14 台 LocalAI 主机显示出主动入侵的迹象,攻击者加载的模型名称与单一自动化攻击活动一致。以下部分将介绍每个平台是什么、暴露如何被滥用,以及扫描在野外发现的情况。
Ollama
Ollama 用于在本地运行开源权重大模型,默认绑定到 127.0.0.1 且禁用身份验证。但设置OLLAMA_HOST=0.0.0.0 是从网络上的其他机器或单独容器中运行的前端应用访问它的常见步骤,这会暴露所有接口,任何能够访问其端口的人都能获得完整的API、模型管理和硬件访问权限。SentinelOne Labs 和Censys 已经发布了权威调查,记录了超过17.5 万台主机被串联成匿名AI 网络,利用受害者硬件免费生成文本、嵌入向量和批量内容。这种模式现在已被Operation Bizarre Bazaar 商业化,该组织出售统一大模型网关的订阅访问权限,前端由被盗的 Ollama 端点组成,将临时的大模型劫持变成了一个日益严重的问题。
LocalAI
LocalAI 是兼容 OpenAI API 的模型服务器,支持大模型、图像生成、语音和转录,默认禁用身份验证。它还支持远程模型安装、P2P 分布式服务和内置的支持 MCP 的代理平台。在本研究的所有服务中,它的攻击面最广。
在所有扫描的主机中,55% 被确认为开放,是该组中绝对数量最高的。约 24% 是带有 OpenAI、Anthropic 和 Google 实时上游密钥的 API 代理,任何能够访问主机的人都可以使用这些密钥。
最惊人的发现是大规模自动化利用的证据。约 21% 的已确认主机携带与 ProjectDiscovery 的 nuclei 扫描器模板一致的特征模型名称,每次运行的时间戳对应 2026 年 3 月底至 4 月初。这种模式与针对未认证远程代码执行路径的自动化扫描一致,攻击者在模型安装过程中提供恶意URL 触发服务器端代码执行。漏洞利用载荷似乎会加载一个小型的公开意大利语模型作为“hello world” 确认,这在每台受影响的主机上都重复出现。这些标记未被清理,说明攻击者的技术并不成熟。运行LocalAI 的操作员可以在自己的主机上打开/v1/models 端点,任何nuclei-rce-* 或rce_< 时间戳> 标识符都不是人为选择的,表明该主机已被此次攻击活动命中。
Langflow
Langflow 是用于多代理 AI 流水线的可视化构建工具,广泛用于原型设计检索增强生成(RAG)系统和聊天机器人。流水线中经常嵌入硬编码凭证,包括OpenAI 和Anthropic API 密钥、数据库连接字符串、Slack令牌和Webhook 密钥。任何能够访问主机并读取流水线配置的人都能获取所有这些信息。与前面的例子不同,该应用没有已知的重大配置错误,但它无法阻止攻击者入侵并访问该服务。例如,两个未认证的远程代码执行漏洞使得获取配置变得轻而易举:
CVE-2025-3248:已列入 CISA 已知被利用漏洞目录,仅在 1.6.4 及以上版本中得到可靠修复
CVE-2026-33017:在 1.9.0 版本中修复,披露后 20 小时内就在野外被利用
研究人员扫描中确认的所有主机都运行着易受 CVE-2026-33017 攻击的版本,约 72% 还易受 CVE-2025-3248 攻击。几台主机完全没有身份验证,流水线、凭证和两个远程代码执行路径都公开可访问。在 Langflow 主机上执行代码只是小奖励,流水线中的密钥可以转向访问工作流连接的所有系统。
n8n
n8n 是低代码工作流自动化平台,拥有 400 多个服务连接器和代码执行节点,即运行任意脚本的工作流步骤。在本研究的所有服务中,它的默认身份验证配置最严格,全新安装会强制启用用户管理。
但它无法阻止攻击者主动获取访问权限。CVE-2026-21858(“Ni8mare”,CVSS 评分 10.0,在 1.121.0 版本中修复)就是一个例子,该漏洞存在于 Webhook 请求处理中,通过内容类型混淆将暴露的端点变成完整的未认证远程代码执行面,且已有公开的概念验证代码。此前的研究估计,暴露的n8n 主机数量有数万台。
后期利用的情况与 Langflow 类似,工作流携带硬编码的 API 密钥、数据库连接字符串和 Webhook 密钥。在 n8n 主机上执行代码实际上可以访问自动化流程连接的每个系统。
vLLM
vLLM 是具有 GPU 加速的高吞吐量大模型服务引擎,常用于生产环境自托管开源权重模型。它暴露兼容 OpenAI 的 REST API,身份验证需要显式添加–api-key 标志,没有该标志则 API 完全开放。
研究人员扫描的有趣发现不是 vLLM 本身,而是同一查询显示的相邻部署,即兼容 OpenAI 的 HTTP 代理,特别是 LiteLLM 风格的网关,它们将多个付费提供商聚合在单个端点后面。这些代理存储了 OpenAI、Anthropic、Google、Groq 和 Cohere 的实时 API 密钥,没有任何一个在模型列表端点上设置保护。一台主机暴露了跨多个提供商的35 个模型,还有几台仅列出Anthropic Claude 模型。代理只有在上游提供商身份验证成功时才会返回模型列表,因此每个成功的响应都确认底层密钥是有效的且可计费的。
滥用路径非常简单,将任何标准 OpenAI SDK 客户端指向代理,枚举模型,在提示提交也未受保护的主机上发送请求,费用将由运营商的账户承担。这与 Langflow 和 n8n 的凭证转向模式相同。
ComfyUI
ComfyUI 是用于 Stable Diffusion、视频生成和多模态图像模型的基于节点的工作流 UI。它在高端 GPU 硬件上运行,默认没有身份验证,因此成为攻击者窃取 GPU 计算资源的直接目标。
研究人员的扫描发现了从 v0.2.2 到 v0.19.0 多个版本的开放实例,所有实例都完全未认证。硬件暴露是最主要的发现,开放主机总共拥有约 4.3TB 的 GPU 显存,显卡从 RTX 4090、RTX 5090 到数据中心级的 A100S 和 L40S 不等,每台价值数万美元。攻击者可以免费向其中任何一台提交生成任务。
除了计算资源窃取,95% 的开放主机暴露了作业历史端点,泄露了之前执行的工作流、本地文件路径和用户历史内容。约 12% 的主机提供 URL 加载节点,可作为服务器端请求伪造(SSRF)原语,用于内部网络侦察或云元数据凭证窃取。
llama.cpp server
llama-server 是随 llama.cpp 一起发布的 HTTP 服务器,常用于生产环境服务单个开源权重模型。它默认没有身份验证,推理端点没有访问控制,还有一个元数据端点会准确公布主机正在运行的内容。任何能够访问端口的人都可以提交提示、查看活跃作业,并消耗运营商的GPU 资源运行自己的工作负载。这是经典的大模型劫持,额外的好处是可以确切知道正在运行的模型。
在扫描的主机中,59% 被确认为开放,比该组中任何其他平台都多。所有主机都暴露了模型名称和硬件配置,约 37% 还泄露了实时作业状态,确认扫描时主机正在为用户提供服务。观察到的模型都是标准的开源权重构建,没有任何特殊模型,这正是问题所在。攻击者寻找的不是稀有模型,而是无人看管的GPU。
Jan
Jan 是基于 Electron 的桌面 AI 应用,在 1337 端口提供可选的兼容 OpenAI 的 API 服务器。启用后,它会绑定到所有接口且没有身份验证。Jan 是一个很好的例子,说明暴露会带来意想不到的内容,而不是说明其普遍性。研究人员的扫描仅确认了两台真正的Jan 主机,一周后重新扫描时都已离线。其中一台在线时暴露了包含miqu-70b 的35 个模型库,这是一个从未正式发布的泄露版Mistral Medium 原型。当桌面应用将其API 服务器绑定到公共互联网时,运营商磁盘上的任何模型或文件路径元数据都会变得可见。
Gradio
Gradio 是用于构建机器学习演示应用的 Python 框架,包括图像分类器、代码解释器、文档问答等任何研究人员可以封装在 Web UI 中的内容。暴露风险完全取决于底层应用的功能,情感分析演示的风险较低,而接受文件上传、运行用户代码或查询数据库的应用则是直接的利用路径。Gradio队列会持续处理提交的请求,无论运营商是否在查看,因此滥用可以安静地运行数天。
三个未认证漏洞让未打补丁的实例更加危险:
•CVE-2024-1561:任意文件读取,在 4.13.0 版本中修复
•CVE-2024-0964:路径遍历,在 4.9.0 版本中修复
•CVE-2024-47084:跨域资源共享(CORS)验证绕过,在 4.44.0 版本中修复,恶意网站可以在受害者仍处于登录状态时访问本地运行的 Gradio 服务器
五种途径的排名
每种途径都有其运营上的权衡。下表从五个维度对每种途径进行评分,范围从 0(最不利)到 5(对攻击者最有利),包括无抗性模型(对攻击性提示词的拒绝行为)、模型能力(编码能力和参数数量)、工具和MCP 支持,以及有效令牌配额。
| 途径 | 无抗性模型 | 模型能力 | 工具 / MCP 支持 | 令牌配额 | 成本 | | — | — | — | — | — | — | | 攻击性大模型(WormGPT、GhostGPT、加密货币中间商) | 5 | 3 | 5 | 2 | 2 | | 前沿模型加密货币支付 | 2 | 5 | 5 | 5 | 3 | | 免费版和无密钥公共 API | 2 | 4 | 4 | 3 | 5 | | 被盗或泄露的 API 密钥 | 1 | 4 | 5 | 1 | 5 | | 暴露的大模型服务器 | 5 | 3 | 3 | 5 | 5 |
攻击性大模型在无抗性方面得分最高,但地下论坛的变体在能力和工具支持方面远低于前沿模型,且订阅会限制配额。加密货币中间商变体通过真实提供商账户访问前沿模型,但这些账户一旦检测到滥用就会被快速封禁。
前沿模型加密货币支付无疑是获取最高能力模型并将其连接到任何接口(如 MCP)的最佳方式,但存在模型可能拒绝执行操作或用户被封禁的风险。
免费版和无密钥公共 API 在能力和工具支持方面表现良好,大多数提供商都支持完整的函数调用。每个账户的配额虽然有限,每分钟几十次请求,每天几千次请求,但简单的账户轮换可以让有效配额远高于表面价值。
理论上,被盗或泄露的 API 密钥提供了能力和工具支持的最佳组合,但回溯狩猎中 0.5% 的有效率表明其实际配额几乎为零。
暴露的大模型服务器在无抗性和令牌配额方面得分最高。无抗性不受限制,攻击者可以选择模型,研究人员的扫描发现至少有一台LM Studio 主机正在运行llama3.3-8b-instruct-thinking-heretic-uncensored-claude-4.5-opus-high-reasoning-i1。令牌配额同样不受限制,仅受受害者硬件的约束而非账单上限。能力和工具支持因主机而异,但这种差异正是该途径在大规模上具有持久性的原因,不需要单个主机运行前沿模型。
该评分解释了为什么暴露的服务器是最持久的途径,尽管它并非在每个维度都排名第一。它是唯一同时在无抗性和令牌配额上都达到满分的途径,其他三种途径至少在这两个维度中的一个上存在缺陷。
野外发现的案例
威胁行为者现在正在将恶意软件连接到实时大模型 API,利用它们在运行时生成恶意逻辑,而不是在载荷中嵌入静态代码。恶意软件不再为不同的主机条件编写单独的执行流程,而是在运行时查询大模型,判断目标是个人电脑、服务器还是工业控制器,然后生成相应的命令或代码。这种转变意义重大,因为动态生成的逻辑没有固定的特征可以检测。研究人员已经识别出五个这样做的恶意软件家族。
| 恶意软件名称 | 能力 | AI 提供商 | 运行时模型来源 | | — | — | — | — | | MalTerminal | 反向 Shell 或勒索软件生成 | OpenAI GPT-4(已弃用的聊天补全端点) | 硬编码 API 密钥 | | LameHug/PROMPTSTEAL | 侦察和信息窃取 | 通过 HuggingFace 的 Qwen 2.5-Coder-32B-Instruct | 公共 HuggingFace 推理 API(未观察到嵌入密钥) | | Ransomware 3.0/PROMPTLOCK | 具有数据泄露和擦除能力的勒索软件 | gpt-oss-20b | 受感染主机上的本地 Ollama API | | PROMPTFLUX | 具有 AI 驱动多态性的下载器 | Google Gemini(gemini-1.5-flash-latest) | 硬编码 API 密钥 | | QUIETVAULT | 使用 AI 查找额外机密的 GitHub/NPM 令牌窃取器 | 受害者主机上已安装的任何 AI CLI(未命名提供商) | 受感染主机上已有的 AI CLI 工具 |
MalTerminal 和 PROMPTFLUX 都使用硬编码 API 密钥在需要时连接到商业提供商。MalTerminal 通过现已退役的聊天补全端点使用 OpenAI GPT-4 创建反向 Shell 或勒索软件。PROMPTFLUX 连接到 Google gemini-1.5-flash-latest,在每次运行之间重写自己的 VBScript 源代码,使其更难被检测。
LameHug 也被称为 PROMPTSTEAL,使用 HuggingFace 的推理 API 运行 Qwen 2.5-Coder-32B-Instruct 生成 Windows 命令,支持侦察和数据窃取。HuggingFace 每个请求都需要 API 令牌,但免费账户不需要支付方式,每个 API 令牌每小时允许几百次请求。攻击者可以轻松创建和轮换这些API 令牌,获得与被盗密钥相同的访问权限,但麻烦更少。
PROMPTLOCK 是由纽约大学坦登工程学院的研究人员开发的概念验证 AI 驱动勒索软件原型,通常被称为 “勒索软件 3.0”。该 Go 二进制文件通过受感染主机上的本地 Ollama API 调用 gpt-oss-20b,生成执行文件列表、加密、数据泄露和未完成擦除逻辑的 Lua 脚本。这是一种自带模型的模式,没有出站调用,没有提供商端的账单记录,也无法扩展到受害者自身硬件之外。
QUIETVAULT 是一种凭证窃取变体,该 JavaScript 窃取器将 GitHub 和 NPM 令牌泄露到攻击者控制的 GitHub 仓库,然后将文件系统搜索额外机密的工作交给受害者主机上已安装的任何 AI CLI。因此,被盗的是活跃的主机 AI 会话,而不仅仅是原始 API 密钥。
纵观本文讨论的四种主要途径,LameHug/PROMPTSTEAL 是免费版方法的最佳例子,因为它直接调用 HuggingFace 的推理 API。MalTerminal 和 PROMPTFLUX 都使用硬编码 API 密钥,但尚不清楚这些密钥的来源,因此它们可能属于免费版、加密货币中间商或被盗密钥类别。QUIETVAULT 是被盗凭证方法的变体,使用主机上的 AI 会话而不仅仅是密钥。PROMPTLOCK 有所不同,因为它使用本地模型且一次只能攻击一个受害者,因此不属于四种主要途径,不再进一步讨论。
结论
在售卖的攻击性大模型、免费版和无密钥公共 API、分布式制品中的硬编码密钥,以及受害者基础设施上暴露的大模型服务器这四种途径中,最持久的访问方式是最后一种。滥用的前提几乎从来不是复杂的漏洞利用,而是一个面向互联网的未认证端口。
人工智能是这个时代的决定性技术,它扩展了个人或小团队的能力,加速了过去需要数周才能完成的工作。AI 正被集成到越来越多的领域,从个人代理和邮件写作到部分漏洞研究,其带来的震撼是真实的。但大模型服务器仍然是运行在主机上的服务,它监听端口、使用协议通信,并且有攻击面。本报告中提到的故障模式,包括配置错误、凭证泄露、未打补丁的CVE、开放端口,与多年来在Docker、Kubernetes、云存储、Redis、Elasticsearch 和裸 Linux 服务器上发生的事件完全相同。工具是新的,但错误没有变。
#
| SHA-256 | Payload | | — | — | | ecd3b1a0e4832f1dc72be84c3c838ae4e29637c1cff4bfa70649cda90fa7a8ce | Mimikatz binaries (carrying AI API keys) | | 153d7cdca3cb96023a2ee8e3de49b29ced60ffc865da04c3c6ef2b445b056d8f | | 0c1a409dd791ee8f7e157c455d9c35671bd81d17b562c7acd73f9f26401533ba | | a9dc00aeae6c245d76d873e675b555f044ecf94a5ece031a1e6ca30223beb905 | Malicious binary without family attribution (carrying AI API keys) | | 99308a3f00490e8138974faafa3ea5ae089459b2500e097ccc0ed042b6a0c2af | SolarMarker (HuggingFace key) | | 796e81c1b31f443ab3437663af97fe41b25bbf8ab7abcd0637238a568b66aa9d | SystemSettings.exe (OpenAI, Replicate, Voyage keys) |
参考: intezer 《How attackers are gaining access to LLM inference》
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:黑鸟 黑鸟 黑鸟《关于黑客白嫖大模型token的手段》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。






![[极客大挑战2019]Havefun](/images/random/titlepic/13.jpg)




评论