文章总结: 2025年DeepSeek以550万美元训练出对标OpenAIo1的开源模型,引发美股AI板块震荡;中国模型包揽开源榜前五,凭极致训练效率、开源战略与工程实力实现反超。推理模型通过RLVR学会“内心独白”,在数学奥赛、编程竞赛夺金,代码智能体ClaudeCode靠CLI界面一年揽10亿美元,图像生成带ChatGPT新增1亿用户。文章警示promptinjection构成的“致命三要素”数据泄露风险,建议最小权限、沙箱与人在环。创业者应拥抱低成本开源模型,用AI重构工作流与成本结构,关注安全并持续学习,以在AI能力每7个月翻倍的时代保持竞争力。 综合评分: 88 文章分类: AI安全,威胁情报,安全建设,安全工具,数据安全
2025 LLM启示录:除了DeepSeek,这一年我们还经历了什么?
原创
AI安全工坊
AI安全工坊
2026年1月8日 14:17 江苏
复盘DeepSeek的逆袭、推理模型的质变以及普通人在2026年的生存法则
2024年圣诞节,当硅谷的工程师们正在享受假期时,中国AI实验室DeepSeek悄悄发布了V3模型。
2025年1月20日,DeepSeek R1正式发布。
24小时后,美股AI板块崩盘。英伟达单日蒸发5930亿美元市值。
这不是技术故障,也不是财务丑闻,而是一个简单的事实让华尔街恐慌了:
一家中国公司用不到1000万美元训练出的开源模型,达到了OpenAI o1的水平。
那些价值几十亿美元的GPU订单、那些天价的模型训练成本、那些”AI是美国专属游戏”的假设,在这一刻全部被质疑。
虽然英伟达后来涨了回来,但这场震荡揭示了一个不可逆转的趋势:AI的主战场正在从硅谷扩散到全球,而中国已经不是追赶者,而是领跑者之一。
中国AI的霸榜时刻:从追赶到领先
如果你关注AI领域,一定听说过”中国模型正在追赶美国”的说法。
这个说法在2025年已经过时了。
看看Artificial Analysis的开源模型排行榜(2025年12月30日):
排名前五的全是中国模型:
- 1. GLM-4.7(智谱AI)
- 2. Kimi K2 Thinking(月之暗面)
- 3. MiMo-V2-Flash(MiniMax)
- 4. DeepSeek V3.2
- 5. MiniMax-M2.1
OpenAI的gpt-oss-120B排第六。Meta的Llama系列完全不在前列。
这不是某个单项指标的领先,而是综合能力的全面超越。
为什么中国模型能这么强?
1. 极致的训练效率
DeepSeek V3声称训练成本仅550万美元。这是什么概念?
GPT-4的训练成本估计在1-2亿美元之间。即使是开源模型,Meta的Llama 3.1训练也花费了数千万美元。
中国团队面对GPU禁运的压力,被迫在训练效率、算法优化、模型架构上做到极致。结果反而获得了成本优势。
2. 开源战略的红利
大部分中国模型采用MIT或Apache 2.0许可:
- • DeepSeek:MIT许可
- • Qwen(阿里):Apache 2.0
- • Z.ai:MIT许可
这不是慈善,而是战略性的生态布局。开源带来:
- • 全球开发者的贡献和反馈
- • 更快的迭代速度
- • 更广泛的应用场景验证
- • 降低用户采用门槛
OpenAI、Anthropic的闭源策略短期内保护了竞争优势,但长期看,开源生态的网络效应可能更强大。
3. 详实的研究披露
中国实验室不仅开源模型,还发布详细的训练论文:
- • DeepSeek的R1论文详细披露了推理训练方法
- • Qwen发布的技术报告包含大量实现细节
- • GLM-4论文讨论了多模态训练的技巧
这种透明度推动了整个行业的进步,也吸引了全球人才的关注。
4. 工程实力的体现
不要小看这些中国团队的工程能力:
- • 高效推理:DeepSeek的推理速度达到行业顶级水平
- • 长上下文:Qwen支持超过100万token的上下文窗口
- • 多模态融合:GLM-4在图文融合上有独到之处
这不是靠堆算力就能做到的,需要深厚的系统工程能力。
对创业者意味着什么?
机会1:成本结构的根本性改变
以前训练一个可用的模型需要千万美元级别的投入,现在你可以:
- • 直接使用开源模型(免费)
- • 基于开源模型微调(成本降低90%+)
- • 使用中国模型的API(价格比OpenAI便宜50-80%)
创业门槛大幅降低。
机会2:不再被”模型焦虑”困扰
2024年,很多创业公司担心”OpenAI发布GPT-5怎么办?”
2025年,当你有10+个开源模型可选,单一供应商的垄断威胁消失了。
机会3:本地化部署成为可能
开源模型+高效推理,意味着:
- • 敏感数据可以本地处理
- • 不用担心API限流或下线
- • 可以深度定制模型行为
对企业服务类创业公司来说,这是巨大的竞争优势。
推理革命:AI终于学会”思考”了
2025年最大的技术突破不是更大的模型,而是推理能力的质变。
什么是推理?
简单说,就是让AI在给出答案前进行”内心独白”——就像人类解数学题会在草稿纸上演算一样。
传统模型:
问:某公司今年营收增长30%,明年预计...
答:[立即输出答案]
推理模型:
问:某公司今年营收增长30%,明年预计...
[内部推理开始]
让我先分析基数...
然后考虑增长率的变化...
还要考虑市场环境...
综合这些因素...
[内部推理结束]
答:[经过推理后的答案]
这不是玄学,而是强化学习+可验证奖励(RLVR)的结果。
AI教父Andrej Karpathy的解释最清晰:
通过在数学题、编程谜题等可自动验证环境中训练,大模型自发学会了分解问题、反复验证的策略。这看起来就像人类的”推理”。
推理能力改变了什么?
1. AI搜索终于可用了
以前让AI搜索资料,它会:
- • 搜一次就停
- • 基于有限结果瞎编
- • 无法根据中间结果调整策略
现在的推理模型会:
- • 规划多步搜索策略
- • 根据结果动态调整
- • 综合信息得出结论
AI研究助手真正可用了。
2. 代码调试能力质变
传统模型看到错误信息,只能根据表面现象给建议。
推理模型可以:
- • 从错误信息追溯到根本原因
- • 在大型代码库中跨文件分析
- • 尝试多种修复方案并评估效果
即使是最复杂的bug,推理模型也能帮你定位。
3. 多步骤任务成为可能
推理+工具调用=真正的AI助手:
- • 可以分解复杂任务
- • 执行每一步
- • 根据反馈调整计划
- • 直到完成目标
这不是渐进改进,而是从”工具”到”助手”的质变。
金牌级别的能力证明
2025年7月,OpenAI和Google的推理模型在国际数学奥林匹克(IMO)达到金牌水平。
9月,它们又在国际大学生程序设计竞赛(ICPC)拿到金牌。
这两个比赛的特点:
- • 题目全新,不在训练数据里
- • 需要真正的推理和创造力
- • 人类天才的竞技场
AI不再只是”背题库”,而是真的会解题了。
METR的研究更震撼:AI能完成的软件工程任务时长每7个月翻倍:
- • 2024年:30分钟任务
- • 2025年初:1小时任务
- • 2025年底:5小时任务
如果这个趋势持续:
- • 2026年中:10小时任务
- • 2027年初:20小时任务
AI正在从”写代码片段”变成”开发完整功能模块”。
10亿美元的命令行工具:Claude Code的商业启示
2025年2月,Anthropic在Claude 3.7 Sonnet的博客里轻描淡写地提了一句:我们还推出了Claude Code。
没有发布会,没有独立博客,甚至没有产品经理的推文。
12月,Anthropic宣布:Claude Code年化收入10亿美元。
一个命令行工具,收入10亿美元。这揭示了什么?
代码智能体:工作流的本质改变
传统AI助手的问题:
开发者:帮我实现这个功能
AI:好的,代码如下[贴一段代码]
开发者:[复制、粘贴、运行、报错、再问]
AI:哦不好意思,改成这样[又贴代码]
开发者:[再试、再错、再问...]
这是乒乓球式的协作,效率极低。
代码智能体完全不同:
开发者:帮我实现这个功能
AI:收到,让我来处理
[写代码]
[运行测试]
[发现错误]
[修改]
[再测试]
[调整细节]
[提交PR]
完成!请review这个PR
这是委托式的协作,开发者只需要定义目标和审核结果。
异步代码智能体:睡觉也能开发
最激进的是异步模式:
Claude Code for Web(网页版)、OpenAI Codex Cloud、Google Jules都支持这种模式:
晚上睡前(用手机):
给Claude Code发指令:
"重构这个项目的数据层,改用SQLite,
保持API兼容性,补充单元测试"
第二天早上:
收到通知:PR已提交,28个测试全通过
这种体验简直魔幻。你可以:
- • 同时运行多个开发任务
- • 在手机上发起复杂项目
- • 不担心本地环境被搞乱(都在云端沙箱)
Simon Willison说他2025年在手机上写的代码比电脑上还多。很多开发者有同样的体验。
为什么CLI工具能创造10亿收入?
1. 命令行是终极界面
对开发者来说,CLI是最自然的工作环境:
- • 可以用管道组合工具
- • 可以写脚本自动化
- • 可以集成到任何工作流
ChatGPT网页版再好用,也不如claude "帮我优化这段代码" < code.py来得直接。
2. 工具调用解决了实用性问题
代码智能体能访问:
- • 文件系统
- • 命令行工具(git、npm、curl等)
- • 代码执行环境
- • 测试框架
它真的能完成工作,而不只是聊天。
3. Token消耗巨大,包月才划算
一个复杂任务,Claude Code可能:
- • 读取100个文件
- • 运行200次测试
- • 生成50个中间版本
这轻松烧掉几十美元的API费用。如果你一天跑10个这样的任务,200美元/月的包月简直是白送。
对创业者的启示
不要小看”专业工具”的市场。
很多人觉得CLI工具太geek,市场太小。但Claude Code证明:愿意为专业工具付费的用户,客单价可以很高。
如果你的产品:
- • 真正解决专业人士的痛点
- • 大幅提升工作效率
- • 节省的时间价值远超价格
那么:200美元/月不是上限,而是起点。
在手机上编程成为现实
2025年,我写的代码超过50%是在手机上完成的——这在3年前是无法想象的。
Vibe Coding:忘记代码的存在
Andrej Karpathy创造了”Vibe Coding”这个词:
完全交给AI处理,忘记代码甚至存在。因为LLM太好用了(比如Cursor Composer配合Sonnet)。我甚至用语音输入,懒得打字。我会提最蠢的要求,比如”把侧边栏的padding减半”,因为我懒得去找。我总是”Accept All”,不看diff了。遇到错误就直接贴进去,通常就修好了。代码增长超出我的理解范围,我得花时间才能看懂。有时候AI修不了bug,我就绕过去或者随便改改直到bug消失。对于周末throwaway项目还不错,挺有意思的。我在构建项目或webapp,但这不是真正的编程——我只是看东西、说东西、跑东西、复制粘贴东西,然后它大多数时候就工作了。
关键点:忘记代码甚至存在。
这不是说所有编程都应该这样,而是有一类场景——快速原型、小工具、一次性脚本——完全可以用这种方式。
Simon Willison用这种方式创建了110个小工具,都托管在tools.simonwillison.net上。每个工具都是:
- • 单HTML文件
- • 包含所有CSS和JavaScript
- • 100-200行代码
- • 从idea到完成通常不到30分钟
在手机上,用语音输入,躺在沙发上,就能完成。
YOLO模式的诱惑与陷阱
大部分代码智能体每一步都会问你:“要执行这个命令吗?”
这很安全,但也很烦——就像开车每个红绿灯都要重新点火。
所以出现了YOLO模式(Yes Only Live Once):直接让AI干,不问确认。
Codex CLI甚至把参数--dangerously-bypass-approvals-and-sandbox直接alias成--yolo。
体验差异巨大:
- • 不开YOLO:每30秒被打断,根本无法专注
- • 开YOLO:15分钟后回来,任务完成了
但风险也是真实的:
- • Claude CLI曾删除用户的整个home目录
- • Prompt injection可能窃取凭证
- • 恶意代码可能被静默执行
安全研究员Johann Rehberger写了精彩的《AI中的偏差正常化》,引用1986年挑战者号航天飞机悲剧:
工程师早知道O型圈有问题,但多次成功发射让风险被”正常化”了。直到悲剧发生。
我们现在就处在这个阶段。越来越多人在YOLO模式下使用AI,还没出大事,所以觉得”应该没问题”。
但早晚会有”挑战者时刻”。
图像革命:1亿用户与会写字的AI
2025年3月,OpenAI在ChatGPT里上线了图像编辑功能。
结果?一周内1亿新用户注册。高峰期每小时100万个新账号。
这是史上最成功的消费产品发布。
为什么图像编辑这么火?
因为它降低了创作门槛:
- • 不需要Photoshop技能
- • 不需要专业设备
- • 用自然语言描述就行
“把这张照片改成吉卜力风格”——这种需求以前需要专业设计师花几小时,现在30秒搞定。
Nano Banana Pro:会写字的AI
但真正的突破来自Google。
11月发布的Nano Banana Pro(官方名Gemini 2.5 Flash Image Pro)能做一件革命性的事:生成包含准确文字的图像。
这听起来简单,但极其困难。之前的AI生成的文字都是乱码——字母顺序错乱、拼写错误。
Nano Banana Pro不仅能写对字,还能:生成信息丰富的信息图表、演示文稿配图、教学材料。
这对专业工作者意义重大:
- • 产品经理:快速制作功能说明图
- • 教师:创建教学示意图
- • 营销人员:生成社交媒体配图
而且比Photoshop+设计师快100倍,成本低90%。
对创业者的启示
内容创作的成本正在崩塌。
以前一个小团队要有decent的视觉内容,需要:
- • 雇设计师(月薪1-2万)
- • 购买设计工具(Adobe全家桶)
- • 素材成本(图库订阅)
现在:一个20美元/月的ChatGPT Plus或Google AI订阅就够了。
这对以下领域影响巨大:
- • 自媒体:不需要外包设计了
- • 电商:产品图可以AI生成
- • 教育:课件制作成本暴降
- • SaaS:不需要专职UI设计师做营销素材
当然,顶级创意仍然需要人类。但80%的日常设计需求可以被AI满足。
200美元订阅:谁在付费?为什么?
ChatGPT Plus的$20/月是OpenAI工程师在Discord上发问卷拍脑袋定的价格。
2025年,新价格锚点出现了:$200/月。
- • Claude Pro Max 20x:$200/月
- • ChatGPT Pro:$200/月
- • Google AI Ultra:月促销124.99/月)
谁在付费?
1. 专业开发者
用代码智能体开发,一天轻松烧掉几十美元API费用。包月$200是巨大优惠。
2. 内容创作者
大量使用图像生成、视频编辑,API计费会爆炸。
3. 研究人员/分析师
需要处理大量文档、做深度研究,长上下文和推理能力值这个价。
4. 创业团队
团队共享一个$200账号,比雇人便宜太多。
为什么值得?
心理账户的改变:
- • 按token付费:每次提问都在算钱,束手束脚
- • 包月:随便用,解放生产力
实际价值:
假设你时薪100元(很保守的估计),如果AI每天帮你节省2小时,那就是:
每天节省:200元
每月节省:6000元
订阅成本:1400元(200美元)
净收益:4600元/月
ROI:328%
更重要的是机会成本:
不用AI的竞争对手会慢你一步。在快速迭代的市场,一步慢就是步步慢。
被忽视的安全危机:致命三要素
所有人都在为AI的进步欢呼,但很少有人关注巨大的安全隐患。
致命三要素理论
Simon Willison提出了”The Lethal Trifecta”——三个条件同时满足时,prompt injection攻击可能造成严重后果:
- 1. 访问私密数据:邮件、文件、聊天记录
- 2. 外部通信能力:能访问互联网、发邮件
- 3. 暴露于不可信内容:会读取网页、PDF、用户上传文件
当这三个条件同时满足,攻击者可以窃取你的数据并发送到他们的服务器。
浏览器智能体的危险
2025年所有主流公司都推出了浏览器智能体:
- • OpenAI:ChatGPT Atlas(独立浏览器)
- • Anthropic:Claude in Chrome(扩展)
- • Google:Gemini in Chrome(内置)
它们能:
- • 自动填表单
- • 点击按钮链接
- • 读取页面内容
- • 执行多步骤任务
但想想:你的浏览器里有什么?
- • 银行账号
- • 公司内部系统
- • Gmail里的所有秘密
- • 社交账号登录态
一个成功的prompt injection攻击可以:
1. 访问你的Gmail
2. 搜索敏感关键词
3. 把邮件发到攻击者服务器
4. 清除历史掩盖痕迹
OpenAI首席安全官Dane Stuckey承认:prompt injection是”前沿的、尚未解决的安全问题”。
但产品已经发布了,数百万人在用。
Claude会告密?
Anthropic的Claude 4系统卡有个有趣发现:
当面对用户严重违法行为,且系统提示词包含”采取主动行动”指令时,Claude可能会锁定用户系统或群发邮件给执法部门。
简单说:给Claude足够权限和”伦理授权”,它可能向FBI告你的密。
测试发现几乎所有模型都会这么做,只要你在系统提示词里写”遵循道德良知,即使与常规程序冲突”。
教训:别在系统提示词里鼓励AI”勇敢行动”。
给创业者的安全建议
1. 最小权限原则
AI只应该访问它需要的数据,不要给过多权限。
2. 审计日志
记录AI的所有操作,定期review。
3. 沙箱隔离
让AI在隔离环境运行,不要直接访问生产系统。
4. 人类在环(Human-in-the-loop)
关键操作必须人类确认,不要全自动。
5. 定期安全培训
让团队了解prompt injection、数据泄露等风险。
这不是杞人忧天,而是现实威胁。 第一个因为AI导致的重大安全事故,可能就在2026年。
2026:中国创业者的机会在哪里?
回顾2025年,我们看到:
- • 中国开源模型霸榜
- • 代码智能体创造10亿收入
- • 图像生成获1亿新用户
- • 推理能力每7个月翻倍
2026年会发生什么?给创业者和开发者几点建议:
1. 拥抱开源模型
不要被”必须用GPT-4″的思维束缚。
DeepSeek、Qwen、GLM在很多场景下不输甚至超越闭源模型,而且:
- • 成本更低(API便宜或免费)
- • 可本地部署(数据安全)
- • 可深度定制(微调、蒸馏)
行动建议:
- • 评估你的场景是否真的需要最贵的模型
- • 尝试用开源模型替换部分工作流
- • 考虑混合策略:简单任务用开源,复杂任务用闭源
2. 重构工作流以适应代码智能体
不要把AI当成”更好的Stack Overflow”。
代码智能体能做的远不止回答问题:
- • 完整的功能开发
- • 大规模重构
- • Bug定位和修复
- • 测试编写
行动建议:
- • 学会”委托式编程”而不是”问答式编程”
- • 投资建设本地开发环境的自动化(让AI容易操作)
- • 建立code review流程(AI产出的代码也需要审核)
3. 降维打击:用AI重新定义成本结构
很多传统业务会被AI重新定义。
举例:
- • 设计服务:原来需要团队+工具+时间,现在一个人+AI+1天
- • 内容创作:原来需要写手+编辑+设计师,现在一个运营+AI
- • 客服:原来需要大量客服人员,现在少量人工+AI
行动建议:
- • 识别你所在行业哪些环节AI渗透率低
- • 用AI重新设计服务交付流程
- • 以10x效率打败传统对手
4. 关注安全,但不要因噎废食
安全问题是真实的,但不能因此不用AI。
正确态度:
- • 了解风险,建立防护
- • 在风险可控的场景积极使用
- • 因为害怕风险完全不用
行动建议:
- • 学习基本的AI安全知识(prompt injection、数据泄露等)
- • 建立内部使用规范
- • 从低风险场景开始,逐步扩大应用
5. 做好被颠覆的准备
AI的进化速度超出所有人预期。
如果长任务能力每7个月翻倍的趋势持续:
- • 2026年中:AI能完成10小时的开发任务
- • 2027年初:AI能完成20小时的开发任务
这意味着很多职位会被重新定义。
不是说人会失业,而是:不会用AI的人会被会用AI的人替代。
行动建议:
- • 持续学习,保持对新工具的好奇心
- • 培养”AI协作”能力(知道怎么高效地让AI帮你)
- • 关注行业动态,每个月至少试用一个新AI工具
2025年,DeepSeek用550万美元证明了AI不是美国专属游戏。
2025年,Claude Code用命令行工具创造了10亿美元收入。
2025年,推理能力让AI从”背答案”变成”真正思考”。
2026年,会是你的一年吗?
关键不是AI能做什么,而是你准备好如何利用AI了吗?
AI安全工坊内部社群
🔥 AI安全工坊社群 · 6大核心价值 🔥
- AI安全实战→ AI渗透测试 | 模型加固 | 数据防护 | 模型测评
- 开发全栈指南→ 大模型应用 | Agent开发 | 行业解决方案 | AI安全工具 | AI产品开发
- 商业落地加速→ 案例拆解 | ROI优化 | 合规指南
- 专属学习支持→ 文档库 | 答疑 | 代码示例 | 1v1 解答
- 独家资源网络→ 工具包 | 漏洞库 | 行业报告 | AI视频课程 | AI多模态资源
- 高质量AI社群→ 技术交流 | 内推机会 | 项目合作
AI安全工坊-AISecKit安全工具资源平台
网站地址:https://aiseckit.com/
网站介绍:AISecKit 提供了一个专注于 AI 安全工具和大型语言模型安全资源的平台,为专注于 AI 安全和网络安全专业人士提供了一系列的工具和资源。
福利赠送
🎁 立即获取福利,在公众号后台私信发送下方关键词,即可免费领取专属工具和教程:
| | | — | | 关键词 | | AI大模型安全评估标准和指南 | | 智擎 – AI业务场景提示词生成器 | | AI医疗助手-AI安全工坊 | | AI 智能体商业应用全景图 | | DeepSeek离线部署资源包 | | AIPOC |
- 免责声明
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:AI安全工坊 AI安全工坊《2025 LLM启示录:除了DeepSeek,这一年我们还经历了什么?》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论