文章总结: DFlash是一种基于块扩散模型的投机解码技术,通过并行预测令牌取代传统自回归草稿模型,将大语言模型推理速度提升至415令牌/秒(加速比8.5倍)且保证输出质量无损。该技术已集成到vLLM、SGLang和Transformers框架,相关草稿模型在HuggingFace发布。 综合评分: 85 文章分类: AI安全,解决方案,技术标准,安全工具,其他
2.DFlash – 研究人员找到了将大语言模型加速 8.5 倍的方法?
原创
Esn Arsenal Esn Arsenal
Esn技术社区
2026年5月13日 18:05 河南
在小说阅读器读本章
去阅读
DFlash是一种轻量级块扩散模型,专为推测性解码而设计。它能够实现高效、高质量的并行绘图。
投机解码(Speculative Decoding) 是一种相当有效的方法,可解决传统大语言模型推理中的“单令牌(逐词)生成”瓶颈。
其工作流程是:先由一个小型草稿模型生成多个后续令牌,再由大型目标模型通过一次前向传播并行验证它们。
如果某个位置的令牌被验证为错误,则保留该位置之前的所有正确令牌,并从此处继续生成。该方法的最终输出质量绝不会劣于传统解码方式。
然而,当前投机解码中使用的草稿模型仍然是逐个预测令牌的。这导致草稿生成阶段本身成为了新的瓶颈,使得实际场景中的加速比通常只能达到 2–3 倍。
DFlash 是一项新技术,它用轻量级的**块扩散模型(Block Diffusion Model)**取代了自回归草稿模型,能够在一个前向传播中并行预测所有令牌。
无论投机预测的令牌数量有多少,草稿生成的计算开销都保持恒定。
此外,草稿模型会接收来自目标模型多个层的隐藏特征,并将这些特征注入到草稿生成的每一层中。得益于这种上下文信息的注入,其预测精度相比无此机制的模型有了显著提升。
已关注
关注
重播 分享 赞
关闭
观看更多
更多
退出全屏
切换到竖屏全屏退出全屏
Esn技术社区已关注
分享视频
,时长00:26
0/0
00:00/00:26
切换到横屏模式
继续播放
[ ]
进度条,百分之0
播放
00:00
/
00:26
00:26
倍速
全屏
倍速播放中
0.5倍 0.75倍 1.0倍 1.5倍 2.0倍
超清 流畅
继续观看
2.DFlash – 研究人员找到了将大语言模型加速 8.5 倍的方法?
观看更多
原创
,
2.DFlash – 研究人员找到了将大语言模型加速 8.5 倍的方法?
Esn技术社区已关注
分享点赞在看
已同步到看一看写下你的评论
视频详情
如上方演示所示,传统解码的速度为 48.5 令牌/秒,而 DFlash 在同一模型上达到了 415 令牌/秒,且没有任何质量损失。
该技术目前已集成到 vLLM、SGLang 和 Transformers 框架中。针对 Qwen3、Qwen3.5、Llama 3.1、Kimi-K2.5、gpt-oss 等众多模型的草稿模型也已上架 HuggingFace。
- GitHub 仓库:https://github.com/EsnBl0ckdev/dflash
KV 缓存(KV-Caching) 是加速大语言模型推理的另一项核心技术。关于它的详细介绍,可参考这篇文章。https://x.com/_avichawla/status/2034902650534187503
#
https://github.com/EsnBl0ckdev/dflash
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:Esn技术社区 Esn Arsenal Esn Arsenal《2.DFlash – 研究人员找到了将大语言模型加速 8.5 倍的方法?》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论