文章总结: 清华存储实验室论文获FAST26杰出技术贡献奖,提出GPU检查点保存恢复新方案GCR,通过分离数据控制路径提升带宽利用率,支持主流框架和多种GPU。实验显示在CUDA平台检查点加速3.1-3.2倍、恢复加速2.3-3.3倍,AMD平台分别加速2.7-3.2倍和1.6-2.2倍,可应用于弹性任务扩展和容错计算,提升GPU集群利用率。 综合评分: 87 文章分类: 技术标准,解决方案,云安全,安全工具,其他
清华存储实验室论文获FAST26杰出技术贡献奖,提出了GPU检查点保存和恢复新方案
信息网络安全杂志
2026年4月22日 17:00 上海
在小说阅读器读本章
去阅读
2月24日至26日,第24届USENIX文件与存储技术会议(USENIX Conference on File and Storage Technologies, FAST)在美国圣克拉拉举办。计算机系存储实验室发表的论文“GPU检查点保存和恢复的快速和轻量级方案”(GPU Checkpoint/Restore Made Fast and Lightweight)获得杰出技术贡献奖(Distinguished Artifact Award)。
- Shaoxun Zeng, Tingxu Ren, Jiwu Shu, Youyou Lu. GPU Checkpoint/Restore Made Fast and Lightweight. The 24th USENIX Conference on File and Storage Technologies (FAST’26), 2026.
杰出技术贡献奖
【论文介绍】
该论文提出了一种快速且轻量级的GPU检查点保存和恢复方案GCR,通过分离数据路径与控制路径提高保存和恢复过程中的带宽利用率,并提出高效的GPU增量式检查点技术。GCR支持vLLM、DeepSpeed、Transformers等主流框架和多种型号的GPU。该论文因高质量的开源工作获得本次大会奖项,其在功能完备性、性能可复现性等方面均展现出了高水准。
基于该论文,我们构建并开源了项目GPU-CR(https://github.com/gpu-os/GPU-CR),并在大模型推理场景进行了系统评估。实验选取了多个主流模型进行测试,包括 Llama-8B、Qwen3-1.7B 等。实验分别在 NVIDIA GPU 环境 和 AMD GPU 环境 下进行,对比方案为 cuda-checkpoint 和 CRIU。
实验结果表明,GPU-CR 在 Checkpoint 和 Restore 两个阶段均取得了显著的性能提升。
在 CUDA 平台上,相比传统 CUDA Checkpoint 方案:
·Checkpoint 阶段实现 3.1 – 3.2 倍的加速
·Restore 阶段实现 2.3 – 3.3 倍的加速
图一:GPU-CR与cuda-checkpoint实验结果图
在 AMD 平台上,相较于CRIU:
· Checkpoint 阶段获得 2.7 – 3.2 倍的加速
· Restore 阶段获得 1.6 – 2.2 倍的加速
图二:GPU-CR与CRIU实验结果图
GCR能高效支撑多种现代GPU负载的关键应用场景,包括弹性GPU任务快速扩展、GPU多任务切换、容错的GPU计算等,对于提升GPU集群整体利用率具有重要意义。
来源: 清华
往期精彩回顾
从竞赛“练兵场”到人才“孵化器”: 湖南大学、复旦大学、四川大学、西安邮电大学引领塑造网络安全新生力
守护语音安全: 华中科技大学CPSS团队如何打造Anti-Deepfake系统斩获创意作品赛冠军?
芯片安全漏洞难检测?看西工大“抽象四次方”如何破解芯片安全难题
顶会论文“存活”指南:从清华、天大、杭电审稿人视角看网络安全顶会 | IEEE S&P 审稿流程全解析
信息网络安全
《信息网络安全》创刊于2001年,是由公安部主管,公安部第三研究所、中国计算机学会主办,面向国内外公开发行的国内首批信息安全类期刊之一,于2015年成为中国科技核心期刊,2017年成为中国科学引文数据库来源期刊,2018年成为中文核心期刊,2022年入选CCF计算领域高质量科技期刊分级目录。
中文核心期刊
中国科技核心期刊
中国科学引文数据库来源期刊
CCF计算领域高质量科技期刊
我们在不断努力和完善中,期待您的关注和支持!
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:信息网络安全杂志 《清华存储实验室论文获FAST26杰出技术贡献奖,提出了GPU检查点保存和恢复新方案》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论