清华存储实验室论文获FAST26杰出技术贡献奖,提出了GPU检查点保存和恢复新方案

admin 2026-04-24 06:34:55 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 清华存储实验室论文获FAST26杰出技术贡献奖,提出GPU检查点保存恢复新方案GCR,通过分离数据控制路径提升带宽利用率,支持主流框架和多种GPU。实验显示在CUDA平台检查点加速3.1-3.2倍、恢复加速2.3-3.3倍,AMD平台分别加速2.7-3.2倍和1.6-2.2倍,可应用于弹性任务扩展和容错计算,提升GPU集群利用率。 综合评分: 87 文章分类: 技术标准,解决方案,云安全,安全工具,其他


cover_image

清华存储实验室论文获FAST26杰出技术贡献奖,提出了GPU检查点保存和恢复新方案

信息网络安全杂志

2026年4月22日 17:00 上海

在小说阅读器读本章

去阅读

2月24日至26日,第24届USENIX文件与存储技术会议(USENIX Conference on File and Storage Technologies, FAST)在美国圣克拉拉举办。计算机系存储实验室发表的论文“GPU检查点保存和恢复的快速和轻量级方案”(GPU Checkpoint/Restore Made Fast and Lightweight)获得杰出技术贡献奖(Distinguished Artifact Award)。

  • Shaoxun Zeng, Tingxu Ren, Jiwu Shu, Youyou Lu. GPU Checkpoint/Restore Made Fast and Lightweight. The 24th USENIX Conference on File and Storage Technologies (FAST’26), 2026.

杰出技术贡献奖

【论文介绍】

该论文提出了一种快速且轻量级的GPU检查点保存和恢复方案GCR,通过分离数据路径与控制路径提高保存和恢复过程中的带宽利用率,并提出高效的GPU增量式检查点技术。GCR支持vLLM、DeepSpeed、Transformers等主流框架和多种型号的GPU。该论文因高质量的开源工作获得本次大会奖项,其在功能完备性、性能可复现性等方面均展现出了高水准。

基于该论文,我们构建并开源了项目GPU-CR(https://github.com/gpu-os/GPU-CR),并在大模型推理场景进行了系统评估。实验选取了多个主流模型进行测试,包括 Llama-8B、Qwen3-1.7B 等。实验分别在 NVIDIA GPU 环境 和 AMD GPU 环境 下进行,对比方案为 cuda-checkpoint 和 CRIU。

实验结果表明,GPU-CR 在 Checkpoint 和 Restore 两个阶段均取得了显著的性能提升。

在 CUDA 平台上,相比传统 CUDA Checkpoint 方案:

·Checkpoint 阶段实现 3.1 – 3.2 倍的加速

·Restore 阶段实现 2.3 – 3.3 倍的加速

图一:GPU-CR与cuda-checkpoint实验结果图

在 AMD 平台上,相较于CRIU:

· Checkpoint 阶段获得 2.7 – 3.2 倍的加速

· Restore 阶段获得 1.6 – 2.2 倍的加速

图二:GPU-CR与CRIU实验结果图

GCR能高效支撑多种现代GPU负载的关键应用场景,包括弹性GPU任务快速扩展、GPU多任务切换、容错的GPU计算等,对于提升GPU集群整体利用率具有重要意义。

来源: 清华

往期精彩回顾

从竞赛“练兵场”到人才“孵化器”: 湖南大学、复旦大学、四川大学、西安邮电大学引领塑造网络安全新生力

守护语音安全: 华中科技大学CPSS团队如何打造Anti-Deepfake系统斩获创意作品赛冠军?

芯片安全漏洞难检测?看西工大“抽象四次方”如何破解芯片安全难题

顶会论文“存活”指南:从清华、天大、杭电审稿人视角看网络安全顶会 | IEEE S&P 审稿流程全解析

信息网络安全

《信息网络安全》创刊于2001年,是由公安部主管,公安部第三研究所、中国计算机学会主办,面向国内外公开发行的国内首批信息安全类期刊之一,于2015年成为中国科技核心期刊,2017年成为中国科学引文数据库来源期刊,2018年成为中文核心期刊,2022年入选CCF计算领域高质量科技期刊分级目录。

中文核心期刊

中国科技核心期刊

中国科学引文数据库来源期刊

CCF计算领域高质量科技期刊

我们在不断努力和完善中,期待您的关注和支持!


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:信息网络安全杂志 《清华存储实验室论文获FAST26杰出技术贡献奖,提出了GPU检查点保存和恢复新方案》

评论:0   参与:  0