文章总结: 吉林大学王子琛博士提出CPSR方法,通过轻量化预测器在检查点数据基础上预测故障前状态,避免重计算,建立恢复开销量化模型并优化检查点间隔,显著降低大规模模型并行训练容错成本,论文被CCFA类会议INFOCOM2026接收。 综合评分: 85 文章分类: AI安全,安全建设,技术标准,解决方案,数据安全
吉林大学2022级博士王子琛的论文被计算机网络领域顶级会议INFOCOM 2026接收
信息网络安全杂志
2026年1月11日 17:01 上海
吉林大学计算机科学与技术学院李洪亮副教授指导的2022级博士研究生王子琛的论文“Rehabilitating over Recomputing: A Novel Failure Recovery Method for Large Model Training”被CCF A类会议INFOCOM 2026接收。论文第一作者为王子琛,通讯作者为李洪亮副教授,其他合作者包括美国天普大学吴杰教授、2020级博士生徐哲文、2021级博士生赵海睿、2023级硕士生田琦及吉林大学高性能计算中心徐海啸等。
该论文聚焦于大规模深度学习模型并行分布式训练中的高容错开销问题,提出了一种全新的预测式轻量级容错方案。针对现有依赖周期性检查点存储和故障后重计算的方案存在数据带宽瓶颈、检查点频率受限以及重计算开销高昂的挑战,本文提出了可控预测辅助自恢复(CPSR)方法。该方法设计了轻量化的预测器,基于常规检查点数据预测故障发生前的训练状态,从而避免传统方案中昂贵的重计算过程,进而建立了基于预测的恢复开销量化模型,并创新性地提出了以最小化整体容错成本为目标的检查点间隔优化问题,给出相应求解方法以实现检查点开销与恢复开销的高效平衡。
IEEE International Conference on Computer Communications(INFOCOM)是计算机网络和通信领域最具影响力的会议之一,CCF推荐A类会议。
来源:吉林大学
推荐阅读
基于正交最速梯度下降法的联邦遗忘学习、基于聚类的联邦学习框架
话还没说完,手机里广告就推送过来了?语音窃听怎么防?数字取证教育部工程研究中心面向移动设备的抗窃听防御工作被CCF
个性化联邦学习:确保数据隐私安全,训练高效人工智能模型
我国首次!清华大学在商用处理器上发现并披露免计时缓存侧信道攻击案例,研究成果被ACM CCS2025接收
推荐阅读
-
“网安+法学”双学位 | 看南开大学、东南大学、重庆邮电大学在新赛道上加速跑
-
芯片安全漏洞难检测?看西工大“抽象四次方”如何破解芯片安全难题
-
“五色石”计划下,东南大学网络安全人才培养模式创新“密码”揭秘
-
“实战派”网安人才培养新范式,看上海交通大学、暨南大学、湖南大学如何转变模式锻造网安实战人才
-
做研究,读“经典”!看中国科学技术大学、东南大学、南开大学和兰州大学网络空间安全领域青年教师如何挖出让审稿人眼前一亮的新切口
信息网络安全
《信息网络安全》创刊于2001年,是由公安部主管,公安部第三研究所、中国计算机学会主办,面向国内外公开发行的国内首批信息安全类期刊之一,于2015年成为中国科技核心期刊,2017年成为中国科学引文数据库来源期刊,2018年成为中文核心期刊,2022年入选CCF计算领域高质量科技期刊分级目录。
中文核心期刊
中国科技核心期刊
中国科学引文数据库来源期刊
CCF计算领域高质量科技期刊
我们在不断努力和完善中,期待您的关注和支持!
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:信息网络安全杂志 《吉林大学2022级博士王子琛的论文被计算机网络领域顶级会议INFOCOM 2026接收》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论