南京大学|软件研发效能实验室匡宏宇老师小组在AI代码审查实证研究上取得新进展

admin 2026-06-19 06:11:56 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 南京大学研究团队对GitHub上16个AI代码审查工具开展实证研究,分析2.2万条评论发现:37.1%配置工具未实际使用;Hunk级别工具采纳率(6.5%-19.2%)高于File级别(0.9%-4.2%),但远低于人类审查(60%);评论简洁性、代码片段包含度是影响采纳的关键因素,AI工具对经验不足开发者更有效。研究强调工具设计和提示工程对提升AI代码审查有效性的重要性。 综合评分: 87 文章分类: 代码审计,AI安全,安全工具,安全开发,其他


cover_image

南京大学 | 软件研发效能实验室匡宏宇老师小组在AI代码审查实证研究上取得新进展

信息网络安全杂志

2026年6月18日 11:00 上海

在小说阅读器读本章

去阅读

生成式人工智能技术( Generative AI, GenAI )的快速发展推动了代码审查工具的智能化演进。在 GitHub 等平台上,开发人员已经可以通过 GitHub Actions 将 GenAI 集成到工作流中。这些基于 AI 的代码审查工具能够自动审查代码,并在 PR 上发布建议评论。图 1 展示了不同工具在评论粒度和反馈方式上的明显差异,反映出这类工具在能力设计和使用方式上存在较大不同。尽管此类工具日益流行,并且承诺提升审查效率,但它们在实践中的实际采用情况、是否真正影响代码变更,以及哪些因素决定其有效性,仍缺乏充分的实证研究。为此,研究团队对此展开了系统分析。

图 1 不同粒度AI代码审查工具生成评论的示例

针对上述问题,软件研发效能实验室 Sqd.HUM 小组的匡宏宇老师及其指导的博士生孙可心同学联合海德堡大学 Sebastian Baltes 教授、新加坡管理大学 Christoph Treude 教授,开展了一项针对 GitHub 上 16 个流行 AI 代码审查工具的大规模实证研究。研究团队分析了 178 个代码仓库中 超过 22,000 条 AI 生成的审查评论,系统性地探究了三个核心研究问题:(1)这些AI工具在 GitHub 仓库中的采用情况如何?(2)AI 生成的审查评论在多大程度上真正导致了代码变更?(3)哪些因素影响评论被采纳的可能性?

为了回答这些问题,研究团队首先通过 GitHub REST API 收集了配置这些 AI 代码审查工具的代码仓库作为研究对象。在此基础上,团队设计了一个基于大语言模型的两阶段分析框架,用于判断评论是否包含可操作建议,以及这些建议是否在后续代码修改中得到落实。该框架在最佳配置下达到了 86.1% 的准确率和 74.6% 的宏平均 F1,为大规模分析提供了可靠支持。在此基础上,研究团队进一步构建了包含 36 个特征的结构化特征集,涵盖评论来源( 人类 vs AI )、评论内容特征、代码修改特征以及代码仓库特征等四个维度。通过训练随机森林分类器并结合SHAP( SHapley Additive exPlanations )可解释性分析,研究揭示了影响评论采纳率的关键因素。

研究结果表明,虽然 AI 代码审查工具的使用正在增长,但其有效性仍存在显著差异。在 178 个项目中, 37.1%虽配置工具但未产生任何 AI 评论,表明声明与实际使用之间存在差距。研究发现 Hunk 级别的审查工具( 针对具体代码块提供详细建议 )的评论采纳率( 6.5%–19.2% )显著高于 File 级别工具( 0.9%–4.2% ),但仍远低于人类审查评论的采纳率( 60% )。SHAP 分析进一步表明,评论来源( 人类 vs AI )和内容特征( 简洁性、代码丰富度 )是最关键因素,即简洁且包含代码片段的评论更容易被采纳。此外研究还发现,AI 评论对经验较少的贡献者更容易发挥作用,而对经验丰富的开发者帮助相对有限。不过,论文中的典型案例也表明( 图 2 所示 ),如果工具设计得当AI生成的审查意见同样能够说服成熟开发者接受修改建议。这些发现强调了工具设计和提示工程在提升AI代码审查系统有效性方面的重要性。

图 2 设计良好的AI代码审查成功推动资深开发者采纳修改建议的示例

该工作相关研究成果《 Does AI Code Review Lead to Code Changes? A Case Study of GitHub Actions 》现已被软件工程领域国际期刊 IEEE Transactions on Software Engineering( TSE,CCF –  A 期刊 )全文录用,南京大学为第一作者单位。

孙可心同学由马晓星教授和匡宏宇准聘副教授共同指导,其主要研究方向包括:代码审查、软件可追踪和基于文本情绪分析的软件仓库挖掘,其研究成果先后发表在 TSE、ASE、ICPC 等高水平软件工程国际会议上。欢迎对相关研究内容感兴趣的同学加入Sqd.HUM( Software’s Qualified Development of, by, for the HUManity )研究小组。

来源:南京大学

往期精彩回顾

从竞赛“练兵场”到人才“孵化器”: 湖南大学、复旦大学、四川大学、西安邮电大学引领塑造网络安全新生力

守护语音安全: 华中科技大学CPSS团队如何打造Anti-Deepfake系统斩获创意作品赛冠军?

芯片安全漏洞难检测?看西工大“抽象四次方”如何破解芯片安全难题

顶会论文“存活”指南:从清华、天大、杭电审稿人视角看网络安全顶会 | IEEE S&P 审稿流程全解析

如何用网络安全竞赛塑造学生的“第一份工作”能力——四川大学、西安邮电大学的竞赛育人实践

信息网络安全

《信息网络安全》创刊于2001年,是由公安部主管,公安部第三研究所、中国计算机学会主办,面向国内外公开发行的国内首批信息安全类期刊之一,于2015年成为中国科技核心期刊,2017年成为中国科学引文数据库来源期刊,2018年成为中文核心期刊,2022年入选CCF计算领域高质量科技期刊分级目录。

中文核心期刊

中国科技核心期刊

中国科学引文数据库来源期刊

CCF计算领域高质量科技期刊

我们在不断努力和完善中,期待您的关注和支持!


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:信息网络安全杂志 《南京大学 | 软件研发效能实验室匡宏宇老师小组在AI代码审查实证研究上取得新进展》

评论:0   参与:  0