文章总结: 本文探讨LLM如何重塑科研范式,提出Human-on-the-Loop新模式,研究者通过自然语言指导AIAgent自主实验(如KarpathyLoop案例),同时强调需验证结果、保持批判思维、夯实基本功,避免过度依赖工具而削弱核心竞争力。 综合评分: 85 文章分类: AI安全,安全培训,安全工具,技术标准,解决方案
LLM 下的科研新范式 —— 硕博小白如何拥抱 AI 时代?
原创
i3eg1nner&林00 i3eg1nner&林00
SecureNexusLab
2026年4月17日 09:46 北京
在小说阅读器读本章
去阅读
背景
《LLM 下的计算机硕博扫盲手册》由 SecureNexusLab 多位团队成员共同编写。科研本身包含了太多细节,编写初衷是为计算机领域新入门的硕博提供科研扫盲,并结合大模型在科研领域的应用提供参考。手册按照形成一篇论文的过程作为行文依据,包括:文献调研、论文阅读、论文复现、论文 Idea、实验环境、论文写作与润色、论文绘图、科研协作、论文投稿、「LLM 下的科研新范式」(即本章)。
编写成员来自山东大学、浙江大学、北京邮电大学、西安电子科技大学、江西师范大学,也收到了多位师傅的建议。希望读到手册的各位可以不吝赐教,提出新的建议。
LLM 下的科研新范式
大语言模型正在深刻改变计算机科学的研究方式。
当科研全流程被加速之后,全新的范式也正在浮现——研究者不再亲自执行每一个实验,而是编写研究方向,让 AI Agent 自主迭代,在审查结果后给出方向性指导。
这也意味着科研竞争会更加激烈。Human-on-the-Loop 新范式可能会让科研入门“看起来”更加容易,但建议在拥抱大模型的同时,永远不要让机器去代替思考。
读论文、补充技术知识,这些传统的科研素养训练依旧可以帮助建立属于自己的科研体系。
如果一切由大模型代劳,尤其是对于科研新手,即使取得不错的实验结果,真正属于自身的能力提升却很有限。
这也是为什么最近“AI 养知识库”流行起来——在深度 vibe coding 的同时,研究者也开始焦虑核心竞争力和知识体系。
工具只是工具,研究者的未来仍需靠自身发挥主观能动性。
LLM 发展很快,对科研的影响日益加深,已渗透进工作和生活的每个环节。正因如此,本章的内容或许在几个月后已经过时,因此这里不会介绍太多具体的工具使用和操作,建议自主探索最新的大模型和编程工具。
以下内容更多围绕 「Human-on-the-Loop」 新范式展开。
从 autoresearch 说起
2025 年 3 月,Andrej Karpathy 发布了 autoresearch(GitHub 70k+ stars),这个仅约 630 行代码的项目收获了极大关注,star数飙升。核心思想极其简洁:
❝
Agent 修改
train.py→ 训练 5 分钟 → 检查验证集指标是否提升 → 保留或回退 → 循环迭代❞
以每小时约 12 次实验的节奏,Karpathy 让 Agent 通宵自主运行,2 天内完成了约 700 次实验,发现了 20 个有效优化,将训练速度提升了 11%。Shopify CEO Tobias Lütke 随即将同样的方法应用到公司的模板引擎上,通过 37 次自动实验和 93 次自动提交,渲染性能提升了 53%。
这个工作流后来被分析师 Janakiram MSV 总结为 「“Karpathy Loop”」,核心三要素:
- Agent 能够访问和修改的代码文件
- 单一的、可客观测量的优化指标
- 每次实验的固定时间预算
autoresearch 真正的洞察不在于自动化本身,而在于重新定义了研究者的角色。项目的文件结构只有三个核心组件:
program.md:研究者用自然语言编写的实验指令——定义研究目标、约束条件、评估标准train.py:Agent 唯一可以修改的文件——模型定义和训练逻辑prepare.py:数据准备(不可修改的基础设施)
研究者不再手动编写训练代码,而是「用自然语言编程实验过程」。链路:人类写自然语言描述 → LLM 翻译为 Python 修改 → Python 训练神经网络。Karpathy 的原话:“All LLM frontier labs will do this. It’s the final boss battle.”
Human-on-the-Loop
autoresearch 所体现的本质是 「Human-on-the-Loop」 的科研新范式——区别于传统的 Human-in-the-Loop(每一步需人类审批),Human-on-the-Loop 模式下 Agent 在一定范围内自主运行,人类在关键节点介入和重定向。
需要警惕的问题:
- 「验证结果」:Agent 生成的代码可能有微妙的 bug,每一个关键结果必须由人类验证。
- 「理解实验」:不要让 Agent 变成黑盒。即使实验是 Agent 跑的,也必须完全理解实验设计和代码逻辑——审稿人关心的是对问题的理解深度。
- 「记录可复现信息」:记录 Agent 使用的 prompt、代码版本、运行环境,确保可复现性。
- 「学术诚信」:遵循目标会议/期刊对 LLM 使用的政策,对论文内容承担全部责任并披露 LLM 使用情况。
LLM 辅助科研工具箱
以下工具可了解:
「📚 文献发现与综合」:Elicit、Semantic Scholar、Consensus、Research Rabbit
「💡 Idea 生成与评估」:LLM 可作为 brainstorming 伙伴。有效做法是在充分了解领域的基础上进行结构化探索(描述现有方法局限,让 LLM 提出改进方向)。目前不要妄想直接让 LLM “给我一个能发顶会的 idea”。读论文、做 Demo 实验验证这些老套路依然是必需的,LLM 的科研素养不等于自己的科研素养。
「⚙️ 科研编程与调试」:GitHub Copilot、Cursor、Claude Code 等工具可加速代码编写、辅助调试和理解代码。目前第一梯队是 Claude Code 搭配 Claude Opus 模型,其次是量大管饱的 Codex、GLM。Claude Code 本身只是工具,可接入任意模型;也可尝试开源 OpenCode 工具,接入各家厂商会更方便。
给硕博生的建议
- 「工具是手段,不是目的。」 论文的核心竞争力来自对问题的理解和方法的创新,而非工具的使用。
- 「先打好基础,再善用工具。」 在科研初期先通过传统方式建立基本功,具备独立判断能力后才能有效利用 LLM 并识别其错误。
- 「保持批判性思维。」 LLM 可能编造引用、生成错误代码、给出过于乐观的分析,时刻保持验证的习惯。
- 「关注领域政策变化。」 各大会议和期刊对 LLM 使用的政策仍在快速演变,投稿前务必查阅最新要求。
参考链接
- autoresearch(Andrej Karpathy, 2025, 70k+ stars)
- Introducing Deep Research(OpenAI)
- ‘The Karpathy Loop’: 700 experiments, 2 days, and a glimpse of where AI is heading(Fortune)
总结
- 「LLM 正在重塑科研全流程」:从文献检索、代码调试到实验设计,效率大幅提升,但研究者角色正从“执行者”转向“指导者”。
- 「Karpathy Loop 是 Human-on-the-Loop 的典型实践」:研究者用自然语言定义目标,Agent 自主迭代实验,人类负责审查与重定向。
- 「核心风险不可忽视」:验证不足、理解缺失、学术诚信、能力退化——每一项都需要主动防范。
- 「工具是手段,不是目的」:科研的本质仍是对问题的深刻理解和方法的创新。先建立扎实的基本功,再善用 LLM 加速,方能避免“用工具替代思考”的陷阱。
- 「未来已来,但研究者仍需保持主动」:拥抱变化的同时,持续读论文、做实验、写笔记,才能建立不可替代的核心竞争力。
- 原文地址 https://github.com/SecureNexusLab/Research4CSBeginners
如果本文对你有帮助,欢迎 「点赞、在看、分享」 给需要的朋友。
❞
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:SecureNexusLab i3eg1nner&林00 i3eg1nner&林00《LLM 下的科研新范式 —— 硕博小白如何拥抱 AI 时代?》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。








评论