文章总结: Spider是一款基于Go语言开发的浏览器模拟爬虫工具,通过ChromeDevToolsProtocol实现真实浏览器环境,能自动抓取动态加载资源并解析SourceMap还原原始源代码。工具支持Cookie、代理、并发控制等配置,输出结构包含完整资源文件和源码目录,适用于安全测试、前端分析和资源备份等场景。 综合评分: 86 文章分类: 爬虫,安全工具,WEB安全,应用安全
开源工具 | Spider:一款强大的浏览器模拟爬虫,自动提取前端源码
三石随笔录
2026年2月5日 09:46 北京
在小说阅读器读本章
去阅读
#
一键抓取网页资源,自动还原 Source Map 源代码
痛点
作为安全研究人员或前端开发者,你是否遇到过这些场景:
- • 想分析某个网站的前端代码,但都是压缩混淆后的 JS
- • 需要抓取 SPA 单页应用的动态资源,普通爬虫无能为力
- • 想批量下载网站的所有静态资源,手动操作太繁琐
今天分享一款开源工具 Spider,完美解决以上问题。
Spider 是什么
Spider 是一款基于 Go 语言开发的浏览器模拟爬虫工具,核心特性:
1. 真实浏览器模拟 基于 Chrome DevTools Protocol,完整执行 JavaScript,抓取所有动态加载的资源。
2. Source Map 自动提取
自动检测并解析 .map 文件,还原压缩前的原始源代码,包括 React/Vue 组件、TypeScript 源文件等。
3. 灵活的配置选项 支持 Cookie、自定义 Header、代理、并发控制等,满足各种复杂场景。
快速开始
安装
git clone https://github.com/3stoneBrother/spider.git
cd spider
go build -o spider ./cmd/spider
基本使用
# 抓取单个网站
./spider -url https://example.com
# 使用代理(配合 Burp Suite)
./spider -url https://example.com -proxy http://127.0.0.1:8080
# 携带认证信息
./spider -url https://example.com -cookie "session=xxx" -header "Authorization:Bearer token"
# 批量抓取
./spider -file urls.txt -concurrency 3
命令行参数一览
| 参数 | 说明 | 示例 |
| — | — | — |
| -url | 目标 URL | -url https://example.com |
| -file | URL 列表文件 | -file urls.txt |
| -output | 输出目录 | -output ./site |
| -timeout | 超时时间(秒) | -timeout 60 |
| -cookie | Cookie | -cookie "a=1; b=2" |
| -header | 自定义 Header | -header "Auth:token" |
| -proxy | 代理地址 | -proxy http://127.0.0.1:8080 |
| -concurrency | 并发数 | -concurrency 5 |
| -headless | 无头模式 | -headless=false |
输出结构
抓取完成后,资源按域名和路径自动组织:
output/
├── example.com/
│ ├── index.html
│ ├── static/
│ │ ├── js/
│ │ └── css/
│ └── src/ # Source Map 还原的源码
│ ├── components/
│ ├── pages/
│ └── utils/
├── cdn.example.com/
│ └── vendor.js
└── report.txt # 抓取报告
使用场景
安全测试
- • 配合 Burp Suite 代理,自动触发所有 API 请求
- • 分析前端加密逻辑,定位敏感信息泄露
前端分析
- • 还原竞品网站的前端架构
- • 学习优秀项目的代码实现
资源备份
- • 批量下载网站静态资源
- • 保存网页完整快照
技术栈
- • Go – 高性能、跨平台
- • chromedp – Chrome DevTools Protocol 的 Go 实现
- • Headless Chrome – 真实浏览器环境
项目地址
GitHub: https://github.com/3stoneBrother/spider
欢迎 Star 和 PR!
注意事项
- 1. 请遵守目标网站的 robots.txt 和使用条款
- 2. 仅用于合法的安全测试和学习研究
- 3. 使用代理功能时请确保有授权
觉得有用?点个在看,分享给更多人!
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:三石随笔录 《开源工具 | Spider:一款强大的浏览器模拟爬虫,自动提取前端源码》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。











评论