开源工具|Spider:一款强大的浏览器模拟爬虫,自动提取前端源码

admin 2026-06-09 04:41:13 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: Spider是一款基于Go语言开发的浏览器模拟爬虫工具,通过ChromeDevToolsProtocol实现真实浏览器环境,能自动抓取动态加载资源并解析SourceMap还原原始源代码。工具支持Cookie、代理、并发控制等配置,输出结构包含完整资源文件和源码目录,适用于安全测试、前端分析和资源备份等场景。 综合评分: 86 文章分类: 爬虫,安全工具,WEB安全,应用安全


cover_image

开源工具 | Spider:一款强大的浏览器模拟爬虫,自动提取前端源码

三石随笔录

2026年2月5日 09:46 北京

在小说阅读器读本章

去阅读

#

一键抓取网页资源,自动还原 Source Map 源代码


痛点

作为安全研究人员或前端开发者,你是否遇到过这些场景:

  • • 想分析某个网站的前端代码,但都是压缩混淆后的 JS
  • • 需要抓取 SPA 单页应用的动态资源,普通爬虫无能为力
  • • 想批量下载网站的所有静态资源,手动操作太繁琐

今天分享一款开源工具 Spider,完美解决以上问题。


Spider 是什么

Spider 是一款基于 Go 语言开发的浏览器模拟爬虫工具,核心特性:

1. 真实浏览器模拟 基于 Chrome DevTools Protocol,完整执行 JavaScript,抓取所有动态加载的资源。

2. Source Map 自动提取 自动检测并解析 .map 文件,还原压缩前的原始源代码,包括 React/Vue 组件、TypeScript 源文件等。

3. 灵活的配置选项 支持 Cookie、自定义 Header、代理、并发控制等,满足各种复杂场景。


快速开始

安装

git clone https://github.com/3stoneBrother/spider.git
cd spider
go build -o spider ./cmd/spider

基本使用

# 抓取单个网站
./spider -url https://example.com

# 使用代理(配合 Burp Suite)
./spider -url https://example.com -proxy http://127.0.0.1:8080

# 携带认证信息
./spider -url https://example.com -cookie "session=xxx" -header "Authorization:Bearer token"

# 批量抓取
./spider -file urls.txt -concurrency 3

命令行参数一览

| 参数 | 说明 | 示例 | | — | — | — | | -url | 目标 URL | -url https://example.com | | -file | URL 列表文件 | -file urls.txt | | -output | 输出目录 | -output ./site | | -timeout | 超时时间(秒) | -timeout 60 | | -cookie | Cookie | -cookie "a=1; b=2" | | -header | 自定义 Header | -header "Auth:token" | | -proxy | 代理地址 | -proxy http://127.0.0.1:8080 | | -concurrency | 并发数 | -concurrency 5 | | -headless | 无头模式 | -headless=false |


输出结构

抓取完成后,资源按域名和路径自动组织:

output/
├── example.com/
│   ├── index.html
│   ├── static/
│   │   ├── js/
│   │   └── css/
│   └── src/              # Source Map 还原的源码
│       ├── components/
│       ├── pages/
│       └── utils/
├── cdn.example.com/
│   └── vendor.js
└── report.txt            # 抓取报告

使用场景

安全测试

  • • 配合 Burp Suite 代理,自动触发所有 API 请求
  • • 分析前端加密逻辑,定位敏感信息泄露

前端分析

  • • 还原竞品网站的前端架构
  • • 学习优秀项目的代码实现

资源备份

  • • 批量下载网站静态资源
  • • 保存网页完整快照

技术栈

  • • Go – 高性能、跨平台
  • • chromedp – Chrome DevTools Protocol 的 Go 实现
  • • Headless Chrome – 真实浏览器环境

项目地址

GitHub: https://github.com/3stoneBrother/spider

欢迎 Star 和 PR!


注意事项

  1. 1. 请遵守目标网站的 robots.txt 和使用条款
  2. 2. 仅用于合法的安全测试和学习研究
  3. 3. 使用代理功能时请确保有授权

觉得有用?点个在看,分享给更多人!


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:三石随笔录 《开源工具 | Spider:一款强大的浏览器模拟爬虫,自动提取前端源码》

评论:0   参与:  0