文章总结: 本文介绍了WaterCrawl开源项目,这是一个基于Python和Scrapy的Web爬虫应用,旨在将网络内容转换为适用于大模型的数据。它具备高级爬虫、多语言搜索、异步处理及OpenAPI等功能,支持Python和Node.js等多端SDK,并能与Dify、N8N等平台集成。文章提供了基于Docker的快速部署指南,强调了自托管和开源特性。 综合评分: 60 文章分类: 产品介绍,爬虫
将网络内容转换为LLM适用数据
原创
网络安全民工 网络安全民工
网络安全民工
2026年1月26日 20:58 北京
🕷️ WaterCrawl 是一个功能强大的 Web 应用程序,它使用 Python、Django、Scrapy 和 Celery 来抓取网页并提取相关数据。
🚀 快速入门
- 🐳快速入门
- 💻开发(欢迎贡献)
🐳 快速入门
要在本地 Docker 上构建和运行 WaterCrawl,请按照以下步骤操作:
- 克隆仓库:
git clone https://github.com/watercrawl/watercrawl.gitcd watercrawl
- 构建并运行 Docker 容器:
cd docker cp .env.example .env docker compose up -d
- 使用 open http://localhost访问应用程序
⚠️重要提示:如果您要部署在除 localhost 以外的域名或 IP 地址上,则必须更新 .env 文件中的 MinIO 配置:
# Change this from 'localhost' to your actual domain or IPMINIO_EXTERNAL_ENDPOINT=your-domain.com# Also update these URLs accordinglyMINIO_BROWSER_REDIRECT_URL=http://your-domain.com/minio-console/ MINIO_SERVER_URL=http://your-domain.com/如果未更新这些设置,将导致文件上传和下载失败。更多详情,请参阅DEPLOYMENT.md 文件。
重要提示:部署到生产环境之前,请务必使用
.env正确的配置值更新配置文件。此外,请确保设置并配置数据库、MinIO 以及任何其他必需的服务。更多信息,请参阅部署指南。
💻 开发(欢迎贡献)
如需参与本地发展或做出贡献,请遵循我们的贡献指南🤝
✨ 特点
- 🕸️ 高级网页爬虫和抓取– 提供高度可定制的网站爬虫选项,包括深度、速度和目标内容抓取。
- 🔍 强大的搜索引擎– 通过多种搜索深度(基本、高级、终极)查找网络上的相关内容
- 🌐 多语言支持– 可按国家/地区定向搜索和抓取不同语言的内容
- ⚡ 异步处理– 通过服务器发送事件 (SSE) 监控爬取和搜索的实时进度
- 🔄 基于 OpenAPI 的 REST API – 包含详细文档和客户端库的综合 API
- 🔌 丰富的生态系统– 与 Dify、N8N 和其他 AI/自动化平台集成
- 🏠 自托管 & 开源– 完全掌控您的数据,并提供便捷的部署选项
- 📊 高级结果处理– 下载并处理带有自定义参数的搜索结果
查看我们的API 概述,了解有关这些功能的更多信息。
🛠️客户端SDK
- ✅ Python 客户端– 功能齐全的 SDK,支持所有 API 端点
- ✅ Node.js 客户端– 完整的 JavaScript/TypeScript 集成
- ✅ Go Client – 功能齐全的 SDK,支持所有 API 端点
- ✅ PHP客户端– 功能齐全的SDK,支持所有API接口
- 🔜 Rust客户端– 即将推出
🔌 集成
- ✅ Dify 插件(源代码)
- ✅ N8N 工作流节点(源代码)
- ✅ Dify 知识库
- 🔄 Langflow(拉取请求 – 尚未合并)
- 🔜 Flowise(即将推出)
🔧 插件
- ✅ WaterCrawl 插件
- ✅ OpenAI 插件
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:网络安全民工 网络安全民工 网络安全民工《将网络内容转换为LLM适用数据》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论