文章总结: 本文推荐六个开源项目帮助AI获取网络信息:OpenCLI复用登录态抓取社交平台内容,Web-Access提供多工具集,firecrawl和crawl4ai抓取公开网站,browser-use实现浏览器自动化,markitdown转换文件为markdown。建议组合使用覆盖80%场景。 综合评分: 82 文章分类: 爬虫
分享几个让 AI 冲浪自由的开源仓库
原创
B 哥 B 哥
我就BB怎么了
2026年6月30日 19:16 上海
在小说阅读器读本章
去阅读
前段时间,我做了个用 AI 搭知识库的教程,不少人反馈的问题都是怎么让 AI 获取源信息,比如 X 推文,YouTobe 字幕、小红书图文、公众号原文……
我自己这段时间下来,试了不少方案,也用过不少开源库,这里推荐几个。
1. OpenCLI — jackwener/opencli
https://github.com/jackwener/opencli
25.3k star
OpenCLI 把 100+ 站点封装成 CLI 命令,通过 Chrome 扩展来接管你日常浏览器,这个开源库的核心价值是复用你的登录态,也就是说小红书、X、抖音这些登录后才看得到的内容,它都能直接拿,所以是抓登录后内容的首选,目前我也有用到这个。
但是也要强调一点,X 的审核机制是非常严的,你用 OpenCLI 频繁去抓取 X 的内容,大概率也会有封号的风险。
2. Web-Access — eze-is/web-access
https://github.com/eze-is/web-access
7.9k star
独立开发者一泽写的 Skill,给 AI 一套上网方法论加五通道工具集(搜索 / fetch / curl / Jina / CDP),让模型自己判断走哪条路,跑完还会按域名沉淀站点经验,下次遇到同站直接调用。这个库我自己没怎么用,但对新手还是比较友好的。
3. firecrawl — firecrawl/firecrawl
https://github.com/firecrawl/firecrawl
141.7k star
Mendable AI 团队开源的「爬虫即服务」——指定 URL 它自动渲染 JS、抓全站、返回 AI 直接能消化的 markdown,不少 AI 创业公司的内容索引底层都跑着它。
4. crawl4ai — unclecode/crawl4ai
https://github.com/unclecode/crawl4ai 70.4k star
unclecode 一个人写的 self-host 版 firecrawl 平替,单机跑、不用付费、不要 API key,输出对 AI 友好的 markdown 。
5. browser-use — browser-use/browser-use
https://github.com/browser-use/browser-use
101.5k star
两位 ETH 研究员搞的项目,一年从 0 到 10 万 star,应该可以说是最近两年开源世界比较火的项目之一。这个开源库项目核心就是给 AI Agent 一套像人一样用浏览器的 API,比如打开网页、看屏幕、点按钮、填信息、提取信息,等等,特别适合云端无人值守跑长流程,比如部署一个机器人每天自动抓更新、自动填表那种场景。
6. markitdown — microsoft/markitdown
https://github.com/microsoft/markitdown
161.4k star
这个是微软出品,核心功能就是把任何文件转 markdown,PDF / Word / Excel / PPT / HTML / 图片 / 音频,都可以直接转写,输出干净到 LLM 直接能消化 markdown 文档。不过这个不算得上是获取信息的项目,但它是预处理器 ,我们获取信息后,总该要喂给 AI 大模型的,所以这个项目也是标配。
总的来说,你想获取社交平台需要你登录后的内容,可以先用 OpenCLI ;想喂 PDF / Word / 截图给 AI 那就装 markitdown;想抓陌生公开网站 ,firecrawl 和 crawl4ai 二选一。这几个开源库组合起来,基本就能覆盖 80% 的场景了。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:我就BB怎么了 B 哥 B 哥《分享几个让 AI 冲浪自由的开源仓库》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。








评论