AnyCrawl 是一款高性能的网络爬虫与数据抓取框架,集成了 Cheerio、Playwright、Puppeteer 三种爬虫引擎。
它既能快速处理静态页面,也能应对复杂的 JavaScript 渲染内容,还支持 Google 搜索结果批量爬取,为数据采集和 LLM 项目提供强大支持。


✨ 特性

  • 多引擎支持:静态解析与 JavaScript 渲染自由切换
  • 🔎 SERP 爬虫:批量获取 Google 等搜索引擎结果
  • 🌐 网站爬虫:支持单页面与整站智能遍历抓取
  • 🏗️ 高性能架构:多线程 + 多进程并发处理海量任务
  • 🌍 代理支持:内置 HTTP 与 SOCKS 代理功能
  • 🤖 LLM 优化:输出数据格式专门为大语言模型项目优化

📦 示例请求

以下示例展示了如何通过 AnyCrawl API 执行 Google 搜索结果抓取:

curl -X POST http://localhost:8080/v1/search \
  -H 'Content-Type: application/json' \
  -H 'Authorization: Bearer YOUR_ANYCRAWL_API_KEY' \
  -d '{
  "query": "AnyCrawl",
  "limit": 10,
  "engine": "google",
  "lang": "all"
}'

📦️项目地址