别再与反爬虫系统死磕,也别在每次网站更新后重写选择器。

Scrapling 不只是另一个 Web 爬虫库,它是第一个 自适应 的爬虫库,能够从网站变化中学习并随之进化。
当其他库在网站结构更新时崩溃,Scrapling 会自动重新定位元素,让你的爬虫持续运行。

为现代 Web 而生,Scrapling 内置高速解析引擎和多种抓取器,帮助你应对所有 Web 爬虫挑战。
由爬虫开发者为爬虫开发者和普通用户打造,人人都能找到适合自己的功能。


🔑 核心特性

🌐 高级网站抓取与会话支持

  • HTTP 请求:通过 Fetcher 类实现快速且隐蔽的 HTTP 请求,可模拟浏览器 TLS 指纹、请求头,并支持 HTTP/3。
  • 动态加载:使用 DynamicFetcher 类结合 Playwright Chromium、真实 Chrome 及自定义隐身模式,抓取动态网站。
  • 反爬绕过StealthyFetcher 使用修改版 Firefox 与指纹伪造,轻松绕过 Cloudflare Turnstile 与中间页验证。
  • 会话管理FetcherSessionStealthySessionDynamicSession 提供持久会话,支持跨请求的 Cookie 与状态管理。
  • 异步支持:所有抓取器均支持异步,提供专用异步会话类。

🤖 自适应爬取与 AI 集成

  • 🔄 智能元素追踪:利用相似度算法,在网站结构变化后自动重新定位元素。
  • 🎯 灵活选择器:支持 CSS、XPath、过滤搜索、文本搜索、正则搜索等多种方式。
  • 🔍 相似元素查找:自动定位与已找到元素相似的其他元素。
  • 🤖 MCP 服务器 + AI:内置 MCP 服务器,可与 AI 协作进行爬取与数据提取。

    • MCP 会先用 Scrapling 提取目标内容,再交给 AI(Claude/Cursor 等),减少 Token 消耗并提升效率。
    • 演示视频

⚡ 高性能与稳定架构

  • 🚀 极速性能:优化后性能超越大多数 Python 爬虫库。
  • 🔋 内存高效:优化数据结构与惰性加载,降低内存占用。
  • 快速 JSON 序列化:比标准库快 10 倍。
  • 🏗️ 实战验证:92% 测试覆盖率 + 完整类型提示,已被数百名爬虫开发者日常使用一年以上。

👨‍💻 开发者/爬虫友好体验

  • 🎯 交互式爬虫 Shell:内置 IPython Shell,支持 Scrapling 集成、快捷工具,如将 curl 转换为 Scrapling 请求、在浏览器中查看结果。
  • 🚀 终端直接使用:无需写代码,直接在终端运行 Scrapling 抓取 URL。
  • 🛠️ 丰富导航 API:支持父节点、兄弟节点、子节点等高级 DOM 遍历。
  • 🧬 增强文本处理:内置正则、清理方法、优化字符串操作。
  • 📝 自动选择器生成:为任意元素生成稳健的 CSS/XPath 选择器。
  • 🔌 熟悉的 API:与 Scrapy/BeautifulSoup 类似,兼容 Scrapy/Parsel 的伪元素。
  • 📘 完整类型覆盖:全量类型提示,IDE 友好,代码补全体验佳。
  • 🔋 Docker 镜像:每次发布都会自动构建并推送包含所有浏览器的 Docker 镜像。


📦️项目地址