yena shared this post · 2h ago
老杨啊

为什么14个爬虫工具我只标了这个"最特别"?老杨现在说清楚

兄弟们,这个爬虫逻辑完全不一样的工具——ScrapeGraphAI,GitHub 27900 星。

一句话:你说"帮我把这个页面上的所有产品名和价格抓出来",LLM 自动生成抓取流程给你执行,不用写选择器,不用懂 HTML 结构。

传统爬虫要写死每个数据在页面上的精确位置,对面一改版全挂,重写一遍。

ScrapeGraphAI 反过来

(1)自然语言描述需求就行——不需要找元素、不需要写定位代码,LLM 自己读懂页面、自己构建抓取逻辑,直接把数据给你返回来

(2)改版没关系——靠的是 LLM 读懂页面内容,不是认死某个 HTML 位置,对面怎么改版它重新读一遍照样跑;竞品价格、规格追踪,定期跑,不需要任何维护

(3)多种管道按场景选——SmartScraperGraph(单页提取)、SearchGraph(搜索引擎结果聚合)、ScriptCreatorGraph(生成可复用脚本)、SpeechGraph(内容转音频)

(4)本地模型支持——接 Ollama 在本地跑,数据不出去,隐私问题直接解决

(5)生态全覆盖——LangChain、LlamaIndex、http://Crew.ai、n8n、Dify、Zapier 全支持,有 MCP Server,直接给 Claude 当数据源插件

(6)五行跑起来——pip install scrapegraphai,MIT 开源,不用注册账号

竞品分析、数据研究、AI Agent 需要实时网页数据——这个工具省的不只是写代码的时间,是整个后续维护成本。

33