老杨啊 on x

yena shared this post · 2h ago

为什么14个爬虫工具我只标了这个"最特别"？老杨现在说清楚

兄弟们，这个爬虫逻辑完全不一样的工具——ScrapeGraphAI，GitHub 27900 星。

一句话：你说"帮我把这个页面上的所有产品名和价格抓出来"，LLM 自动生成抓取流程给你执行，不用写选择器，不用懂 HTML 结构。

传统爬虫要写死每个数据在页面上的精确位置，对面一改版全挂，重写一遍。

ScrapeGraphAI 反过来

（1）自然语言描述需求就行——不需要找元素、不需要写定位代码，LLM 自己读懂页面、自己构建抓取逻辑，直接把数据给你返回来

（2）改版没关系——靠的是 LLM 读懂页面内容，不是认死某个 HTML 位置，对面怎么改版它重新读一遍照样跑；竞品价格、规格追踪，定期跑，不需要任何维护

（3）多种管道按场景选——SmartScraperGraph（单页提取）、SearchGraph（搜索引擎结果聚合）、ScriptCreatorGraph（生成可复用脚本）、SpeechGraph（内容转音频）

（4）本地模型支持——接 Ollama 在本地跑，数据不出去，隐私问题直接解决

（5）生态全覆盖——LangChain、LlamaIndex、http://Crew.ai、n8n、Dify、Zapier 全支持，有 MCP Server，直接给 Claude 当数据源插件

（6）五行跑起来——pip install scrapegraphai，MIT 开源，不用注册账号

竞品分析、数据研究、AI Agent 需要实时网页数据——这个工具省的不只是写代码的时间，是整个后续维护成本。