鸟哥 | 蓝鸟会🕊️ on x

yena shared this post · 1h ago

想用Hermes和Openclaw白嫖全网数据又不想被反爬的收藏着10个仓库就够了！

1️⃣ Firecrawl：丢个URL进去，它自己把整站爬完，吐出来就是AI能直接吃的干净数据，JS渲染的页面也扛得住，14万★，进了GitHub Top 100。

2️⃣ Crawl4AI：把网站整成LLM能直接读的文本，不要API key不要钱。一个被16美元月费惹毛的程序员几天写出来的，7万★。

3️⃣ browser-use：让AI像真人一样点鼠标、登录、填表，ETH Zurich学生团队搞的，10万★。

4️⃣ Crawlee：自动换代理、重试、伪装指纹、管队列，一整套躲限制的家伙事儿全给你配齐。

5️⃣ Scrapy：干了十多年的老炮，几百万页面照样稳，永久免费。

6️⃣ MarkItDown：微软出的，PDF、Office、HTML、图片批量转文本，开源免费。

7️⃣ Scrapling：网站改版它自己适应，还能一直躲封禁，免费版能打付费的。

8️⃣ scrcpy：用电脑远程操控安卓手机，专治那些只有App没网页的，14万★。

9️⃣ AutoScraper：给它一个样例，它自己学规律批量扒，不用写选择器，几行Python就跑。

🔟 curl-impersonate：把请求伪装成真Chrome指纹，看着就像真人在点，绕反爬不要太轻松。

工具都摆这了，能扒多少看你自己。