yena shared this post · 1h ago
鸟哥 | 蓝鸟会🕊️

想用Hermes和Openclaw白嫖全网数据又不想被反爬的收藏着10个仓库就够了!

1️⃣ Firecrawl:丢个URL进去,它自己把整站爬完,吐出来就是AI能直接吃的干净数据,JS渲染的页面也扛得住,14万★,进了GitHub Top 100。

🔗 https://github.com/firecrawl/firecrawl

2️⃣ Crawl4AI:把网站整成LLM能直接读的文本,不要API key不要钱。一个被16美元月费惹毛的程序员几天写出来的,7万★。

🔗 https://github.com/unclecode/crawl4ai

3️⃣ browser-use:让AI像真人一样点鼠标、登录、填表,ETH Zurich学生团队搞的,10万★。

🔗 https://github.com/browser-use/browser-use

4️⃣ Crawlee:自动换代理、重试、伪装指纹、管队列,一整套躲限制的家伙事儿全给你配齐。

🔗 https://github.com/apify/crawlee

5️⃣ Scrapy:干了十多年的老炮,几百万页面照样稳,永久免费。

🔗 https://github.com/scrapy/scrapy

6️⃣ MarkItDown:微软出的,PDF、Office、HTML、图片批量转文本,开源免费。

🔗 https://github.com/microsoft/markitdown

7️⃣ Scrapling:网站改版它自己适应,还能一直躲封禁,免费版能打付费的。

🔗 https://github.com/D4Vinci/Scrapling

8️⃣ scrcpy:用电脑远程操控安卓手机,专治那些只有App没网页的,14万★。

🔗 https://github.com/Genymobile/scrcpy

9️⃣ AutoScraper:给它一个样例,它自己学规律批量扒,不用写选择器,几行Python就跑。

🔗 https://github.com/alirezamika/autoscraper

🔟 curl-impersonate:把请求伪装成真Chrome指纹,看着就像真人在点,绕反爬不要太轻松。

🔗 https://github.com/lwthiker/curl-impersonate

工具都摆这了,能扒多少看你自己。

274