想用Hermes和Openclaw白嫖全网数据又不想被反爬的收藏着10个仓库就够了!
1️⃣ Firecrawl:丢个URL进去,它自己把整站爬完,吐出来就是AI能直接吃的干净数据,JS渲染的页面也扛得住,14万★,进了GitHub Top 100。
🔗 https://github.com/firecrawl/firecrawl
2️⃣ Crawl4AI:把网站整成LLM能直接读的文本,不要API key不要钱。一个被16美元月费惹毛的程序员几天写出来的,7万★。
🔗 https://github.com/unclecode/crawl4ai
3️⃣ browser-use:让AI像真人一样点鼠标、登录、填表,ETH Zurich学生团队搞的,10万★。
🔗 https://github.com/browser-use/browser-use
4️⃣ Crawlee:自动换代理、重试、伪装指纹、管队列,一整套躲限制的家伙事儿全给你配齐。
🔗 https://github.com/apify/crawlee
5️⃣ Scrapy:干了十多年的老炮,几百万页面照样稳,永久免费。
🔗 https://github.com/scrapy/scrapy
6️⃣ MarkItDown:微软出的,PDF、Office、HTML、图片批量转文本,开源免费。
🔗 https://github.com/microsoft/markitdown
7️⃣ Scrapling:网站改版它自己适应,还能一直躲封禁,免费版能打付费的。
🔗 https://github.com/D4Vinci/Scrapling
8️⃣ scrcpy:用电脑远程操控安卓手机,专治那些只有App没网页的,14万★。
🔗 https://github.com/Genymobile/scrcpy
9️⃣ AutoScraper:给它一个样例,它自己学规律批量扒,不用写选择器,几行Python就跑。
🔗 https://github.com/alirezamika/autoscraper
🔟 curl-impersonate:把请求伪装成真Chrome指纹,看着就像真人在点,绕反爬不要太轻松。
🔗 https://github.com/lwthiker/curl-impersonate
工具都摆这了,能扒多少看你自己。