# 인터넷 전체를 스크래핑하기 위한 10개의 GitHub 저장소
Canonical: https://social-archive.org/yena/KUqY2Ew5Hi
Original URL: https://x.com/ecommartinez/status/2071360257906168143
Author: Alejo
Platform: x
## Content
## 1 인터넷 전체를 스크래핑하기 위한 10개의 GitHub 저장소 모두 저장하세요. 각 저장소는 어떤 웹에서든 깨끗한 데이터를 추출합니다. 그런 수준의 접근은 보통 영업 전화와 계약을 요구합니다. {{IMAGE_0}} {{IMAGE_1}} {{IMAGE_2}} {{IMAGE_3}} --- ## 2 1. https:// github.com/firecrawl/fire crawl … 어떤 웹사이트든 타겟팅해서 모든 페이지를 추적하고, JavaScript를 렌더링하며, AI가 즉시 읽을 수 있는 깨끗하고 구조화된 데이터를 반환합니다. 13만 개의 별을 받았으며, GitHub 상위 100대 레포 중 하나입니다. AI 스타트업의 절반이 조용히 실행하는 스크래핑의 https://t.co/p3WttDIZlG {{IMAGE_4}} --- ## 3 2. https:// github.com/unclecode/craw l4ai … GitHub 최고의 스크래퍼. 어떤 웹도 LLM에 바로 사용할 수 있는 깨끗한 마크다운으로 변환하며, 유료 서비스보다 빠름. API 키, 계정, 페이지당 결제 같은 건 잊어버려. 한 개발자가 16달러짜리 유료 스크래퍼에 질려서 며칠 만에 만들었음. 51천 스타. Apache 2.0. https://t.co/LcPZZPX7Qd {{IMAGE_5}} --- ## 4 3. http:// github.com/browser-use/br owser-use … 사람처럼 브라우저를 다루는 AI 에이전트. 클릭하고, 스크롤하고, 로그인하고, 양식을 작성하며, 전에 본 적 없는 웹사이트에서 데이터를 추출합니다. 취리히 공과대학(ETH)의 두 연구원이 개발했으며, 1년 만에 95,000개의 별을 받았습니다. 간단한 스크래퍼가 도달하지 https://t.co/avpQB95HyU {{IMAGE_6}} --- ## 5 4. http:// github.com/apify/crawlee 전문적이고 완전한 스크래핑 프레임워크. 프록시 로테이션, 자동 재시도, 브라우저 지문 위장, 큐 관리 기능을 포함합니다. 차단을 피하기 위한 모든 메커니즘. 스크래핑 회사들이 수천 달러를 청구하는 스택이 이제 당신에게 무료입니다. https://t.co/7vJgTcDCyw {{IMAGE_7}} --- ## 6 5. http:// github.com/scrapy/scrapy 10년 넘게 데이터 팀들을 조용히 도와온 산업 수준의 스크래퍼. 수백만 개의 페이지를 추적하고, 어떤 콘텐츠든 추출하며, 깔끔하게 내보낸다. 대부분의 유료 도구가 도달하지 못하는 실제 조건에서 대규모로 테스트되었으며, 항상 무료. https://t.co/bllzoBAri2 {{IMAGE_8}} --- ## 7 6. http:// github.com/microsoft/mark itdown … 마이크로소프트의 자체 도구. PDF, Office 문서, HTML 또는 이미지와 같은 모든 파일이나 웹을 AI가 문제없이 사용할 수 있는 깔끔한 마크다운으로 변환합니다. 이 도구를 중심으로 구축된 데이터 파이프라인을 가진 전체 기업들이 있습니다. 마이크로소프트가 이를 오픈 https://t.co/C7G7oFcgrU {{IMAGE_9}}
