인터넷 전체를 스크래핑하기 위한 10개의 GitHub 저장소
1
인터넷 전체를 스크래핑하기 위한 10개의 GitHub 저장소
모두 저장하세요. 각 저장소는 어떤 웹에서든 깨끗한 데이터를 추출합니다. 그런 수준의 접근은 보통 영업 전화와 계약을 요구합니다.
{{IMAGE_0}}
{{IMAGE_1}}
{{IMAGE_2}}
{{IMAGE_3}}
2
1.
https://
github.com/firecrawl/fire
crawl
…
어떤 웹사이트든 타겟팅해서 모든 페이지를 추적하고, JavaScript를 렌더링하며, AI가 즉시 읽을 수 있는 깨끗하고 구조화된 데이터를 반환합니다. 13만 개의 별을 받았으며, GitHub 상위 100대 레포 중 하나입니다. AI 스타트업의 절반이 조용히 실행하는 스크래핑의
{{IMAGE_4}}
3
2.
https://
github.com/unclecode/craw
l4ai
…
GitHub 최고의 스크래퍼. 어떤 웹도 LLM에 바로 사용할 수 있는 깨끗한 마크다운으로 변환하며, 유료 서비스보다 빠름. API 키, 계정, 페이지당 결제 같은 건 잊어버려. 한 개발자가 16달러짜리 유료 스크래퍼에 질려서 며칠 만에 만들었음. 51천 스타. Apache 2.0.
{{IMAGE_5}}
4
3.
http://
github.com/browser-use/br
owser-use
…
사람처럼 브라우저를 다루는 AI 에이전트. 클릭하고, 스크롤하고, 로그인하고, 양식을 작성하며, 전에 본 적 없는 웹사이트에서 데이터를 추출합니다. 취리히 공과대학(ETH)의 두 연구원이 개발했으며, 1년 만에 95,000개의 별을 받았습니다. 간단한 스크래퍼가 도달하지
{{IMAGE_6}}
5
4.
http://
github.com/apify/crawlee
전문적이고 완전한 스크래핑 프레임워크. 프록시 로테이션, 자동 재시도, 브라우저 지문 위장, 큐 관리 기능을 포함합니다. 차단을 피하기 위한 모든 메커니즘. 스크래핑 회사들이 수천 달러를 청구하는 스택이 이제 당신에게 무료입니다.
{{IMAGE_7}}
6
5.
http://
github.com/scrapy/scrapy
10년 넘게 데이터 팀들을 조용히 도와온 산업 수준의 스크래퍼. 수백만 개의 페이지를 추적하고, 어떤 콘텐츠든 추출하며, 깔끔하게 내보낸다. 대부분의 유료 도구가 도달하지 못하는 실제 조건에서 대규모로 테스트되었으며, 항상 무료.
{{IMAGE_8}}
7
6.
http://
github.com/microsoft/mark
itdown
…
마이크로소프트의 자체 도구. PDF, Office 문서, HTML 또는 이미지와 같은 모든 파일이나 웹을 AI가 문제없이 사용할 수 있는 깔끔한 마크다운으로 변환합니다. 이 도구를 중심으로 구축된 데이터 파이프라인을 가진 전체 기업들이 있습니다. 마이크로소프트가 이를 오픈
{{IMAGE_9}}