yena shared this post · 5h ago
Alejo

인터넷 전체를 스크래핑하기 위한 10개의 GitHub 저장소

1

인터넷 전체를 스크래핑하기 위한 10개의 GitHub 저장소

모두 저장하세요. 각 저장소는 어떤 웹에서든 깨끗한 데이터를 추출합니다. 그런 수준의 접근은 보통 영업 전화와 계약을 요구합니다.

{{IMAGE_0}}

{{IMAGE_1}}

{{IMAGE_2}}

{{IMAGE_3}}


2

1.
https://
github.com/firecrawl/fire
crawl

어떤 웹사이트든 타겟팅해서 모든 페이지를 추적하고, JavaScript를 렌더링하며, AI가 즉시 읽을 수 있는 깨끗하고 구조화된 데이터를 반환합니다. 13만 개의 별을 받았으며, GitHub 상위 100대 레포 중 하나입니다. AI 스타트업의 절반이 조용히 실행하는 스크래핑의

https://t.co/p3WttDIZlG

{{IMAGE_4}}


3

2.
https://
github.com/unclecode/craw
l4ai

GitHub 최고의 스크래퍼. 어떤 웹도 LLM에 바로 사용할 수 있는 깨끗한 마크다운으로 변환하며, 유료 서비스보다 빠름. API 키, 계정, 페이지당 결제 같은 건 잊어버려. 한 개발자가 16달러짜리 유료 스크래퍼에 질려서 며칠 만에 만들었음. 51천 스타. Apache 2.0.

https://t.co/LcPZZPX7Qd

{{IMAGE_5}}


4

3.
http://
github.com/browser-use/br
owser-use

사람처럼 브라우저를 다루는 AI 에이전트. 클릭하고, 스크롤하고, 로그인하고, 양식을 작성하며, 전에 본 적 없는 웹사이트에서 데이터를 추출합니다. 취리히 공과대학(ETH)의 두 연구원이 개발했으며, 1년 만에 95,000개의 별을 받았습니다. 간단한 스크래퍼가 도달하지

https://t.co/avpQB95HyU

{{IMAGE_6}}


5

4.
http://
github.com/apify/crawlee

전문적이고 완전한 스크래핑 프레임워크. 프록시 로테이션, 자동 재시도, 브라우저 지문 위장, 큐 관리 기능을 포함합니다. 차단을 피하기 위한 모든 메커니즘. 스크래핑 회사들이 수천 달러를 청구하는 스택이 이제 당신에게 무료입니다.

https://t.co/7vJgTcDCyw

{{IMAGE_7}}


6

5.
http://
github.com/scrapy/scrapy

10년 넘게 데이터 팀들을 조용히 도와온 산업 수준의 스크래퍼. 수백만 개의 페이지를 추적하고, 어떤 콘텐츠든 추출하며, 깔끔하게 내보낸다. 대부분의 유료 도구가 도달하지 못하는 실제 조건에서 대규모로 테스트되었으며, 항상 무료.

https://t.co/bllzoBAri2

{{IMAGE_8}}


7

6.
http://
github.com/microsoft/mark
itdown

마이크로소프트의 자체 도구. PDF, Office 문서, HTML 또는 이미지와 같은 모든 파일이나 웹을 AI가 문제없이 사용할 수 있는 깔끔한 마크다운으로 변환합니다. 이 도구를 중심으로 구축된 데이터 파이프라인을 가진 전체 기업들이 있습니다. 마이크로소프트가 이를 오픈

https://t.co/C7G7oFcgrU

{{IMAGE_9}}