어떤 웹사이트의 데이터도 자동으로 끌어낼 수 있는 GitHub 리포지토리 10선:
1
어떤 웹사이트의 데이터도 자동으로 끌어낼 수 있는 GitHub 리포지토리 10선:
- Firecrawl
URL을 전달하기만 하면 사이트 전체를 자동으로 순회하며, AI가 바로 사용할 수 있는 깨끗한 데이터로 변환하는 도구. JavaScript로 그려지는 페이지도 대응 가능하며, GitHub 탑 100에 드는 14만 ★.
https://
github.com/firecrawl/fire
crawl
…
- Crawl4AI
어떤 사이트든 LLM이 그대로 읽을 수 있는 텍스트로 정리하는 도구. API 키나 과금이 필요 없으며, 16달러(약 2,400엔)를 청구하는 유료 서비스에 질려버린 개발자가 며칠 만에 만들어 7만 ★를 획득함.
https://
github.com/unclecode/craw
l4ai
…
- browser-use
클릭, 로그인, 폼 입력까지 인간처럼 브라우저를 조작하는 AI 에이전트. 스위스의 명문 공과대학 ETH Zurich 출신(동대 학생이 창업) 스타트업이 개발해 10만 ★를 획득.
https://
github.com/browser-use/br
owser-use
…
- Crawlee
연결원의 자동 전환, 재시도, 브라우저 식별 정보 위장, 대기열 관리를 모두 탑재한 데이터 수집 기반. 접근 차단 회피 메커니즘이 한 세트 갖춰져 있음.
https://
github.com/apify/crawlee
- Scrapy
10년 이상 사용되어 온 본격적인 데이터 수집 도구. 수백만 페이지를 안정적으로 처리할 수 있으며, 대규모 수집 실적도 풍부하고, 계속 무료.
https://
github.com/scrapy/scrapy
- MarkItDown
PDF, Office 문서, HTML, 이미지 등을 한꺼번에 텍스트화하는 Microsoft 제작 도구. 소스 코드 공개로 무료.
https://
github.com/microsoft/mark
itdown
…
- Scrapling
사이트의 디자인 변경에 자동으로 적응하며, 차단 탐지를 계속 회피하는 데이터 수집 도구. 유료 차단 회피 서비스에 맞먹는 기능을 무료로 사용할 수 있음.
https://
github.com/D4Vinci/Scrapl
ing
…
- scrcpy
PC에서 Android 단말기를 원격 조작·자동화할 수 있으며, 웹 버전이 없는 모바일 전용 앱에 대한 발판이 되는 14만 ★ 도구.
https://
github.com/Genymobile/scr
cpy
…
- AutoScraper
수집하고 싶은 데이터의 예시를 하나 전달하기만 하면 패턴을 자동 학습해 나머지를 일괄 획득함. 획득 대상 지정 코드가 필요 없으며, 몇 줄의 Python으로 동작.
https://
github.com/alirezamika/au
toscraper
…
- curl-impersonate
진짜 Chrome의 브라우저 식별 정보를 모방하는 HTTP 통신 도구. 요청이 실존하는 인간의 것처럼 보이게 하여, 고액의 안티봇 대책을 빠져나갈 수 있음.
https://t.co/ShC7Ed9Wbz
https://t.co/RHdEGHJvy3
https://t.co/bDao4MLSqr
https://t.co/dD7FHjbYtz
https://t.co/HhnKZwr7wa
https://t.co/bPMSRRrbLa
https://t.co/fGtwvNTDIB
https://t.co/nW3PnEcalV
https://t.co/Qs6cqGsySz
{{IMAGE_0}}
{{IMAGE_1}}
{{IMAGE_2}}
{{IMAGE_3}}
2
参考ポストはこちら
3
この投稿が参考になったら、
@so_ainsight
をフォロー。
いいね、リポストもよろしく。
1 / 4
晚晚 收藏夹又要吃灰一批新工具了 3h ago