# 어떤 웹사이트의 데이터도 자동으로 끌어낼 수 있는 GitHub 리포지토리 10선:
Canonical: https://social-archive.org/yena/7b3qmhSkAx
Original URL: https://x.com/so_ainsight/status/2071793358906040729
Author: そう｜Claude Codeで始めるAI自動化
Platform: x
## Content
## 1 어떤 웹사이트의 데이터도 자동으로 끌어낼 수 있는 GitHub 리포지토리 10선: 1. Firecrawl URL을 전달하기만 하면 사이트 전체를 자동으로 순회하며, AI가 바로 사용할 수 있는 깨끗한 데이터로 변환하는 도구. JavaScript로 그려지는 페이지도 대응 가능하며, GitHub 탑 100에 드는 14만 ★. https:// github.com/firecrawl/fire crawl … 2. Crawl4AI 어떤 사이트든 LLM이 그대로 읽을 수 있는 텍스트로 정리하는 도구. API 키나 과금이 필요 없으며, 16달러(약 2,400엔)를 청구하는 유료 서비스에 질려버린 개발자가 며칠 만에 만들어 7만 ★를 획득함. https:// github.com/unclecode/craw l4ai … 3. browser-use 클릭, 로그인, 폼 입력까지 인간처럼 브라우저를 조작하는 AI 에이전트. 스위스의 명문 공과대학 ETH Zurich 출신(동대 학생이 창업) 스타트업이 개발해 10만 ★를 획득. https:// github.com/browser-use/br owser-use … 4. Crawlee 연결원의 자동 전환, 재시도, 브라우저 식별 정보 위장, 대기열 관리를 모두 탑재한 데이터 수집 기반. 접근 차단 회피 메커니즘이 한 세트 갖춰져 있음. https:// github.com/apify/crawlee 5. Scrapy 10년 이상 사용되어 온 본격적인 데이터 수집 도구. 수백만 페이지를 안정적으로 처리할 수 있으며, 대규모 수집 실적도 풍부하고, 계속 무료. https:// github.com/scrapy/scrapy 6. MarkItDown PDF, Office 문서, HTML, 이미지 등을 한꺼번에 텍스트화하는 Microsoft 제작 도구. 소스 코드 공개로 무료. https:// github.com/microsoft/mark itdown … 7. Scrapling 사이트의 디자인 변경에 자동으로 적응하며, 차단 탐지를 계속 회피하는 데이터 수집 도구. 유료 차단 회피 서비스에 맞먹는 기능을 무료로 사용할 수 있음. https:// github.com/D4Vinci/Scrapl ing … 8. scrcpy PC에서 Android 단말기를 원격 조작·자동화할 수 있으며, 웹 버전이 없는 모바일 전용 앱에 대한 발판이 되는 14만 ★ 도구. https:// github.com/Genymobile/scr cpy … 9. AutoScraper 수집하고 싶은 데이터의 예시를 하나 전달하기만 하면 패턴을 자동 학습해 나머지를 일괄 획득함. 획득 대상 지정 코드가 필요 없으며, 몇 줄의 Python으로 동작. https:// github.com/alirezamika/au toscraper … 10. curl-impersonate 진짜 Chrome의 브라우저 식별 정보를 모방하는 HTTP 통신 도구. 요청이 실존하는 인간의 것처럼 보이게 하여, 고액의 안티봇 대책을 빠져나갈 수 있음. https://t.co/ShC7Ed9Wbz https://t.co/RHdEGHJvy3 https://t.co/bDao4MLSqr https://t.co/dD7FHjbYtz https://t.co/HhnKZwr7wa https://t.co/bPMSRRrbLa https://t.co/fGtwvNTDIB https://t.co/nW3PnEcalV https://t.co/Qs6cqGsySz {{IMAGE_0}} {{IMAGE_1}} {{IMAGE_2}} {{IMAGE_3}} --- ## 2 参考ポストはこちら --- ## 3 この投稿が参考になったら、 @so_ainsight をフォロー。 いいね、リポストもよろしく。
