# 10 REPOSITORIOS DE GITHUB QUE RASPAAN TODO INTERNET POR TI Guarda cada uno de...
Canonical: https://social-archive.org/yena/Zewj2AgkHo
Original URL: https://x.com/anyelamarillo/status/2068908699750428977
Author: Amarillo
Platform: x
## Content
10 REPOSITORIOS DE GITHUB QUE RASPAAN TODO INTERNET POR TI Guarda cada uno de ellos. Cada uno extrae datos limpios de cualquier sitio web en la Tierra, el tipo de acceso que las empresas venden detrás de una llamada de ventas y un contrato. 1. http://github.com/mendableai/fir… Apúntalo a cualquier sitio web y recorre cada página, renderiza el JavaScript y devuelve datos estructurados limpios que una IA puede leer al instante. Superó los 130K estrellas y entró en el top 100 de repos de GitHub. El núcleo de raspado que la mitad de las startups de IA ejecutan en silencio, abierto para cualquiera. 2. http://github.com/unclecode/craw… El rastreador de tendencia #1 en GitHub. Convierte cualquier sitio en markdown limpio listo para LLM, más rápido que los servicios de pago y sin clave API, sin cuenta, sin tarifa por página. Un dev lo construyó en días después de hartarse de pagar $16 por un raspador con acceso restringido. 51K estrellas. Apache 2.0. 3. http://github.com/browser-use/br… Un agente de IA que maneja un navegador real como un humano, haciendo clic, desplazándose, iniciando sesión, rellenando formularios y extrayendo datos de sitios que nunca ha visto antes. Dos investigadores de ETH Zurich lo crearon y alcanzó 95K estrellas en aproximadamente un año. La herramienta que raspa páginas que ningún rastreador simple puede alcanzar. MIT. 4. http://github.com/apify/crawlee El framework completo de raspado profesional, con proxies rotativos, reintentos automáticos, suplantación de huella de navegador y gestión de colas, toda la maquinaria que te evita ser bloqueado. Exactamente el stack que las empresas de raspado cobran miles para operar, entregado gratis. 5. http://github.com/scrapy/scrapy El raspador original de fuerza industrial que ha impulsado en silencio a equipos de datos durante más de una década. Recorre millones de páginas, extrae cualquier cosa, expórtalo limpio. Probado en batalla a una escala que la mayoría de las herramientas de pago nunca alcanzan, y gratis todo el tiempo. 6. http://github.com/microsoft/mark… La herramienta propia de Microsoft que convierte cualquier archivo o página web, PDFs, documentos de Office, HTML, imágenes, en markdown limpio que una IA puede usar realmente. El paso de datos desordenados a datos limpios que las empresas construyen pipelines enteros alrededor, liberado como open source por Microsoft mismo. 7. http://github.com/D4Vinci/Scrapl… Un raspador sigiloso construido para permanecer invisible, adaptándose automáticamente cuando un sitio cambia su diseño y deslizándose por la detección de bots que detiene todo lo demás. La capa de gato y ratón que los proveedores anti-raspado venden como función premium, gratis y abierto. 8. http://github.com/Genymobile/scr… Espeja y controla cualquier teléfono Android desde tu computadora para extraer datos y automatizar apps que no tienen sitio web en absoluto. El puente hacia plataformas solo móviles que la mayoría de los raspadores no pueden tocar. 130K+ estrellas. Apache 2.0. 9. http://github.com/alirezamika/au… Muéstrale un ejemplo de lo que quieres y descubre el patrón y raspa el resto del sitio automáticamente. Sin selectores, sin código que mantener. El botón de "solo dame estos datos", en unas pocas líneas de Python. 10. http://github.com/lwthiker/curl-… Una versión de curl que imita perfectamente la huella de un navegador real, para que las solicitudes que se cuelan por cada defensa parezcan exactamente un humano con Chrome abierto. El truco de nivel más bajo sobre el que se construyen en silencio las APIs de raspado caras. Las empresas venden este acceso por $2,000 al mes. El código fuente está justo aquí.
