yena shared this post · 3h ago
silvan

ACABAN DE LIBERAR UN OCR QUE LEE 40+ PÁGINAS DE UN SOLO TIRÓN, SIN PERDER MEMORIA NI VELOCIDAD

se llama Unlimited OCR Works y resuelve el problema que tenían todos los modelos de transcripción: cuanto más largo el documento, más memoria consume y más lento se pone - este lo lee todo en una sola pasada hacia adelante

la clave es algo que llaman Reference Sliding Window Attention - mantiene una caché de key-value constante durante toda la decodificación, así que no importa si son 5 páginas o 50, el consumo de memoria no se dispara

usa un modelo de 3B parámetros pero solo activa 500M durante la inferencia - lee como uno grande y gasta cómputo como uno chico

viene con conversión de PDF integrada, batching para procesar carpetas enteras desde el inicio, y un servidor compatible con la API de OpenAI - se enchufa directo a cualquier flujo que ya tengas armado

es código abierto, está en GitHub y Hugging Face - la diferencia entre esto y los OCR que veníamos usando no es de grado, es de categoría completa

420