AI가 비디오를 프레임 단위로 보게 하려면 4,500만 토큰을 태워야 하지만, "읽게" 하면 12KB만 필요하다—누군가 후자를 영상 편집이 가능한 오픈소스 ...

1

AI가 비디오를 프레임 단위로 보게 하려면 4,500만 토큰을 태워야 하지만, "읽게" 하면 12KB만 필요하다—누군가 후자를 영상 편집이 가능한 오픈소스 도구 video-use로 만들었고, 3개월 만에 12,835개의 별을 모았다.

그게 하는 일은 한 문장으로 설명할 수 있다: 원본 소스를 폴더에 던져 넣고, Claude Code와 두세 마디 주고받으면 잘린 final.mp4를 받아 본다. 대체되는 건 편집자의 미적 감각이 아니라, 편집자가 "프레임 단위로 타임라인 드래그, umm/uh/헛소리 수동 컷, 자막 맞추기" 이런 기계적 작업들—채움말, 샷 간 데드존 자동 제거, 각 컷 포인트마다 30ms 오디오 페이드인/아웃으로 폭음 방지, 자막은 기본 2단어 대문자 블록 분할.

왜 토큰을 폭발시키지 않을까?

핵심 설계는 "LLM은 결코 비디오를 보지 않고, 비디오를 읽는다"다. 한 번의 ElevenLabs Scribe 호출로 단어 수준 타임스탬프 + 화자 분리 + 오디오 이벤트(웃음소리/박수/한숨)를 얻고, 모든 소스를 약 12KB 크기의 takes_packed.md로 패킹해 메인 뷰로 삼는다; 컷 포인트에 모호함이 있을 때만 필요에 따라 timeline_view를 생성—필름 + 파형 + 단어 라벨의 PNG다. 작가가 직접 계산한 대로: 조잡한 방식은 30,000프레임 × 1,500토큰 = 4,500만 토큰의 노이즈지만, video-use는 12KB 텍스트 + 몇 장의 PNG다. 이건 browser-use가当年 LLM에게 스크린샷 대신 구조화된 DOM을 먹인 것과 같은 방법론으로, 웹페이지에서 비디오로 옮긴 버전일 뿐이다.

파이프라인을 뒤집어 보니, 가장 독한 건 자가 평가 단계다.

루프 엔지니어링에서의 하이라이트: 전체 파이프라인은 Transcribe→Pack→LLM 추론→EDL→Render→Self-Eval의 폐쇄 루프로, 자가 평가 단계에서는 렌더링된 결과물의 각 컷 포인트에서 timeline_view를 다시 실행해 시각적 점프, 오디오 폭음, 자막 가림을 검사하고, 문제가 있으면 자동 수정 + 재렌더링(최대 3회), 통과해야만 프리뷰를 보여준다. 게다가 애니메이션 오버레이 레이어는 병렬 sub-agent로 생성(하나의 애니메이션당 하나의 에이전트), context/loop/harness 세 층의 엔지니어링 모두에서 실증을 찾을 수 있다.

상업화 경로는 README에 이미 쓰여 있다—browser-use의 고객 유입 퍼널이다: 오픈소스로 무료 로컬 실행이지만, "항상 켜진 편집" "Telegram/VPS 상주"는 Browser Use Cloud와 Browser Use Box의 유료 클라우드 서비스로 간다. 이는 전형적인 오픈소스 유입 + 클라우드 호스팅 수익화로, 파는 건 편집 기능이 아니라 "환경 유지 싫고, 언제 어디서나 호출하고 싶은" 편의성이다. 이 모델을 베끼려는 사람 주의: 핵심 능력은 오픈소스로 평판 쌓고, "호스팅 + 상주 + 규모화"를 유료 장벽으로 만든다.

자체 배포 포인트: GPU 필요 없지만 ffmpeg와 ElevenLabs API 키(전사용)에 의존, uv sync로 의존성 설치, agent의 skills 디렉토리에 symlink만 하면 사용 가능, README에 setup 프롬프트 한 덩이가 있어서 Claude Code에 직접 붙여넣으면 스스로 설치한다.

읽을 줄 아는 AI가 보는 AI보다 3,000배 싸다—video-use는 이 말을 영상 편집 제품으로 만들었다.

#VideoUse #BrowserUse #TokenEfficiency #AIAgent #开源项目

2

github:

https://t.co/ggP73424dW