Fable 5 토큰 아끼는 방법은
Fable한테 코드를 못 짜게 하면 됩니다.
Fable 5는 지금 쓸 수 있는 모델 중에서도 비싼 모델입니다.
그런데 이 모델한테 보일러플레이트 짜고, 테스트 돌리고, 포매팅까지 시키면?
비싼 토큰이 제일 싼 일에 녹습니다.
그래서 핵심은 이겁니다.
Fable은 지휘만 한다.
손과 발은 다른 저렴한 모델들한테 시킨다
1)
구조는 간단합니다.
Fable 5를 메인 모델로 두고, reasoning effort를 최대로 올립니다.
다만 역할은 코더가 아닙니다.
Fable은 오케스트레이터입니다.
즉, 작업을 계획하고, 쪼개고, 배분하고, 마지막에 종합합니다.
코드를 직접 만지는 역할이 아니라
누가 어떤 일을 할지 정하는 역할입니다.
그 밑에 서브에이전트를 둡니다.
첫 번째는 deep-reasoner.
이 역할은 Opus 고정입니다.
맡는 일은 이런 것들입니다.
- 아키텍처 설계
- 복잡한 디버깅
- 알고리즘 판단
- 추론이 무거운 결정
쉽게 말하면,
머리 많이 써야 하는 문제 담당입니다.
2)
두 번째는 default-worker.
이 역할은 Sonnet 고정입니다.
맡는 일은 이런 것들입니다.
- 보일러플레이트 작성
- 테스트 코드 작성
- 리팩터링
- 포매팅
- 중간 단계 구현
즉, 실제 손발 역할입니다.
Fable이 “무엇을 해야 하는지” 정하면,
Sonnet이 “실제로 구현”합니다.
여기에 가벼운 작업용으로 task-worker를 둡니다.
이 역할은 Haiku가 맡습니다.
간단한 수정, 작은 파일 정리, 반복 작업처럼
굳이 비싼 모델을 쓸 필요 없는 일은 Haiku에게 넘깁니다.
핵심은 이겁니다.
비싼 모델은 판단에만 쓴다.
싼 모델은 실행에 쓴다.
5)
의외의 네 번째 멤버가 있습니다.
Codex입니다.
Claude Code에 OpenAI 공식 Codex 플러그인을 붙여도 되지만 플러그인 설치없이 갑벼게 codex exec 명령으로 불러서 사용할 수도 있습니다.
Codex를 단순 리뷰어가 아니라 deep-reasoner급 동료 모델로 사용하고자 한다면 OpenAI 공식 Codex 플러그인을 붙이면 됩니다.
구독이 부담스럽고 리뷰의 역할과 복잡한 작업일 때만 사용 할 경우 codex exec 명령으로 사용해도 충분합니다.
Codex를 붙이는 이유는 단순합니다.
같은 문제라도
다른 학습 배경을 가진 모델이 보면 다른 답이 나옵니다.
특히 중요한 판단에서는 Opus와 Codex에게 병렬로 문제를 던집니다.
서로의 답은 보여주지 않습니다.
각자 독립적으로 답을 만들게 한 뒤,
Fable이 두 답을 받아 좋은 부분만 취해 종합합니다.
한쪽 답이 다른 쪽을 오염시키는 걸 막는 구조입니다.
6)
설정 흐름은 대략 이렇습니다.
- /model에서 Fable 5 선택
- reasoning effort 최대로 설정
- 서브에이전트 생성
- deep-reasoner: Opus
- default-worker: Sonnet
- task-worker: Haiku
- Codex CLI 설치 후 플러그인 추가
- CLAUDE.md에 오케스트레이션 규칙 작성
예시는 이런 식입니다.
“Fable은 오케스트레이터다.
직접 코드 수정하지 않는다.
중요한 결정과 작업 배분만 한다.
무거운 추론은 deep-reasoner가 맡고,
일반 작업은 default-worker가 맡고,
간단한 작업은 task-worker가 맡는다.
새 관점이 필요한 문제는 Codex와 함께 검토한다.”
강한 모델이 위에서 지휘하고,
실행 토큰은 아래 모델들이 씁니다.
제일 비싼 토큰을
코드 작성이 아니라 판단에만 쓰는 것.
7)
Fable의 컨텍스트를 가볍게 유지하라는 말도 그래서 중요합니다.
지휘자의 컨텍스트가 커지면
비싼 입력 토큰이 매 턴 반복해서 나갑니다.
이 구조에서 가장 비싼 지능은
코드를 한 줄도 짜지 않습니다.
누가 짤지 정할 뿐입니다.
정리하면 이렇습니다.
Fable은 고급 두뇌입니다.
Opus는 전두엽입니다.
Codex는 다른 계열의 전두엽입니다.
Sonnet은 메인 손발입니다.
Haiku는 잡무를 덜어주는 보조 손발입니다.
Codex 플러그인:
https://github.com/openai/codex-plugin-cc
오케스트레이터 (Orchestrator)
멀티에이전트 시스템에서 전체 작업을 계획하고, 하위 에이전트들에게 세부 작업을 배분하며 결과를 종합하는 중앙 조율 역할의 AI 에이전트. 직접 실행하지 않고 "누가 무엇을 할지"를 결정한다. 출처
서브에이전트 (Sub-agent)
오케스트레이터로부터 특정 작업을 위임받아 독립적인 컨텍스트 윈도우 내에서 실행되는 하위 AI 에이전트. 각각 별도의 모델, 시스템 프롬프트, 도구를 가질 수 있으며, 처리 결과만 상위 에이전트에 반환한다. 출처
Reasoning Effort (추론 강도)
AI 모델이 응답 생성에 투입하는 연산 자원의 수준을 조절하는 파라미터. 높을수록 출력 품질은 올라가지만 속도가 느려지고 토큰 비용이 증가한다. Claude에서는
high,xhigh등의 옵션으로 설정한다. 출처보일러플레이트 (Boilerplate)
소프트웨어 개발에서 거의 변경 없이 반복적으로 사용되는 표준화된 코드 블록. 창의적 판단이 필요 없는 단순 반복 작업에 해당하므로, 이 글에서는 저렴한 모델에 위임해야 할 작업으로 분류된다.
컨텍스트 (Context Window)
AI 모델이 한 번의 추론에서 처리할 수 있는 입력 토큰의 최대 범위. 오케스트레이터의 컨텍스트가 커질수록 매 턴마다 소비되는 고가의 입력 토큰 수가 늘어나므로, 지휘자 역할 모델의 컨텍스트는 가볍게 유지하는 것이 비용 효율적이다. 출처