앤트로픽에서 미토스 나와도 이제 codex는 못이길듯
사람들이 Codex vs Claude 뭐가 코드 더 잘 짜주냐만 비교하는데
이건 하나만 알고 둘은 모르는거야
코덱스는 이미 질수 없는 길을 나아가기 시작했어
앱서버 런타임을 보면 답이 보여
코딩 에이전트의 승패는 모델이 아니라 런타임이 가르거든
1/
지금 코딩 에이전트 시장 상황을 보면
Claude:
- SDK 사용을 별도 크레딧으로 분리 (6월 15일부터)
- 하네스/래퍼 개발자들의 자동화 사용을 과금 대상으로 분류
- 사용자가 클로드 코드로 만든 워크플로우를 "프로그래매틱 사용"으로 규정
xAI Grok:
- SuperGrok 유저 음성/이미지 GPU 할당 줄임
- 22만 GPU를 경쟁사 Anthropic에 임대
- "더 쓰려면 Heavy 사세요" 업셀
둘 다 사용을 제한하는 데 집중하고 있어
근데 같은 시기에 OpenAI Codex는 뭘 하고 있었냐면
2/
Codex는 런타임을 Rust로 갈아엎고 있었어
2025년 4월 오픈소스 시작 때는 TypeScript + Node.js였거든
지금? 코드베이스의 95.7%가 Rust야
왜 바꿨냐면:
- Node.js 런타임 의존성 제거 → 스탠드얼론 바이너리, 밀리초 단위 시작
- GC 없음 → 대규모 에이전트 세션에서 메모리가 무한정 안 늘어남
- GC 일시정지 → 스트리밍 출력 중간에 끊기지 않음
- 네이티브 샌드박싱 API 접근 → FFI 오버헤드 없음
640개 이상 릴리스 (하루에 하나꼴)
5,075+ 커밋, 400+ 기여자, 9,000+ 포크
이건 단순 리팩토링이 아니야
"코딩 에이전트 = 서비스 인프라"로의 패러다임 전환이야
출처: github.com/openai/codex/discussions/1174
2/
핵심은 App Server 아키텍처야
기존 코딩 에이전트는 전부 이런 구조였어:
사용자 → 터미널 → 에이전트 → API
Codex App Server는 이걸 뒤집었어:
워커가 컨테이너에 워크스페이스를 프로비저닝하고
App Server 바이너리를 컨테이너 안에서 띄우고
JSON-RPC over stdio (JSONL)로 장기 연결 유지
이게 뭘 의미하냐면:
에이전트가 더 이상 "터미널 도구"가 아니라
"헤드리스 서비스"로 돌아가는 거야
3/
그래서 뭐가 가능해지냐면:
- 모바일에서 원격 제어 (어제 발표된 것)
- 외부 하네스가 Codex 위에서 네이티브로 구동
- 다중 세션 병렬 실행
- 컨테이너 격리로 보안 샌드박싱
이게 그냥 하나의 앱서버 안에서 돌아가는거야
4/
여기서 진짜 중요한 게 나와
서드파티 에이전트 하네스들이
Codex 앱서버 위에서 네이티브로 돌아가기 시작했어
- OpenClaw
- Codex 앱서버 하네스로 기본 구동 (2026.5.12 기준)
- OpenAI 에이전트 턴을 Codex 네이티브 코드 모드로 실행
- 도구 검색, 스레드 상태, 컴팩션 전부 Codex가 처리
- OpenClaw는 자체 도구 래퍼 대신 Codex의 실행 표면 사용
- Codex app-server 0.125.0 이상 필요
- 에르메스 에이전트
- Codex 앱서버 런타임 옵트인 지원 (v0.13.0, 2026.5.7)
- 활성화하면 터미널, 파일 편집, 샌드박싱, MCP 전부 Codex 런타임에서 실행
- Hermes는 세션 DB, 슬래시 커맨드, 게이트웨이, 메모리만 담당
즉 Codex는 자기만의 도구가 아니라
다른 에이전트들이 올라타는 "런타임 플랫폼"이 되고 있어
5/
이걸 경쟁 구도로 놓고 보면
Claude Code:
- 모델은 강력 (특히 대규모 코드베이스 이해)
- 근데 런타임이 닫혀있어
- 서드파티 하네스가 Claude 위에서 네이티브로 돌 수 있는 구조가 아님
- SDK 사용을 별도 과금으로 분리 → 하네스 생태계 성장에 브레이크
Grok Build:
- CLI 출시는 했는데 $300/월
- 런타임 공개 안 됨
- GPU를 경쟁사한테 팔고 자신 사용자 할당량 칼질
Codex:
- 런타임 Rust로 전환 완료
- App Server로 헤드리스 서비스화
- 오픈소스 → 생태계가 위에 올라탐 (OpenClaw, Hermes)
- 모바일 원격 제어 라이브
- ChatGPT 10억+ 사용자 기반
코드 품질? 모델 벤치마크?
그건 매 릴리스마다 바뀌어
안 바뀌는 건
어떤 런타임 위에 생태계가 쌓이느냐야
iOS가 이긴 건 앱이 좋아서가 아니라
앱스토어 생태계가 쌓였기 때문이야
6/
사람들이 "누가 코드 더 잘 짜주냐"에 집중하는 동안
Codex는 런타임 플랫폼을 깔고 있었어
모델은 교체 가능해
런타임 위의 생태계는 교체 불가능해
애플이 그걸 증명했지