# 조용히 새로운 인프라가 되고 있습니다. OpenRouter 사용량 2위, 1.68조 토큰. Claude Sonnet 4.6과 Opus 4....
Canonical: https://social-archive.org/yena/XaduooyC0I
Original URL: https://www.threads.com/@unclejobs.ai/post/DYMYCmJCeuw
Author: 엉클잡스 | Ai 시대, 돈이 되는 정보 전달
Platform: threads
## Content
조용히 새로운 인프라가 되고 있습니다. OpenRouter 사용량 2위, 1.68조 토큰. Claude Sonnet 4.6과 Opus 4.7이 그 뒤에 줄을 섰습니다. 한 달도 안 돼 일어난 일이에요. 4월 20일 출시된 중국발 오픈 웨이트 모델이 글로벌 플래그십 두 개를 사용량으로 넘었습니다. Kimi K2.6의 성장세가 매섭습니다. Opus를 위협한다는 소리도 들리죠. 성능 차이가 아닙니다. 가성비죠. 자세히 다뤄보았습니다. ![Image 1](https://social-archiver-api.social-archive.org/media/archives/yena/y9nMhJHEU3/media/0.jpg) --- 무슨 일이 벌어졌나 Moonshot AI가 만들었어요. 1조 파라미터 MoE 구조에 활성 파라미터는 32B, 256K 컨텍스트, INT4 네이티브 양자화. 가격이 싼 진짜 이유가 여기예요. 벤치마크 정상은 여전히 Opus 4.7입니다. SWE-Bench Pro 64.3 대 58.6, Verified 87.6 대 80.2, Kilo Code 실전 워크플로우 91/100 대 68/100. 마지막 23점 차이의 대부분은 리스 처리나 SSE 스트리밍 같은 멀티 에이전트 컨텐션 영역에 몰려 있다고 합니다. 벤치마크엔 잘 안 잡히는 종류의 차이죠. 그런데도 사용자들은 옮겨갔어요. 8배 싸고, 충분히 좋고, 오픈 웨이트라 자체 호스팅까지 됩니다. 클로즈드 단독 체제에 처음 균열이 보이는 순간이에요. --- 청구서 한 장 벤치마크 숫자보다 직관적인 건 결국 청구서입니다. 활성 코딩 에이전트 한 대가 하루 100만 아웃풋 토큰을 쓴다고 잡으면. 에이전트 한 대당 월 약 99만원 차이가 납니다. 다섯 대 굴리면 약 495만원이고요. 자체 호스팅으로 가면 이마저 0이 됩니다. (환율 1,460원 기준. OpenRouter 경유 시 $0.75 / $3.50로 살짝 비싸지지만, 격차 규모는 비슷합니다.) ![Image 2](https://social-archiver-api.social-archive.org/media/archives/yena/y9nMhJHEU3/media/1.jpg) ![Image 3](https://social-archiver-api.social-archive.org/media/archives/yena/y9nMhJHEU3/media/2.jpg) ![Image 4](https://social-archiver-api.social-archive.org/media/archives/yena/y9nMhJHEU3/media/3.jpg) --- 어디서 이기고 어디서 지나 "K2.6 vs Opus" 같은 일차원 비교를 벗어나야 그림이 제대로 보여요. K2.6이 앞서거나 동률인 영역. 1. SWE-Bench Pro 58.6. GPT-5.4(57.7), Opus 4.6(53.4)을 넘어선 점수입니다 2. DeepSearchQA 92.5. 비교군 1위 3. Toolathlon 50.0. 에이전트 도구 사용 벤치마크에서 Opus 4.6과 Gemini 3.1 Pro를 앞섭니다 4. 12~13시간 연속 자율 실행, 서브에이전트 300개 병렬 조율 ![Image 5](https://social-archiver-api.social-archive.org/media/archives/yena/y9nMhJHEU3/media/4.jpg) --- Opus 4.7이 여전히 앞서는 영역. 1. SWE-Bench Pro 64.3, Verified 87.6 2. 멀티 에이전트 컨텐션이 얽힌 실전 워크플로우 3. 순수 추론(AIME, GPQA Diamond, BrowseComp) Gemini 3.1 Pro가 앞서는 영역. 1. 멀티모달. K2.6은 115개 모델 중 26위입니다. 명백한 약점이에요 정리하면 K2.6은 만능이 아니라 스페셜리스트입니다. 코딩과 에이전트 작업에 특화됐고, 그 외엔 평범하거나 약해요. 다만 그 특화 영역이 마침 상업적으로 가장 가치 있는 곳이라는 게 핵심이죠. 그래서 실무에서 굳어지는 패턴이 라우팅입니다. 일상 작업은 K2.6, 멀티 에이전트나 깊은 추론이 필요한 엣지 케이스는 Opus 4.7. API 키 한 번 갈아끼우는 일이고요. --- 진짜 차이는 지구력 벤치마크 숫자보다 사용자들을 움직이게 만든 진짜 변수는 따로 있어요. 장시간 자율 실행 능력입니다. 저렴한 모델들이 거의 다 무너지는 지점입니다. 단일 파일 편집은 멀쩡한데, 수십 개 파일에 걸쳐 컨텍스트를 유지하거나, 실행 중간에 아키텍처 결정을 내려야 하거나, 사람 개입 없이 몇 시간 돌아야 하는 작업에서 와르르 무너집니다. K2.6은 이 지점을 정면으로 노리고 학습됐어요. Moonshot이 공개한 두 사례가 그 차이를 보여줍니다. Mac에서 Zig로 추론 엔진을 짠 사례. Qwen3.5-0.8B를 로컬에 배포하고, Zig(대부분 모델이 학습 데이터를 거의 갖지 않은 마이너 시스템 언어)로 추론을 직접 구현했어요. 12시간 연속 실행, 툴 콜 4,000회 이상, 최적화 반복 14회. 시작 처리량 15 tokens/sec이 끝날 땐 193 tokens/sec까지 올라갔습니다. LM Studio보다 20% 빠른 결과를 사람 개입 없이 만들어냈죠. ![Image 6](https://social-archiver-api.social-archive.org/media/archives/yena/y9nMhJHEU3/media/5.jpg) --- 8년 된 금융 매칭 엔진을 최적화한 사례. exchange-core를 13시간 돌리며 12가지 전략을 시도, 툴 콜 1,000회 이상, 4,000줄 이상 수정했어요. CPU와 메모리 플레임 그래프를 직접 분석하고, 스레드 토폴로지의 숨은 병목을 찾아내고, 코어 실행 루프를 재구성한 결과였습니다. Peak 처리량 +133%, Medium 처리량 +185%. 이미 한계 근처에서 돌고 있던 엔진에서 인간 메인테이너들이 수년간 놓친 여유를 찾아냈답니다. 자동완성이 아니라 엔지니어링이라는 표현이, 수치만 놓고 보면 부정하기가 좀 어렵죠. ![Image 7](https://social-archiver-api.social-archive.org/media/archives/yena/y9nMhJHEU3/media/6.jpg) --- 잘 쓰는 사람들의 다섯 가지 패턴 K2.6에 숨겨진 명령어 같은 건 없어요. /godmode도 /unlock도 없습니다. 진짜 파워는 컴포저빌리티예요. 다섯 가지 도구를 묶어서 장시간 작업에 던지면, 그제야 12시간 자율 세션이 가능해집니다. 1. '@' 컨텍스트를 자동으로 조립 @src/auth/middleware.ts @src/utils/token.ts 토큰 리프레시 흐름 설명하고, 빠른 재시도 시 메모리 누수 지점 찾아줘. 인덱싱된 코드베이스에서 실제 파일을 읽고 임포트를 추적해요. 50개 파일 리팩토링이면 30~40분짜리 수동 컨텍스트 조립이 사라집니다. 환각 임포트도 같이 사라지고요. ![Image 8](https://social-archiver-api.social-archive.org/media/archives/yena/y9nMhJHEU3/media/7.jpg) --- 2. `/explain`. 레거시를 며칠이 아니라 몇 분 만에 5년 된 모놀리스에 떨어졌다면, 읽지 말고 심문하세요. /explain @src/matching-engine/order-book.ts 스레드 안전 모델, 메모리 할당 패턴, 핫 패스 시작점에 집중해서. 시니어가 보통 2~3일 쓰는 레거시 매핑을 10분으로 압축한다는 게 골자예요. 부족 지식(tribal knowledge)을 부족을 찾지 않고 얻는 방법이라는 표현이 좋았습니다. --- 3. `.kimi/rules`. 프로젝트 DNA에 새기기 매 세션마다 *"strict mode 써, /legacy 건드리지 마"* 라고 타이핑하는 게 지겹다면, 영구 지시문으로 박아두면 그만이죠. # .kimi/rules - TypeScript strict mode, implicit any 금지 - HTTP는 @utils/api-client의 retry-wrapper, raw fetch 금지 - /legacy/ 디렉토리는 명시적 오버라이드 없이는 read-only - 함수형 React 컴포넌트 선호 세션이 시작될 때 알아서 로드됩니다. 버전 관리에 넣어두면 살아 있는 문서가 자기 자신을 강제하는 효과까지 생기고요. --- 4. 체크포인트 프롬프팅. 6시간 세션의 보험 지구력만 있고 빵 부스러기가 없으면, 그건 그냥 추락 대기 상태예요. 매 반복마다 출력: - [ITERATION N] 변경 사항 - [PERFORMANCE] 현재 vs 기준선 - [BLOCKERS] 다음 단계를 막는 것 - [STATE] 수정 파일, 테스트 상태 5시간 차에 터미널이 죽으면, 잃는 건 출력이 아니라 머릿속 모델 전체입니다. 체크포인트가 있으면 어느 지점에서든 `--resume` 가능. 30분 이상이거나 툴 콜 10회 이상 예상되는 세션엔 사실상 필수예요. --- 5. `/test`. 엣지 케이스까지 /test @src/matching-engine/order-matcher.ts 주문 취소와 매칭 사이 레이스 컨디션, quantity * price 오버플로우에 집중. 빠뜨린 엣지 케이스를 찾고, 의존성을 모킹하고, 스캐폴딩까지 만들어줍니다. 개발 시간의 30~50%를 테스트에 쓴다는 통념을 감안하면, 2분에 80% 커버리지는 적지 않은 절약이에요. --- 다섯 가지보다 먼저 와야 하는 것 도구보다 먼저 와야 하는 원칙이 하나 있어요. 한 방에 v1을 출시하지 않는다는 것. 15 tokens/sec이 193 tokens/sec이 된 길도 한 방이 아니라 14번의 루프였습니다. 핵심 규칙은 두 개. 임계값을 구체적으로. "더 잘 만들어줘" 라고 절대 말하지 말 것. "테스트 통과, 커버리지 유지, 응답 200ms 미만" 처럼 숫자로 묶어둬요. 통과한 뒤에 한 라운드 더. 이제 이 솔루션을 비판해. 시니어 엔지니어가 지적할 만한 약점 3가지를 찾아. 고쳐. 이 적대적 압박 한 줄이, 의외로 가장 큰 격차를 만들곤 합니다. --- 어떤 에이전트든 알아야 할 실패 다섯 가지 K2.6 한정이 아닙니다. Claude Code든 Cursor든, 어떤 에이전트를 쓰든 똑같습니다. 1. 드리프트. 다른 문제를 풀기 시작합니다. 매 프롬프트를 `Scope: [모듈]. 이 범위 밖은 건드리지 마.`로 시작 2. 컨텍스트 붕괴. 2시간 지나면 원래 제약을 잊어요. 루트에 `CONSTRAINTS.md`를 두면 자동 로드되고, 6시간 이상은 `-resume`으로 분할 3. 사일런트 회귀. 테스트는 통과하는데 다른 게 깨집니다. "영향받은 테스트만이 아니라 전체 스위트를 돌릴 것" 한 줄 추가 4. 오버 엔지니어링. 3줄 수정 부탁했더니 모듈 전체를 다시 씁니다. "필요한 최소한의 변경만" 명시 5. 사일런트 툴 콜 실패. 명령이 조용히 실패한 뒤 다음으로 그냥 넘어가요. "모든 셸 명령 후 출력을 검증하고, 실패하면 멈추고 보고할 것" 추가 다섯 개 다 결국 스코프와 검증이라는 두 단어로 수렴해요. --- 그래서 무엇이 바뀐 걸까 K2.6이 만든 변화는 새 챔피언의 등극이 아닙니다. 정상은 여전히 Opus 4.7이고, SWE-Bench Pro 5.7점 차이가 그 자리를 지키고 있어요. 진짜 변화는 다른 곳에 있어요. 8배 싼 오픈 웨이트 모델이, 클로즈드 챔피언과 비교 가능한 영역까지 따라붙은 게 처음이라는 점이죠. 1년 전엔 "오픈소스로 가는 건 성능을 포기하는 일" 이었는데, 그 등식이 깨졌습니다. OpenRouter 2위라는 사실은 그 균열의 가장 정직한 신호예요. 사용자들은 벤치마크 점수가 아니라 청구서를 보고 움직였거든요. 그리고 청구서 앞에선 "5.7점 더 받자고 8배를 더 낼 것인가"라는 질문이 의외로 빠르게 답을 가집니다. ![Image 9](https://social-archiver-api.social-archive.org/media/archives/yena/y9nMhJHEU3/media/8.jpg) --- 물론 모든 작업이 그렇진 않습니다. 멀티 에이전트가 얽힌 정밀한 워크플로우, 깊은 추론이 필요한 케이스, 멀티모달. 이쪽은 여전히 Opus나 Gemini의 몫이고요. 그래서 굳어지는 패턴이 라우팅입니다. 일상 작업은 K2.6, 엣지 케이스는 Opus. 다들 클로즈드 모델에 비용을 치르는 동안, Kimi는 조용히 자기 자리를 만들어가고 있었어요. 잠깐의 가격 경쟁으로 끝날지, 진짜 인프라 전환의 시작일지는 몇 달 안에 더 분명해질 거예요. 다만 한 가지는 분명해졌습니다. 클로즈드만이 답이라는 가정이, 더 이상 자명하지 않습니다. --- Moonshot 공식 K2.6 기술 블로그 (가격, 사례, 벤치마크 1차 소스) https://www.kimi.com/blog/kimi-k2-6 Hugging Face K2.6 모델 카드 (벤치마크 표 원본, 평가 방법론) https://huggingface.co/moonshotai/Kimi-K2.6 Kilo Code 블로그 (91/100 vs 68/100 실전 워크플로우 비교 원본) https://blog.kilo.ai/p/kimi-k26-has-arrived-an-open-weight OpenRouter LLM Rankings (1.68조 토큰, 2위 사용량 실시간 데이터) https://openrouter.ai/rankings
