요즘 LLM 하려면 모르면 안되는 이론+툴들
딥리서치에 검색해서 공부하면 좋습니다 👍
- Megakernels
- Speculative decoding / MTP
- Prefill-decode disaggregation
- NVIDIA Dynamo
- Mooncake
- LMCache
이걸 이해하면 아래 내용을 이해할 수 있습니다
- 왜 소형모델은 점점 batch=1 decoding으로 가는지
- 엔비디아가 왜 groq을 인수했는지
- 왜 더 이상 모델 가중치에 대한 VRAM 계산식에 맞춰서 서버를 구비하지 않는지
- 왜 네트워킹 / 커널 최적화 엔지니어 몸값이 반년만에 2배가 된건지
특히 요즘 개인적으로 관심이 가는 분야는 megakernel과 spec decode인데,
진짜 여기는 미친놈들 전성시대가 맞는 것 같음
로보틱스 쪽 프로그래밍 할 때도 C++에서 ops 최적화해서 1ms라도 속도 개선하는게 진짜 내 소원이였는데
요즘 서버용 GPU/NPU는 초당 1천 토큰 넘는 것도 생기고, 그 뜻은 이제 거긴 ms도 아닌 마이크로초의 싸움으로 들어갔다는건데
최적화할게 엄청나게 많이 남았다면서 중국 미국 유럽 한국 매일같이 PR이 계속 쏟아짐
커널 최적화 잘 하는 친구들은 실리콘밸리 어딜가든 최소 4-5억은 초봉으로 받지 않을까
로컬 구축하다가 막혀서 가설 세운걸 여기서 다 설명해주시니 감사합니다!
머리 박고 가겠습니다🫠 5h ago