yena shared this post · 4h ago
슬램슬램

요즘 LLM 하려면 모르면 안되는 이론+툴들

딥리서치에 검색해서 공부하면 좋습니다 👍

  • Megakernels
  • Speculative decoding / MTP
  • Prefill-decode disaggregation
  • NVIDIA Dynamo
  • Mooncake
  • LMCache

이걸 이해하면 아래 내용을 이해할 수 있습니다

  • 왜 소형모델은 점점 batch=1 decoding으로 가는지
  • 엔비디아가 왜 groq을 인수했는지
  • 왜 더 이상 모델 가중치에 대한 VRAM 계산식에 맞춰서 서버를 구비하지 않는지
  • 왜 네트워킹 / 커널 최적화 엔지니어 몸값이 반년만에 2배가 된건지

특히 요즘 개인적으로 관심이 가는 분야는 megakernel과 spec decode인데,

진짜 여기는 미친놈들 전성시대가 맞는 것 같음

로보틱스 쪽 프로그래밍 할 때도 C++에서 ops 최적화해서 1ms라도 속도 개선하는게 진짜 내 소원이였는데

요즘 서버용 GPU/NPU는 초당 1천 토큰 넘는 것도 생기고, 그 뜻은 이제 거긴 ms도 아닌 마이크로초의 싸움으로 들어갔다는건데

최적화할게 엄청나게 많이 남았다면서 중국 미국 유럽 한국 매일같이 PR이 계속 쏟아짐

커널 최적화 잘 하는 친구들은 실리콘밸리 어딜가든 최소 4-5억은 초봉으로 받지 않을까

195
미치광이 개발자 어... 이거 다 몰랐는데
로컬 구축하다가 막혀서 가설 세운걸 여기서 다 설명해주시니 감사합니다!
머리 박고 가겠습니다🫠
5h ago
tikiland flashattention 이랑 vLLM부터 지긋지긋하기시작했는데 끄엑입니다 23h ago 1 like