# 요즘 LLM 하려면 모르면 안되는 이론+툴들 딥리서치에 검색해서 공부하면 좋습니다 👍 Megakernels Speculative deco...
Canonical: https://social-archive.org/yena/uS9tr4AKzN
Original URL: https://www.threads.com/@slamslam__/post/DaG4tOKk9hL
Author: 슬램슬램
Platform: threads
## Content
요즘 LLM 하려면 모르면 안되는 이론+툴들 딥리서치에 검색해서 공부하면 좋습니다 👍 - Megakernels - Speculative decoding / MTP - Prefill-decode disaggregation - NVIDIA Dynamo - Mooncake - LMCache 이걸 이해하면 아래 내용을 이해할 수 있습니다 - 왜 소형모델은 점점 batch=1 decoding으로 가는지 - 엔비디아가 왜 groq을 인수했는지 - 왜 더 이상 모델 가중치에 대한 VRAM 계산식에 맞춰서 서버를 구비하지 않는지 - 왜 네트워킹 / 커널 최적화 엔지니어 몸값이 반년만에 2배가 된건지 --- 특히 요즘 개인적으로 관심이 가는 분야는 megakernel과 spec decode인데, 진짜 여기는 미친놈들 전성시대가 맞는 것 같음 로보틱스 쪽 프로그래밍 할 때도 C++에서 ops 최적화해서 1ms라도 속도 개선하는게 진짜 내 소원이였는데 요즘 서버용 GPU/NPU는 초당 1천 토큰 넘는 것도 생기고, 그 뜻은 이제 거긴 ms도 아닌 마이크로초의 싸움으로 들어갔다는건데 최적화할게 엄청나게 많이 남았다면서 중국 미국 유럽 한국 매일같이 PR이 계속 쏟아짐 커널 최적화 잘 하는 친구들은 실리콘밸리 어딜가든 최소 4-5억은 초봉으로 받지 않을까