nbluemer shared this post ยท Mar 24
Danny Gerst

๐ฏ๐‹๐‹๐Œ, ๐’๐†๐‹๐š๐ง๐  ๐ฎ๐ง๐ ๐๐ฏ๐ข๐๐ข๐š ๐๐ˆ๐Œ: ๐ˆ๐ง๐Ÿ๐ž๐ซ๐ž๐ง๐ณ-๐„๐ง๐ ๐ข๐ง๐ž๐ฌ ๐ข๐ฆ ๐•๐ž๐ซ๐ ๐ฅ๐ž๐ข๐œ๐ก

Inferenz-Engines wie vLLM, SGLang und Nvidia NIM entscheiden maรŸgeblich รผber Durchsatz, Latenz und Stabilitรคt groรŸer Sprachmodelle unter Last.

Ein praxisnahes Benchmark vergleicht die drei Werkzeuge und untersucht realistische Workloads auf Durchsatz und Streaming-Stabilitรคt.

Mit fast 6 Seiten technischem Know-How und Analysen ist dies einer der bisher ausfรผhrlichen Artikel von mir.

Wenn du nur an den Zahlen, Daten, Fakten interessiert bist. In den Kommentaren findest du den Link zu allen Diagrammen und Zahlen.

Kommentiere gerne was du in dieser Hinsicht so rausgefunden hast.

6
Danny Gerst Author Hier der Link zu den Zahlen, Daten, Fakten: https://bizrockman.github.io/AIInferenceBenchmark/ Mar 24 1 like
Renรฉ Peinl vielen Dank fรผr den Test. Bleibt die Frage wie stark das an der Hardware hรคngt. H200 ist fรผr grรถรŸere Hoster sicher gรคngig, fรผr kleinere Mittelstรคndler wohl eher nicht.
Mixtral und Qwen 2.5 sind auch schon ein wenig angestaubt. Das nutzt heute hoffentlich keiner mehr.
Mar 24 1 like