Public shared posts

nbluemer shared this post · Apr 6
Jens Clausen

Die Hannoversche Allgemeine Zeitung / HAZ berichtete am 31.3.2026: „Mehr als eine Milliarde Euro für nichts: Warum in Niedersachsen Tausende Gigawattstunden #Strom verloren gehen.“ Im Jahr 2025 wurden bei #Windrädern an Land 804 GWh Strom abgeregelt und damit zwar bezahlt, aber nicht genutzt. Die HAZ berichtet weiter: „Und das kostet: Seit 2019 haben Anlagenbetreiber rund 1,7 Milliarden Euro kassiert – dafür, dass sie in #Niedersachsen keinen Strom produzieren.“ Hier werden so nebenbei mal sieben Jahre addiert. Pro Jahr macht das dann also durchschnittlich nur 240 Mil. Euro. Viel Geld.

452
Martin Bonner Jens Clausen, Claudia Kemfert
Der spannendere Punkt ist für mich nicht nur, dass Windstrom selbst mit Abregelung günstig bleibt.

Der spannendere Punkt ist, was das über Europa sagt.
Wir scheitern zu oft nicht an Technologie.
Wir scheitern an der Verbindung dazwischen.

Erzeugung.
Netze.
Speicher.
Steuerung.
Industrielle Nutzung.

Genau dort entscheidet sich, ob aus Energie echte Handlungsfähigkeit wird.
Oder nur ein teures Stück Potenzial auf halber Strecke liegen bleibt.

Martin Bonner • Glow for Europe – Movement
Apr 6 2 likes
Manfred Ungemach Wer heute noch Stromgestehungskosten für unstrukturierte volatile Stromlieferungen "nach Können und Vermögen" mit den Stromgestehungskosten regelbarer Kraftwerke gleichsetzt, ohne den Aufwand für Strukturierung und Sicherung der Stromversorgung zu berücksichtigen, hat jeden Kontakt mit der Realität verloren. Apr 6 4 likes
nbluemer shared this post · Apr 6
Tobias Häberlein

Niklas Luhmann hätte Karpathys letzten Post sofort verstanden.

Andrej Karpathy beschreibt gerade, wie er aufgehört hat, hauptsächlich Code zu schreiben – und stattdessen Wissen strukturiert. Er sammelt Rohdaten (Artikel, Papers, Repos), lässt ein LLM daraus ein Wiki in Markdown kompilieren, stellt Fragen dagegen und speichert die Antworten zurück ins Wiki. Obsidian als Frontend, das LLM als Lektor, Indexer und Analytiker in einem. Lex Fridman schreibt im Thread, er nutze dasselbe Prinzip für seine Podcast-Recherche.

Luhmanns Zettelkasten…

142
Dr. Anna Penninger Eine wunderbare Verknüpfung, weil sie zeigt dass Logic beim Mensch entsteht. Die Gedankensammlung kann man digitalisieren, Struktur und Extrapolation bleiben für spezifischen Kontext bei uns. Das würde ich nicht auf die Informatik beschränken: auch die Geisteswissenschaften trainieren
die Reflexion, das Transfer-Denken,
das Systemische und die Kreativität.
Apr 5 3 likes
Irene Markelic Wo hat Karpathy das denn gepostet? Auf seinem Blog finde ich das nicht. Apr 5 1 like
nbluemer shared this post · Apr 6
L

I spent the past week building a personal knowledge base that the LLM manages for you — and I wanted to share what I learned.

The insight came from Andrej Karpathy's post: most people use LLMs as smart search engines. But you can use them as librarians who own the library.

Here's how it works:
Feed it raw content: URLs, PDFs, images, notes

  • /kb-compile turns everything into a structured Obsidian wiki with tagged concept articles and backlinks
  • /kb-reflect runs automatically after every compile, reads the index, and writes synthesis articles connecting ideas across sources you never…
95
Nate Patel Louis, most people are still searching for their knowledge.
Owning and structuring it is on a completely different level
Apr 6 1 like
Ilya Belikin This looks great, thank you for sharing Apr 5 1 like
nbluemer shared this post · Apr 6
R

Erste emerging capabilities in Robotern?

Wenn das stimmt, was im Video behauptet wird und die Bilder autonomes Verhalten in Echtzeit zeigen, dann ist das neu Modell Gen-1 eine echte Revolution in der Robotik.

Ein Startup aus den USA zeigt, dass physische KI den gleichen Skalierungsregeln folgt wie LLMs. Nach guten Versuchen mit kleineren Modellen und weniger Daten haben sie das "Weltmodell" auf geschäfzt 1B Parameter skaliert und mit 500.000h qualitativ hochwertigen Videos trainiert.

Die Mitarbeiter kommen von Google DeepMind, OpenAI, Boston Dynamics und anderen namhaften Firmen.

Morteza Djebeli Sinaki Echt beeindruckend. Bin total begeistert. Mein Kindheitstraum wird bald wah 🤩.

Erinnert mich an Gemini Robotics ER 1.5 von Deepmind Lab. https://youtu.be/UALxgn1MnZo?si=KtjgQT_V_3xuQNae

Gibt es für Robotik auch gute Open-Weight- oder Open-Source-Modelle?
Apr 6 2 likes
nbluemer shared this post · Apr 5
N

Andrej Karpathy just shared a better way to use LLMs (and it got super viral). let me summarize that for you, with a simplified algorithm of what to do:

He suggests to use llms as a knowledge system.

The workflow is simple:

  • Collect raw sources
    Put articles, papers, repos, datasets, and images into a raw/ folder.

  • Ask the LLM to read each source
    Extract the key facts, entities, concepts, and contradictions in short notes.

  • Write or update wiki pages
    Turn those notes into markdown pages for the source, related entities, and related concepts.

71
Eviatar Levy Treating an LLM as a “knowledge system” really means git is the system and the model is a lossy parser. Without traceable links from each claim back to raw sources, the wiki quietly normalizes contradictions and drifts. Apr 5 1 like
Satish Venkatakrishnan Good breakdown. The index.md step is the one that does the heavy lifting — at ~200 tokens for 50 sources, the LLM reads the whole index and selects files by judgment, not similarity search. We've tested this up to 10,000 documents in production without needing embeddings.

Built the working version: github.com/satish860/llm-kb
Apr 5 5 likes
nbluemer shared this post · Mar 27
Nikolai Ladanyi

Je verletzlicher wir uns als Chefs zeigen, desto eher bekommen wir Höchstleistung von unserem Team.

Ein Satz, der viele Führungskräfte nervös macht.

Weil er gegen alles geht, was uns als Unternehmer beigebracht wurde.

Höchstleistung – so denken viele – entsteht durch Commitment und Accountability. Also durch Einsatz und Rechenschaftspflicht.

Und wenn wir davon zu wenig sehen?

Dann drehen wir an den klassischen Stellschrauben: Mehr Boni. Mehr KPIs. Mehr Druck.

Kurzfristig mag das wirken.

Langfristig führt es zu Frust, Mikromanagement und einem Team, das Dienst nach Vorschrift macht.

14
Franz Glatz sehr wichtiges Thema: Ich habe Brené Brown live erlebt, wie sie über "vulnerability" gesprochen hat. Sie hat mir die Augen geöffnet. Stimme dir, lieber Nikolai voll zu! 👍 Mar 27
Horst Hochstoeger Könnte auch unter dem Aspekt Narzissmus vs. gesundes Selbstbewusstsein gesehen werden, oder? Mar 27
nbluemer shared this post · Mar 27
Andriy Burkov

Google just published TurboQuant https://lnkd.in/ecbpBSpB, a model compression technique that can quantize the transformer's key-value cache to just 3 bits without requiring training or finetuning and causing any compromise in model accuracy, all while achieving a faster runtime than the original LLMs.

As you might already know, LLMs store intermediate computations in something called a key-value cache — essentially a running memory of what the model has processed so far — and this cache grows linearly with the length of the input, eating up GPU memory fast.

256
Evan Powell Reason #432 to bet on transformers Mar 26
Uzair Javaid, Ph.D. Milad Abdollahzadeh Jiayu Li Zilong ZHAO Mar 26
nbluemer shared this post · Mar 26
Joshua Vial

Anthropic just shipped a feature in Claude Code that uses one AI model to supervise another. The key design choice is what the supervisor can't see.

Claude Code's new "auto mode" runs a background classifier on every action the agent tries to take. File writes, shell commands, web requests. The classifier decides whether to allow or block each one.

But the classifier only sees user messages and the raw action. It deliberately cannot see the agent's reasoning or explanations. The agent literally cannot talk its way past the safety check.

29
Jared P. This is a really important design direction. Separating the supervisor from the agent’s reasoning is a strong step toward reducing persuasion and prompt leakage.

The interesting part is the failure mode you mentioned. The system isn’t just misclassifying actions, it’s struggling to interpret whether permission actually exists. “Clean up the PR” becoming destructive behavior is exactly where natural language starts to break down as a control surface.

It raises a deeper question: if permission itself is ambiguous, can a probabilistic classifier ever reliably enforce it?

Feels like this is pointing toward a need for more explicit, enforceable boundaries at the execution layer rather than relying on interpretation.
Mar 26
Carlos Chinchilla New day, new feature. Mar 26
nbluemer shared this post · Mar 26
Mitko Vasilev

I think I just broke local AI inferencing

Qwen3.5-35B-A3B AWQ 
1,010,000 tokens context (yeah ONE Million)
4,350,080 tokens KV cache (FOUR POINT THREE Million, not a typo) 
TurboQuant 3.5
All running on a USB-charger-sized GB10 GPU.

Now the fun part, vLLM access log numbers from a cold start run:
~350 tokens/sec generation throughput peak
~260 tokens/sec sustained under load
64 concurrent requests handled
0.4% to 6.6% KV cache utilization → meaning this thing is barely warming up
Prefix cache hit rate: 0% (no tricks, raw performance)…

239
Shawn Kahalewai Reilly Did you move on from the Halo Strix? Mar 26
Marcel C. Any suggestions on making this on m5 pro with turboquant enabled? Does vllm work out of the box? Mar 26
nbluemer shared this post · Mar 24
Joel Kaczmarek

🤖 Alle reden über Claude Code. Aber was passiert rechtlich und sicherheitstechnisch, wenn plötzlich jeder damit seine eigene Software baut?

Mit den beiden YPOG-Rechtsanwälten Dr. Carolin Raspé und Dr. Benedikt Flöter habe ich mir das Thema mal genauer angesehen:

Spoiler:
Das Thema ist größer, als viele denken.

👉 Was gerade passiert: Vibe Coding wird zum Alltag:

  • Mitarbeitende bauen eigene Tools
  • automatisieren Prozesse selbst
  • entwickeln Agenten & Mini-Software

Klingt erst mal nach Fortschritt, aber es entsteht auch ein neuer Wildwuchs im Unternehmen.

29
Martin Runge Du meinst also, dass der aktuelle, wilde KI-Westen mit rauchenden Prozessoren und den schnellsten GPT-Gäulen vielleicht etwas zu schön ist, um "safe" zu sein? Ich finde es noch spannender, wie bereitwillig viele Firmen ihre Unabhängkeit aufgeben, ohne irgendeine Art von Risikobewertung. Und natürlich ist das auch zu enem gewissen Grad nachvollziehbar. Das KI Schlaraffenland ist sehr verlockend und FOMO ist das Gebot der Stunde. Daher vielen Dank, dass ihr euch damit eingehend und fachlich fundiert beschäftigt, welche Stolperfallen es zu beachten gibt. Mar 24
René Peinl Joel Kaczmarek ich lese immer wieder Datenschutz als Argument wenn es um lokale KI oder selbst geschriebene Software geht. Kann mir mal jemand erklären, warum genau der Datenschutz hier eine Rolle spielen sollte? Entweder, das Unternehmen verarbeitet Daten rechtmäßig oder nicht. Mit welcher Software spielt doch überhaupt keine Rolle. Der Zweck ist entscheidend. Mar 24 1 like
nbluemer shared this post · Mar 24
Danny Gerst

𝐯𝐋𝐋𝐌, 𝐒𝐆𝐋𝐚𝐧𝐠 𝐮𝐧𝐝 𝐍𝐯𝐢𝐝𝐢𝐚 𝐍𝐈𝐌: 𝐈𝐧𝐟𝐞𝐫𝐞𝐧𝐳-𝐄𝐧𝐠𝐢𝐧𝐞𝐬 𝐢𝐦 𝐕𝐞𝐫𝐠𝐥𝐞𝐢𝐜𝐡

Inferenz-Engines wie vLLM, SGLang und Nvidia NIM entscheiden maßgeblich über Durchsatz, Latenz und Stabilität großer Sprachmodelle unter Last.

Ein praxisnahes Benchmark vergleicht die drei Werkzeuge und untersucht realistische Workloads auf Durchsatz und Streaming-Stabilität.

Mit fast 6 Seiten technischem Know-How und Analysen ist dies einer der bisher ausführlichen Artikel von mir.

Wenn du nur an den Zahlen, Daten, Fakten interessiert bist. In den Kommentaren findest du den Link zu allen Diagrammen und Zahlen.

6
Danny Gerst Author Hier der Link zu den Zahlen, Daten, Fakten: https://bizrockman.github.io/AIInferenceBenchmark/ Mar 24 1 like
René Peinl vielen Dank für den Test. Bleibt die Frage wie stark das an der Hardware hängt. H200 ist für größere Hoster sicher gängig, für kleinere Mittelständler wohl eher nicht.
Mixtral und Qwen 2.5 sind auch schon ein wenig angestaubt. Das nutzt heute hoffentlich keiner mehr.
Mar 24 1 like
nbluemer shared this post · Mar 23
Dr. Tristan Behrens

Spannend! Mich reizen bei den Open-Source-LLMs besonders diejenigen, die mit Agent Scaffolding als redliche Absicht trainiert wurden. Qwen3.5 35B hat sich schnell zu meinem Favoriten gemausert, es gibt aber noch mehr Netze...

Die Grundidee ist simpel. Ein Modell, welches von Anfang an darauf trainiert wurde, selbstständig zu planen, Tools aufzurufen und Fehler zu korrigieren, ist in der Praxis erstrebenswert. Wie sonst sollten unsere Agentic-Tools, wie Claude Code, OpenCode, Hermes-Agent, OpenClaw und alle anderen eine gute Leistung auf die Straße bringen?

18
Peter Hahn Ich nutze weitgehend qwen3.5 35B Mar 23
Christian Miekus Es könnte interessant sein, mal Devstral Small 2 mit Mistral Small 4 zu vergleichen, da letzteres nun auch Coding-Fähigkeiten mitbringt.

Ich selbst war bislang von Mistral Small 3.2 sehr angetan und werde bei Gelegenheit mal MS4 antesten, allerdings nicht für Coding-Zwecke.
Mein Interesse geht mehr in die Richtungen Architekten-Unterstützung und Company Knowledgebase.
Mar 23