Billig gedacht, teuer gerechnet: Warum viele Open‑Source‑KI-Modelle Ihr Compute‑Budget auffressen
In 60 Sekunden: Die Kernergebnisse
- Open‑Weight/Open‑Source‑Modelle verbrauchen im Schnitt 1,5–4x mehr Tokens als geschlossene Modelle; bei einfachen Wissensfragen teils bis zu 10x. - Besonders „Large Reasoning Models“ (LRMs) mit ausführlicher Chain‑of‑Thought neigen zu übermäßigem Grübeln – auch bei simplen Fragen wie „Was ist die Hauptstadt von Australien?“. - OpenAI-Modelle (u.a. o4‑mini und gpt‑oss) gelten in der Studie als besonders token‑effizient, vor allem in Matheaufgaben (bis zu 3x weniger Tokens als andere kommerzielle Modelle). - Unter Open‑Source schnitt Nvidias Llama‑3.3‑Nemotron‑Super‑49B‑v1 am effizientesten ab; einige neuere Modelle (z.B. von Mistral) fielen als Ausreißer mit sehr hoher Token‑Nutzung auf. - Fazit der Forscher: Bessere Token‑Effizienz geschlossener Modelle kann deren höheren API‑Preis oft überkompensieren.
Token‑Effizienz – was ist das und warum kostet sie Geld?
Tokens sind die kleinsten Recheneinheiten, in die Texte für KI‑Modelle zerlegt werden. Jeder erzeugte Token kostet Laufzeit und damit Geld. „Token‑Effizienz“ beschreibt, wie viele Tokens ein Modell benötigt, um eine Aufgabe korrekt zu lösen. Ein Modell kann pro Token zwar günstiger sein – wenn es aber deutlich mehr Tokens ausspuckt, steigt die Gesamtrechnung. Beispiel: Modell A (geschlossen) kostet 1,0 pro 1.000 Tokens und braucht 200 Tokens → 0,20 Kosten. Modell B (open) kostet 0,5 pro 1.000 Tokens, braucht aber 800 Tokens → 0,40 Kosten. Ergebnis: Das „billigere“ Modell ist teurer pro Anfrage.
Was und wie gemessen wurde
Die Studie von Nous Research testete 19 Modelle auf drei Aufgabentypen: (1) Basiswissen, (2) Mathematik, (3) Logik. Da viele geschlossene Modelle ihre Roh‑Gedankengänge nicht offenlegen, nutzten die Forscher die abgerechneten Completion‑Tokens als Proxy für den Denkaufwand. Um Auswendiglernen zu vermeiden, wurden bekannte Aufgaben (z.B. AIME‑Matheaufgaben) leicht variiert. Ergebnis: Deutliche, systematische Unterschiede im Token‑Bedarf – je nach Anbieter, Modelltyp und Aufgabenkategorie.
Wer liefert Effizienz – und wo hapert’s?
- OpenAI: o4‑mini und die neuen gpt‑oss‑Varianten fielen durch extreme Token‑Effizienz in Mathe auf und lagen auch bei einfachen Fragen im Kostenvorteil. - Open‑Source: Nvidias Llama‑3.3‑Nemotron‑Super‑49B‑v1 war der effizienteste Open‑Weight‑Kandidat über alle Domänen. Einige neuere Modelle (u.a. Mistral) nutzten ungewöhnlich viele Tokens. - Task‑Abhängigkeit: Bei Mathe und Logik lagen Open‑Weights oft ~2x über geschlossenen Modellen. Bei simplen Wissensfragen explodierte die Lücke teils auf bis zu 10x – obwohl hier eigentlich kaum „Nachdenken“ nötig wäre. - LRMs und Chain‑of‑Thought: Schritt‑für‑Schritt‑Denken hilft bei kniffligen Problemen – kann aber bei banalen Fragen unnötig tausende Tokens erzeugen.
Warum geschlossene Modelle oft sparsamer sind
Laut Studie optimieren Anbieter geschlossener Modelle aktiv auf Effizienz: Sie komprimieren oder zusammenfassen interne Denkspuren, anstatt vollständige Chain‑of‑Thoughts auszugeben. Dadurch sinkt der abgerechnete Token‑Fußabdruck. Bei offenen Modellen zeigt sich dagegen teils der Trend, mehr Tokens für „besseres Reasoning“ zuzulassen – mit Kostenfolgen.
Konsequenzen für Unternehmen: Von Preis pro Token zu Preis pro gelöster Aufgabe
Viele Teams vergleichen Modelle nach Genauigkeit und Listenpreis pro Token – und übersehen die Gesamtkosten pro Workload. Die Studie legt nahe: Entscheidend ist der „Preis pro gelöster Aufgabe“ (Cost‑per‑Solve). Konkrete Schritte: - Messen Sie Token‑Metriken: Tokens pro Anfrage, Tokens bis zur korrekten Antwort, Kosten pro erledigtem Ticket/Query. - Prompt‑Disziplin: Klare Anweisungen („kurz und präzise antworten“), Begrenzungen (max_tokens), Chain‑of‑Thought nur bei Bedarf, keine „bitte laut denken“-Prompts für triviale Fragen. - Modell‑Routing: Ein Router schickt einfache Wissensfragen an kleine/effiziente Modelle, komplexe Reasoning‑Fälle an spezialisierte LRMs. - Guardrails für Effizienz: Zeit‑/Token‑Budgets, früher Abbruch bei offenkundig einfacher Frage, Antwort‑Zusammenfassung aktivieren. - Architektur‑Hebel: Retrieval zur Kontextreduktion, Caching häufiger Antworten, Antwort‑Deduplizierung. - Realitätsnahe Benchmarks: Testen Sie auf Ihren eigenen Aufgaben mit A/B‑Vergleichen von Qualität UND Kosten.
Blick nach vorn: Effizienz wird zur neuen Benchmark
Die Autoren plädieren dafür, Token‑Effizienz gleichrangig mit Genauigkeit zu optimieren. Dichtere, komprimierte Denkspuren („densified CoT“) könnten Kontext effizienter nutzen und Qualitätsabfälle bei langen Reasoning‑Ketten ausgleichen. Mit OpenAIs gpt‑oss als effizienter, offener Referenz und dem frei verfügbaren Evaluierungs‑Repo der Studie (Code & Daten) hat die Community greifbare Anhaltspunkte, um Open‑Source‑Modelle nachzuziehen. Unterm Strich: In einer Welt, in der jeder Token zählt, gewinnt nicht zwingend die „schlauste“, sondern die effizienteste KI.
Wie effizient ist Ihr KI‑Stack wirklich? Teilen Sie Ihre Erfahrungen (Modelle, Prompts, Metriken) in den Kommentaren – und abonnieren Sie unseren Newsletter, um monatlich praktische Benchmarks und Tuning‑Rezepte zu erhalten.