Der eine Knackpunkt auf dem Weg zur AGI: Konsistenz
Kurz gesagt: Brillant, aber sprunghaft
Auf einem „Google for Developers“-Podcast betont Demis Hassabis: Moderne Modelle wie Googles Gemini können in Spitzenleistungen glänzen – und dann an einfachen Schulaufgaben scheitern. Diese „gezackte“ Leistungsfähigkeit (Google-CEO Sundar Pichai spricht von AJI – Artificial Jagged Intelligence) zeigt: KI ist noch nicht konsistent genug, um als echte AGI zu gelten.
Vom Olympiade-Gold zu Grundkurs-Fehlern
Gemini-Modelle, verstärkt durch die Reasoning-Technik „DeepThink“, erreichen nach Hassabis Goldmedaillen-Niveau bei der Internationalen Mathematik-Olympiade. Gleichzeitig patzen sie bei simplen Rechenaufgaben auf High-School-Level. Das ist mehr als peinlich: Es untergräbt Vertrauen in KI-Ergebnisse – besonders in sensiblen Bereichen.
Was meint „Konsistenz“ eigentlich?
Konsistenz heißt: Ein System liefert über Aufgaben, Kontexte und Zeit hinweg verlässlich richtige, nachvollziehbare Ergebnisse – nicht nur gelegentlich. Für Laien: Stell dir eine Spitzen-Schülerin vor, die manchmal die 1x1-Tabelle vergisst. Solange solche Ausrutscher möglich sind, bleibt AGI außer Reichweite.
Skalieren allein reicht nicht
Mehr Daten und mehr Rechenleistung sind laut Hassabis nicht die Lösung. Es fehlen grundlegende Bausteine: besseres logisches Schließen (Reasoning), planvolles Vorgehen über mehrere Schritte (Planning) und belastbare Kurz- und Langzeitgedächtnisse (Memory). Ohne diese Fähigkeiten bleibt Leistung punktuell – statt stabil.
Messen, was wirklich zählt: neue Benchmarks
Hassabis fordert härtere, smartere Tests. Heute zeigen Leaderboards oft Bestwerte auf eng umrissenen Daten. Gebraucht werden Benchmark-Suiten, die: 1) fehlerfreie Wiederholbarkeit prüfen, 2) Kettenaufgaben mit mehreren Schritten abbilden, 3) Wissenstransfer zwischen Domänen verlangen und 4) robuste Leistung bei unbekannten, „außerhalb des Lehrplans“ liegenden Fällen testen.
Wo steht Big Tech beim Thema AGI?
Die Branche ist sich einig: Noch nicht am Ziel. Hassabis hält AGI in 5 bis 10 Jahren für möglich, verweist aber auf heutige Schwächen wie Halluzinationen und triviale Fehler. Auch OpenAI-Chef Sam Altman dämpft Erwartungen rund um GPT‑5: Das Modell sei zwar generell sehr fähig, aber keine echte AGI – u.a. weil es nach dem Deployment nicht eigenständig weiterlernt.
Warum das wichtig ist – für Anwender und Unternehmen
- Verlässlichkeit vor Spitzentricks: Für den Alltag zählt nicht der Einzelfall-Coup, sondern konstante Qualität. - Governance und Tests: Unternehmen sollten KI wie eine kritische Softwarekomponente behandeln – mit klaren Prüfplänen, Red-Teams und Fehlertoleranzen. - Mensch im Loop: In Hochrisikobereichen bleiben Vier-Augen-Prinzip und Audit-Trails Pflicht.
Wie könnte mehr Konsistenz erreicht werden?
- Reasoning-Booster: Verfahren wie „DeepThink“, strukturierte Chain-of-Thought und Such-/Planungskomponenten. - Besseres Gedächtnis: Persistente Speicher und belastbare Arbeitsgedächtnisse für längere Aufgabenketten. - Selbstkontrolle: Mechanismen zur Fehlererkennung und -korrektur, enge Kopplung von Verstehen und Verifizieren. - Klügere Evaluation: Stress-Tests, Domänenwechsel, Wiederholbarkeit und Ausreißer-Analysen. - Vorsicht bei Continuously Learning: Nützlich für Anpassungsfähigkeit – aber mit klaren Sicherheits- und Qualitätsgrenzen.
Fazit
Der Weg zur AGI führt nicht nur über „größer, schneller, mehr“, sondern über „verlässlicher“. Solange KI zwar Olympiade-Aufgaben löst, aber an Grundschritt-Logik scheitert, bleibt sie eine „gezackte Intelligenz“. Wer heute in KI investiert, sollte Konsistenz zur zentralen Kennzahl machen – und Systeme danach auswählen, testen und weiterentwickeln.
Wie erlebt ihr die Zacken der KI im Alltag? Teilt Beispiele, Tools und Benchmarks, die bei euch für mehr Verlässlichkeit sorgen – und abonniert unseren Newsletter, wenn ihr solche Deep-Dives nicht verpassen wollt.
Quelle: https://www.businessinsider.com/google-deepmind-ceo-demis-hassabis-agi-consistency-2025-8