„Bots am Begutachtungstisch“: Als KI die Peer-Review-Flut übernahm

„Bots am Begutachtungstisch“: Als KI die Peer-Review-Flut übernahm

Was genau ist passiert?

Bei der Einreichungsrunde zur International Conference on Learning Representations (ICLR) 2026 meldeten zahlreiche Forschende ungewöhnliche Peer-Reviews: ungewöhnlich lange, vage Formulierungen, falsche Zahlen oder plötzlich geforderte Analysen. Graham Neubig von der Carnegie Mellon University suchte deshalb Hilfe und bot eine Belohnung an, um festzustellen, ob die Bewertungen mit großen Sprachmodellen (LLMs) erstellt wurden. Daraufhin prüfte Pangram Labs die Einreichungen — ein Screening von 19.490 Studien und 75.800 Begutachtungen für die Konferenz, die im April 2026 in Rio de Janeiro stattfinden wird.

Die Zahlen, die die Debatte anheizten

Pangram Labs fand: rund 21 % aller Peer-Reviews waren vollständig KI-generiert (etwa 15.899 Reviews) und mehr als die Hälfte der Reviews wiesen Spuren von KI-Nutzung auf. Bei den Manuskripten identifizierte das Team 199 vollständig KI-generierte Einreichungen (≈1 %), 61 % waren überwiegend menschlich verfasst, und rund 9 % enthielten mehr als 50 % KI-Text. Die Ergebnisse wurden öffentlich geteilt und lösten breite Diskussionen in der Community aus.

Wie wurde KI-Nutzung erkannt?

Pangram nutzte ein eigenes Klassifikationsmodell, das vorhersagt, ob Text von LLMs erzeugt oder bearbeitet wurde. Laut Pangram schrieb das Team innerhalb von 12 Stunden Code, um den Text der Einreichungen zu parsen und zu analysieren. Wichtig: Die Methode sagt nur Wahrscheinlichkeit und ist nicht unfehlbar — sie gibt Hinweise, die in Verbindung mit inhaltlichen Auffälligkeiten ("Halluzinationen", falsche Zahlen, seltsamer Stil) misstrauisch machen sollten.

Konkrete Auffälligkeiten: Halluzinierte Zitate und merkwürdige Forderungen

Forschende berichteten von Reviews, die ‚numerische Ergebnisse falsch erwähnten‘, die ‚den Kern der Arbeit verfehlten‘ oder ‚merkwürdig generisch‘ wirkten. Einige Reviews enthielten sogenannte "halluzinierte Zitationen" — Verweise auf Arbeiten oder Zahlen, die nicht existieren — oder verlangten ungewöhnliche Analysen, die nicht zur Community‑Norm passten. Solche Fehler können unmittelbare Folgen für die Bewertung (z. B. knappe Ablehnungen) haben und sind für Autorinnen und Autoren frustrierend.

Reaktionen von Konferenzorganisatoren und Forschenden

ICLR‑Verantwortliche, darunter Programm‑Chair Bharath Hariharan, kündigten an, automatisierte Tools einzusetzen, um Verstöße gegen die Richtlinien zur KI‑Nutzung zu prüfen. Die Community reagierte gespalten: Viele Forschende sind alarmiert, weil fehlerhafte oder automatisch erstellte Gutachten Entscheidungen über Annahme oder Ablehnung beeinflussen können; andere fordern klare Regeln für erlaubte Hilfen (z. B. formale Formulierungen vs. komplette Gutachten). Namen wie Graham Neubig und Desmond Elliott tauchen in Berichten auf — letzterer fand, dass ein Review fälschlicherweise sein Paper schlecht bewertete.

Warum das Problem so brisant ist

Peer Review ist das Rückgrat wissenschaftlicher Qualitätssicherung. Wenn automatisierte Texte ohne fachliche Kontrolle in Bewertungen einfließen, drohen mehrere Risiken: falsche Entscheidungen bei Konferenzannahmen, Verzerrung von Forschungskarrieren, Verlust von Vertrauen und ein Wettrüsten zwischen Täuschung und Detektion. Außerdem stellen halluzinierte Zitate oder falsche Forderungen die wissenschaftliche Integrität direkt infrage.

Was kann und sollte die Community tun? (Analyse)

Kurzfristig: Konferenzen müssen klare Richtlinien veröffentlichen (Was ist erlaubt? Was nicht?) und transparente Abläufe zur Prüfung von Reviews etablieren. Organisatoren können automatische Screening‑Tools nutzen — aber nur ergänzend, mit menschlicher Nachprüfung. Langfristig: Schulungen für Reviewer, verpflichtende Offenlegung, wenn KI zur Formulierung von Anmerkungen verwendet wurde, sowie bessere Werkzeuge, die Qualität und Nachvollziehbarkeit fördern. Detectoren sind nützlich, aber fehleranfällig — ein entschiedenes, aber vorsichtiges Vorgehen ist erforderlich.

Ein Blick nach vorne: Wie verändert das KI die Peer‑Review‑Landschaft?

Die ICLR‑Affäre ist ein Vorbote: LLMs werden die wissenschaftliche Kommunikation verändern — sowohl als Hilfsmittel (z. B. klare Formulierungen, Checklisten) als auch als Risikoquelle. Entscheidend wird sein, wie Institutionen Transparenz, Rechenschaftspflicht und menschliche Kontrolle balancieren. Denkbar sind hybride Modelle, in denen KI Vorschläge liefert, die Review‑Entscheidung aber stets durch eine namentlich verantwortliche Person abgesichert wird.

Fazit — Zwischen Chance und Risiko

Die Entdeckung, dass ein Fünftel der Reviews bei einer großen KI‑Konferenz von Maschinen stammt, ist ein Weckruf: KI kann die Effizienz von Peer Review erhöhen, aber ohne Regeln und Kontrollen gefährdet sie Glaubwürdigkeit und Fairness. Forscherinnen, Konferenz‑Organisatoren und Tool‑Anbieter stehen jetzt in der Pflicht, praktikable Standards zu entwickeln — damit die Technologie die Wissenschaft unterstützt, statt sie zu untergraben.

Was denkst du? Teile deine Meinung in den Kommentaren: Sollen KI‑Hilfen in Reviews erlaubt werden — und wenn ja, unter welchen Bedingungen? Abonniere unseren Newsletter, um keine Entwicklungen in dieser Debatte zu verpassen.

Quelle: https://www.nature.com/articles/d41586-025-03506-6

Read more