‘Ein ernstes Problem’: Wie KI getarnte Peer-Reviews die Wissenschaft ins Schwanken bringen
Auf einen Blick: Worum geht’s?
Forscher*innen in China fütterten das LLM Claude 2.0 mit unveröffentlichten Manuskripten und verlangten komplette Gutachten — und verglichen die KI‑Berichte mit echten Verfasser‑Reports, die das Journal eLife veröffentlicht hatte. Ergebnis: Die maschinell erzeugten Gutachten wirkten professionell, waren aber inhaltlich oft oberflächlich. Noch alarmierender: KI‑Erkennungswerkzeuge wie ZeroGPT und GPTzero ließen sich von der Mehrheit dieser falschen Gutachten täuschen.
Wie die Studie aufgebaut war
Die Autor*innen nahmen 20 veröffentlichte Krebsbiologie‑Artikel (aus eLife) und setzten Claude 2.0 darauf an, zu jedem Paper ein vollständiges Review zu generieren. Weil eLife ‚reviewed preprints‘ und die originalen Gutachten öffentlich macht, ließen sich KI‑Berichte direkt mit den echten Stellungnahmen vergleichen — ein sauberer, nachvollziehbarer Testfall.
Das schrieb die KI — professionell, aber flach
Lingxuan Zhu, Co‑Autor der Studie, fasst es so: ‚Die Berichte sahen professionell aus, lieferten aber kein spezifisches, tiefes Feedback.‘ Claude erzeugte plausible Vorschläge für zusätzliche Zitationen und konnte überzeugend begründen, warum ein Manuskript abgelehnt werden sollte. Genau diese Fähigkeit birgt Gefahr: Überzeugend formulierte negative Reviews könnten nicht‑fachkundigen Editoren die Entscheidung zugunsten einer Ablehnung erleichtern — und damit gute Forschungsarbeiten gefährden.
Warum Erkennungs‑Tools versagen
Die Testlauf‑Ergebnisse waren ernüchternd: ZeroGPT klassifizierte etwa 60 % der KI‑Berichte fälschlich als von Menschen verfasst; GPTzero hielt sogar über 80 % für menschlich. Detektionswerkzeuge kämpfen generell damit, wieviel eines Textes maschinell erzeugt wurde und ob ein Autor KI‑Hilfe nur redaktionell oder inhaltlich genutzt hat — ein Graubereich, der missbraucht werden kann.
Geteilte Meinungen in der Forschungsgemeinschaft
Die Debatte ist gespalten. In einer Befragung von rund 5.000 Forschenden sagte ein Großteil (66 %), es sei unangemessen, generative KI für komplette Reviewer‑Berichte einzusetzen — zugleich akzeptieren 57 % den Einsatz von KI als Hilfsmittel (z. B. um Fragen zum Paper zu beantworten). Einige Wissenschaftler wie Jeroen Verharen glauben, das Problem werde sich nicht großflächig ausbreiten — wer nicht reviewen will, lehnt einfach ab. Andere, darunter Mikołaj Piniewski, berichten bereits von verdächtigen Gutachten und fürchten, dass Zeitmangel und ein globaler Mangel an Reviewern die Verbreitung beschleunigen.
Warum das die wissenschaftliche Praxis bedroht
Peer Review ist das Rückgrat wissenschaftlicher Qualitätssicherung. Wenn KI‑Erzeugnisse unbemerkt falsche, pauschale oder tendenziöse Empfehlungen liefern — etwa gut formulierte Ablehnungsgründe oder fehlgeleitete Zitationsvorschläge — können zwei Dinge passieren: 1) Schlechte Entscheidungen von Herausgebern und 2) ein schleichender Vertrauensverlust in das Begutachtungswesen. Zudem verschiebt sich die Arbeitsethik: Wer KI‑Generierung verschweigt, untergräbt Transparenz und Reproduzierbarkeit.
Konkrete Risiken — ein kurzes Szenario
Stellen Sie sich vor: Ein Editor erhält ein emotional neutral formuliertes, fachlich überzeugendes negatives Review, das von einer KI generiert wurde. Der Editor ist kein Experte im feinen Nischenthema und nimmt das Urteil statt einer detaillierten inhaltlichen Prüfung. Ergebnis: Ein innovatives Paper wird abgelehnt, weil die ‚Argumentation‘ zwar plausibel klingt, aber tiefliegende Fachfehler oder kontextuelle Irrtümer enthält — die Maschine erkannte sie nicht.
Was Journale, Reviewer und Institutionslenker tun sollten
Empfehlungen, die sich aus der Studie ableiten: - Richtlinien zur Offenlegung: Reviewer sollten angeben, ob und wie sie KI‑Tools verwendet haben (z. B. nur zur Sprache/Korrektur vs. komplette Formulierung). - Ausbildung für Editoren: Schulungen, wie man subtile KI‑Signale erkennt und Reviews inhaltlich prüft. - Stichproben‑Checks: Journale können stichprobenartig Gutachten prüfen oder automatisierte und manuelle Prüfungen kombinieren. - KI‑Transparenzprotokolle: Klare Beschränkungen für KI‑Nutzungen (z. B. Hilfestellung bei Formulierung OK, inhaltliche Ersatzarbeit nein). - Technische Maßnahmen: Forschung an robusteren Detektionsmethoden, eventuell digitale Wasserzeichen für LLM‑Ausgaben — aber Vorsicht: Detektion ist kein Allheilmittel.
Kurzfristig handlungsfähig — und langfristig notwendig
Kurzfristig helfen verbindliche Offenlegungspflichten und Editor‑Schulungen. Langfristig braucht die Wissenschaftspolitik Standards für den Umgang mit generativer KI in Gutachten — und ein Umdenken bei der Peer‑Review‑Organisation (z. B. mehr Anreize für Reviewer, fairere Vergütungsmodelle oder automatisierte Assistenz‑Tools, die transparent und nachvollziehbar arbeiten). Nur so lässt sich verhindern, dass KI‑Missbrauch das Vertrauen in Forschung grundlegend erschüttert.
Was denken Sie? Haben Sie als Autor*in oder Reviewer Erfahrungen mit KI‑gestützten Gutachten gemacht? Teilen Sie Ihre Meinung in den Kommentaren und abonnieren Sie unseren Newsletter für mehr Analysen zu KI und Wissenschaft.