Ein ungewollter Detektor für KI-Inhalte
Mathias Schindler, ein langjähriger Wikipedia-Autor und Mitbegründer von Wikimedia Deutschland, wollte eigentlich nur einige fehlerhafte ISBNs in der Enzyklopädie korrigieren. Doch sein Projekt führte unerwartet zu einer Entdeckung: Er baute quasi aus Versehen einen Detektor, der die Verwendung von KI-generierten Inhalten aufspürt. Diese Problematik hat weitreichende Bedeutung, denn sie könnte nicht nur die Genauigkeit von Wikipedia gefährden, sondern auch die Anbieter großer Sprachmodelle in die Bredouille bringen.
Die Herausforderung der falschen Referenzen
Schindler war auf der Suche nach inkorrekten ISBNs, die zur Identifizierung von Büchern dienen. Mit einem selbst entwickelten Skript durchsuchte er die gesamte deutschsprachige Wikipedia und stieß auf merkwürdige Artikel, die auf einmal gefälschte ISBNs enthielten. Diese Bücher hatten zwar überzeugende Titel und Autorennamen, konnten jedoch in keiner Bibliothek oder Datenbank nachgewiesen werden. Stattdessen stellte Schindler fest, dass es sich um Inhalte handeln könnte, die von einem Large Language Model (LLM) wie ChatGPT generiert wurden.
Ein Nischenphänomen mit weitreichenden Konsequenzen
Insgesamt fand Schindler etwa 150 Artikel mit problematischen Quellenangaben, was bei über drei Millionen Artikeln in der deutschsprachigen Wikipedia einen verschwindend geringen Anteil von 0,005 Prozent ausmacht. Dennoch wirft dies grundlegende Fragen auf: Wenn Wikipedia ein Ort ist, um mit Recherche zu beginnen, wie kann man dann sicher sein, dass die Informationen korrekt sind?
Die Bedenken über Halluzinationen
Schindler betont, dass seine Methode nicht alle halluzinierten Inhalte erkennt. Der vorliegende Ansatz ist lediglich ein Werkzeug für bestimmte Sorten von falschen Quellen. Zudem könnte auch andere technische oder redaktionelle Gründe für mehrere fehlerhafte ISBNs verantwortlich sein.
Die Gefahren der Inhaltshaftung
Trotz der geringen Anzahl der gefundenen Artikel ist die Möglichkeit, dass falsche Informationen, die als faktisch wahr erscheinen, sich in der Wikipedia verbreiten, alarmierend. Diese Falschinformationen könnten durch andere Quellen übernommen werden und sich so im Internet verselbstständigen. Schindler ist sich der Problematik bewusst und beschreibt die durch KI-generierten Texte geschaffene Gefahr als eine Art Anti-These zu den Prinzipien von Wikipedia, wo verifizierbare und fundierte Informationen im Mittelpunkt stehen sollten.