Was ist der „Seepferdchen Exploit“ bei ChatGPT?

Thorge Früchtenicht

Thorge Früchtenicht

ChatGPT gerät in eine Art „Schleife“ oder „Anfall“, wenn es nach einem Seepferdchen-Emoji gefragt wird. Das liegt daran, dass es offiziell kein Seepferdchen-Emoji in der Unicode-Standardliste gibt. Viele Menschen glauben jedoch fälschlicherweise, dass es ein solches Emoji gibt (ein Mandela-Effekt). Da ChatGPT auf riesigen Textdatensätzen trainiert ist, in denen dieses Seepferdchen-Emoji häufig erwähnt wird – obwohl es tatsächlich nicht existiert – versucht das Modell, ein passendes Emoji zu generieren oder zu beschreiben, was wiederholt zu Ergebnissen wie Pferden, Einhörnern oder Fischen führt. Dieses Verhalten kann als eine Art „Exploit“ verstanden werden, weil das Modell in einer Endlosschleife hängt und erst stoppt, wenn es erkennt, dass es das Emoji nicht darstellen kann.

Warum passiert das?

  • ChatGPT ist ein Large Language Model (LLM) und wird auf Texten aus dem Internet trainiert, die auch Fehlinformationen enthalten.
  • In den Trainingsdaten kursiert der Mythos eines Seepferdchen-Emojis so stark, dass das Modell fest davon ausgeht, es gäbe eines.
  • Da es kein wirkliches Unicode-Seepferdchen-Emoji gibt, versucht das Modell stattdessen immer wieder, das Konzept durch ähnliche Emojis (wie Pferd + Fisch) zu approximieren, was zu dem irritierenden Verhalten führt.
  • Diese Halluzinationen und Wiederholungen resultieren aus der Art, wie das Modell Wahrscheinlichkeiten für passende Wörter und Symbole vorhersagt.
  • Erst wenn das Modell „akzeptiert“, dass es das Emoji nicht gibt, bricht es die Schleife ab und erklärt die Situation.

Zusammenfassung

Das „Seepferdchen Exploit“ ist also keine Sicherheitslücke im eigentlichen Sinne, sondern ein Beispiel für eine systemische Schwäche von KI-Sprachmodellen wie ChatGPT, wenn sie mit weitverbreiteten, aber falschen Annahmen in Trainingsdaten konfrontiert werden. Die KI versucht unermüdlich, ein nicht existierendes Emoji zu erzeugen, was zu einem Loop führt, der als „Exploit“ interpretiert wird. Dieses Phänomen zeigt gut die Grenzen heutiger KI-Systeme und ihre Abhängigkeit von der Datenqualität