Forscher der Tsinghua-Universität und BIGAI präsentierten die innovative KI-Trainingsmethode „Absolute Zero“, die völlig ohne menschlich generierte Daten auskommt. Diese bahnbrechende Methode, bekannt als Reinforcement Learning with Verifiable Rewards (RLVR), nutzt ausschließlich Selbst-Spiel („self-play“) und einen automatisierten Code-Executor zur Validierung und Verifikation der erlernten Inhalte.
Der Absolute Zero Reasoner (AZR) übertrifft etablierte Zero-Setting-Modelle in komplexen Aufgaben wie Programmierung und mathematischer Logik. Die Methode adressiert somit direkt die wesentlichen Engpässe herkömmlicher KI-Ansätze, insbesondere die hohe Abhängigkeit von teuren, oft verzerrten menschlichen Datensätzen.
Das autonome Lernparadigma von „Absolute Zero“ birgt enormes Potenzial, die KI-Entwicklung demokratischer und unabhängiger zu gestalten, indem es KI ermöglicht, eigene Lernziele und -pfade zu definieren. Gleichzeitig wirft es kritische Fragen hinsichtlich der Sicherheit und ethischen Ausrichtung zukünftiger KI-Systeme auf, insbesondere wenn diese menschenähnliche oder überlegene Intelligenz entwickeln könnten.