Forscher, die an der Erprobung des neuen großen Sprachmodells von OpenAI, OpenAI o1, mitgewirkt haben, sagen, dass es einen großen Schritt nach vorne darstellt, was die Nützlichkeit von Chatbots für die Wissenschaft angeht.
In meinem Bereich der Quantenphysik gibt es wesentlich detailliertere und kohärentere Antworten“ als das letzte Modell des Unternehmens, GPT-4o, sagt Mario Krenn, Leiter des Artificial Scientist Lab am Max-Planck-Institut für die Physik des Lichts in Erlangen, Deutschland. Krenn war einer der wenigen Wissenschaftler des „roten Teams“, das die Vorabversion von o1 für OpenAI, ein Technologieunternehmen mit Sitz in San Francisco, Kalifornien, testete, indem es den Bot auf Herz und Nieren prüfte und Sicherheitsbedenken ausräumte.
OpenAI sagt, dass die o1-Serie einen Schritt in Richtung eines neuen Ansatzes des Unternehmens darstellt. Dieses Modell der künstlichen Intelligenz (KI) zeichne sich dadurch aus, dass es mehr Zeit in bestimmten Lernphasen verbracht habe und länger über seine Antworten „nachdenke“, wodurch es zwar langsamer, aber leistungsfähiger sei – insbesondere in Bereichen, in denen richtige und falsche Antworten klar definiert werden können. Das Unternehmen fügt hinzu, dass o1 „komplexe Aufgaben durchdenken und schwierigere Probleme lösen kann als frühere Modelle in den Bereichen Wissenschaft, Programmierung und Mathematik“. Vorerst sind o1-preview und o1-mini – eine kleinere, kostengünstigere Version, die für die Programmierung geeignet ist – für zahlende Kunden und bestimmte Entwickler auf Testbasis verfügbar. Das Unternehmen hat noch keine Details darüber veröffentlicht, wie viele Parameter oder wie viel Rechenleistung hinter den o1-Modellen stecken.
Die Doktoranden besiegen
Andrew White, Chemiker bei FutureHouse, einer gemeinnützigen Organisation in San Francisco, die sich mit der Anwendung von KI in der Molekularbiologie befasst, sagt, dass Beobachter überrascht und enttäuscht waren, dass sich die Fähigkeiten von Chatbots zur Unterstützung wissenschaftlicher Aufgaben in den letzten anderthalb Jahren seit der Veröffentlichung von GPT-4 nicht verbessert haben. Mit der o1-Serie hat sich das seiner Meinung nach geändert.
Bemerkenswerterweise ist o1 das erste große Sprachmodell, das in einem Test mit der Bezeichnung „Graduate-Level Google-Proof Q&A Benchmark“ (GPQA)1 Wissenschaftler auf Doktoratsniveau bei der härtesten Fragenreihe – dem „Diamant“-Set – geschlagen hat. OpenAI sagt, dass seine Wissenschaftler knapp 70 % bei GPQA Diamond erreichten und o1 insgesamt 78 % erzielte, mit einer besonders hohen Punktzahl von 93 % in Physik (siehe „Next level“). Das ist „deutlich höher als die nächstbeste gemeldete [Chatbot-]Leistung“, sagt David Rein, der zu dem Team gehörte, das den GPQA entwickelt hat. Rein arbeitet jetzt bei der gemeinnützigen Organisation Model Evaluation and Threat Research mit Sitz in Berkeley, Kalifornien, die sich mit der Bewertung der Risiken von KI beschäftigt. „Es scheint mir plausibel, dass dies eine signifikante und grundlegende Verbesserung der Kernfähigkeiten des Modells darstellt“, fügt er hinzu.
OpenAI hat o1 auch in einer Qualifikationsprüfung für die Internationale Mathematik-Olympiade getestet. Sein bisher bestes Modell, GPT-4o, löste nur 13 % der Aufgaben richtig, während o1 83 % erreichte.