KI News #46

Hallo und herzlich willkommen zur sechsundvierzigsten Ausgabe von KI News. OpenAI hat vor ein paar Tagen die neueste Version der GPT-Sprachmodell-Reihe veröffentlicht, GPT-4. Hier gibt es alles wichtige zum neuen Modell, was es kann und was es von den älteren Versionen unterscheidet.

Viel Spaß beim Lesen!

Inhalt

Was ist GPT-4?

GPT ist quasi der Familienname der Sprachmodelle von OpenAI. GPT wird dabei allgemein als Abkürzung für "Generative Pre-trained Transformer" verstanden*.

Eine kurze Geschichte der Familie GPT

Die erste Version wurde im Juni 2018 veröffentlicht (openai.com), GPT-2 dann im Februar 2019 (openai.com), GPT-3 folgte im Mai 2020 (openai.com) und GPT-4 jetzt am 14. März 2023 (openai.com). Außerdem gibt es noch GPT-3.5 als Weiterentwicklung von GPT-3 und ChatGPT, das ursprünglich auf GPT-3.5 basiert und jetzt auch mit GPT-4 benutzbar sein wird (help.openai.com).

OpenAI wurde ursprünglich als gemeinnütziges Unternehmen gegründet, das der KI-Forschung dienen soll (openai.com). Deshalb wurden die ersten beiden Versionen, GPT und GPT-2, als open-source veröffentlicht, so dass jeder sie einfach benutzen und damit forschen kann.

Im März 2019 hat OpenAI dann aber ein neues Unternehmen gegründet, das gewinnorientiert arbeitet (openai.com). GPT-3 wurde schon nicht mehr veröffentlicht, sondern nur in einem Paper beschrieben (arxiv.org) und konnte über eine kostenpflichtige Schnittstelle benutzt werden.

Das neue GPT-4 wird jetzt nicht einmal mehr beschrieben. Die veröffentlichten Informationen beschränken sich hauptsächlich darauf, dass es besser ist als GPT-3 (und besser als eine frühe Version von GPT-4, die bis zur Veröffentlichung noch verbessert wurde) und dass es jetzt auch Bilder als Eingabe verarbeiten kann.

Wie groß es ist, wie die Architektur aussieht, wie genau die Technik funktioniert und selbst welche Trainingsdaten oder wie viel Rechenleistung für das Training verwendet wurde, wird geheim gehalten.

OpenAI begründet das mit dem starken Wettbewerb - oder anders gesagt, jetzt wo man Geld damit verdienen kann, ist die Forschung zweitrangig.

"Given both the competitive landscape and the safety implications of large-scale models like GPT-4, this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar" (arxiv.org, S.2)

*Das ist durchaus plausibel, da sich das Paper der ersten GPT-Version mit Pre-training von Transformern beschäftigt. Die einzige Stelle, an der OpenAI "GPT" tatsächlich ausschreibt, ist allerdings in einem Beispieltext, der die Fähigkeiten von GPT-2 zeigen soll. In allen anderen Veröffentlichungen ist immer nur von "GPT" die Rede

Was ist neu an GPT-4?

In einem normalen "Gespräch" soll kaum ein Unterschied zwischen GPT-4 und GPT-3.5 bemerkbar sein, erst bei komplexeren Aufgaben wird GPT-4 scheinbar deutlich besser als sein Vorgänger (openai.com).

Ein großer Unterschied ist aber, dass GPT-4 neben Texten auch Bilder verarbeiten kann. Durch diese neue Fähigkeit kann man das Modell jetzt mit einer Mischung aus Bildern und Text als Eingabe ähnlich benutzen wie bisherige Versionen nur mit Text.

Ein paar Beispiele dafür hat OpenAI auf der Research Seite angegeben. Zum Beispiel kann man GPT-4 fragen, was an einem Bild witzig ist oder was die Lösung für eine französische Physik-Aufgabe ist, von der man einen Screenshot gemacht hat (openai.com).

Eine weitere Neuerung ist, dass Nutzer:innen jetzt eine Zusatzinformation angeben können, die OpenAI "System Message" nennt. Darin können sie den gewünschten Stil und die Aufgabe beschreiben, für die sie das Modell benutzen wollen, um die Ausgaben zu personalisieren (openai.com).

Dadurch, dass GPT-4 jetzt komplexere Fragen sinnvoll beantworten kann, gibt es auch neue Gefahren.

Zum Beispiel hat OpenAI mit mehr als 50 Experten aus verschiedenen Bereichen zusammengearbeitet, um zu verhindern, dass GPT-4 gefährliche Ratschläge gibt, beispielsweise Tipps dazu, wie man gefährliche Chemikalien herstellt.

Dadurch wurde laut OpenAI die Wahrscheinlichkeit, dass GPT-4 solche unerwünschten Inhalte produziert, im Vergleich mit GPT-3.5 um 82% reduziert (openai.com).

Außerdem kann GPT-4 für seine Vorhersagen einen längeren Kontext verwenden.

Die Kontext-Länge gibt an, wie lang ein Eingabetext höchstens sein darf, damit das Modell ihn bei seiner Vorhersage komplett berücksichtigen kann.

Transformer-Modelle, wie die GPT-Familie, verarbeiten Wörter üblicherweise in der Form von sogenannten Tokens, die Teile von Wörtern repräsentieren. Deshalb wird auch die Kontext-Länge in Tokens angegeben.

Bei dem Modell aus der GPT-3.5 Modellfamilie, das den längsten Kontext verarbeiten kann (code-davinci-002), sind es höchstens 8.001 Tokens. Bei GPT-4 gibt es zwei Versionen: die Standardversion kann 8.192 Tokens, die leistungsfähigere 32.768 Tokens als Kontext verwenden (platform.openai.com), was ca. 50 Seiten Text entsprechen soll (openai.com).

Was kann GPT-4?

Wahrscheinliche Wörter vorhersagen :)

Um OpenAI zu zitieren: "GPT-4 ist ein Transformer-basiertes Modell, das darauf vortrainiert wurde, das nächste Token in einem Dokument vorherzusagen" ("GPT-4 is a Transformer-based model pre-trained to predict the next token in a document") (arxiv.org).

Spannenderweise funktioniert das jetzt auch mit Bildern oder einer Mischung aus Bildern und Text als Eingabe. Leider verrät OpenAI aber nicht, wie genau sie das umgesetzt haben.

Den ersten Teil der "Research"-Seite zu GPT-4 nimmt eine Auswertung ein, wie gut GPT-4 in vielen für Menschen gedachten Prüfungen ist, zum Beispiel in einer amerikanischen Prüfung für die Anwaltszulassung (Uniform Bar Exam), bei der es eine Punktzahl in den obersten 10% erreichen würde.

Ist das eine beeindruckende Leistung? Ja, eindeutig. Bedeutet das, dass GPT-4 ein guter Anwalt wäre? Nein.

Diese Prüfungen sind für Menschen gedacht. Sie testen einige derjenigen menschlichen Fähigkeiten, aus denen man schließen kann, ob jemand als Anwalt geeignet ist oder nicht.

Ein Sprachmodell ist ja aber kein Mensch und hat daher grundsätzlich andere Eigenschaften und Fähigkeiten.

Deshalb sind die Prüfungen nicht dafür geeignet, die Fähigkeiten von Sprachmodellen zu prüfen. Die Ergebnisse sind daher nur sehr begrenzt mit denen von Menschen vergleichbar.

Dazu passt auch mein Beitrag aus KI News #11 "Warum wir die Fähigkeiten von KIs überschätzen".

Ist es eine gute Idee, GPT-4 in eine Suchmaschine einzubauen?

Diese Frage beantworten die Forscher:innen von OpenAI quasi schon selbst in ihrem Technical Report (arxiv.org, S.19):

"Wie bereits in Abschnitt 2.2 erwähnt, neigt GPT-4 trotz seiner Fähigkeiten dazu, Fakten zu erfinden, auf falschen Informationen zu beharren und Aufgaben falsch auszuführen. Darüber hinaus zeigt es diese Tendenzen oft auf eine Art und Weise, die überzeugender und glaubwürdiger ist als frühere GPT-Modelle (z. B. aufgrund eines autoritären Tons oder weil es im Kontext sehr detaillierter und korrekter Informationen präsentiert wird), was das Risiko eines übermäßigen Vertrauens erhöht."

("As noted above in 2.2, despite GPT-4’s capabilities, it maintains a tendency to make up facts, to double-down on incorrect information, and to perform tasks incorrectly. Further, it often exhibits these tendencies in ways that are more convincing and believable than earlier GPT models (e.g., due to authoritative tone or to being presented in the context of highly detailed information that is accurate), increasing the risk of overreliance.")

GPT-4 erfindet also Dinge, beharrt trotzdem darauf, dass sie richtig sind und wirkt dabei auch noch glaubwürdiger als bisherige Modelle. Ich denke, man kann klar sagen, dass es keine zuverlässige Informationsquelle ist.

Sollte man es also in eine Suchmaschine einbauen, auf deren Ergebnisse sich Menschen verlassen?

Folgerichtig hat Microsoft gleichzeitig mit der Veröffentlichung von GPT-4 angekündigt, es ab sofort in der Bing-Suchmaschine zu benutzen (blogs.bing.com).

Aber Microsoft hat ja auch vor kurzem das Team entlassen, das sich im KI-Kontext mit "Ethik und Gesellschaft" beschäftigt hat, weil deren Bedenken sie zu sehr aufgehalten haben (platformer.news), also ist das vielleicht keine so große Überraschung.

Außerdem

« VorherigeNächste »

Hier abonnieren und keine Ausgabe mehr verpassen: