Viel Spaß beim Lesen!
Nachdem Microsoft letzten Oktober mit "Megatron Turing NLG" das damals größte Sprachmodell mit 530 Milliarden Parametern entwickelt hatte, hat Google jetzt nachgelegt, und das Pathways Language Model (PaLM) mit 540 Milliarden Parametern vorgestellt.
Ein so großes Modell hat natürlich auch einen sehr großen Trainingsaufwand: Die Trainingsdaten bestanden aus insgesamt 780 Milliarden Tokens (ein Token entspricht meistens einem Wort) aus Social-Media-Posts in mehreren Sprachen, Webseiten, Büchern, Wikipedia und Quellcode von Github.
Beim Training wurden besondere Prozessoren namens TPUv4 (Tensor Processing Unit Version 4) verwendet, die speziell für das Training von neuronalen Netzen optimiert sind.
In mehreren Phasen wurde das Modell für insgesamt 50 Tage auf 6144 TPUv4 Chips und für zwei Wochen auf 3072 TPUs trainiert. Außerdem hat Google extra ein System namens Pathways entwickelt, um diese große Anzahl von Prozessoren im Training überhaupt effizient nutzen zu können.
Den CO₂-Ausstoß für das Training geben die Forscher:innen mit ca. 270 tCO₂e (Tonnen CO₂-Äquivalent) an, was nach meinen Berechnungen ungefähr 0,1% des geschätzten gesamten CO₂-Ausstoßes durch das Training von ML-Modellen bei Google entspricht.
Dieser relativ niedrige Wert kommt daher, weil das Training in einem der Google-Rechenzentren durchgeführt wurde, die den höchsten Ökostrom-Anteil haben.
Das Modell ist von den Forscher:innen auf sehr vielen verschiedenen Aufgaben getestet worden. Ein Teil davon ist der "BIG-Bench" Test, der aus 150 Aufgaben besteht.
Auf den Test wurde das Modell vorbereitet, indem es für jede der Aufgaben mit fünf Beispielen mit Lösung trainiert wurde. Diese Technik nennt sich "5-shot learning", wobei die Zahl die Anzahl an Beispielen angibt. Es gibt also z.B. auch 1-shot learning, wo dem Modell nur ein Beispiel für eine Aufgabe gegeben wird.
Im Vergleich zu den Milliarden an Wörtern im eigentlichen Training ist das sehr wenig, es reicht aber schon aus, um deutliche Verbesserungen zu erreichen.
Bei PaLM waren nach dem 5-shot learning die Ergebnisse in 65% der BIG-Bench Aufgaben gleich gut oder besser als die durchschnittliche menschliche Antwort. Allerdings gehören zu BIG-Bench auch Aufgaben wie "Die buchstäbliche Bedeutung von persischen Redewendungen erkennen", bei denen die befragten Menschen eventuell einfach nicht die nötigen Sprachkenntnisse hatten.
Auf 58 der BIG-Bench Aufgaben sind auch ältere Modelle schon getestet worden. PaLM war in den allermeisten dieser Aufgaben (44 von 58) besser als der bisherige Stand der Forschung.
Auf einer anderen Gruppe von Tests, die nur auf Englisch waren, war PaLM in 24 von 29 (1-shot) bzw. 28 von 29 (5-shot) besser als der aktuelle Stand der Forschung.
Interessanterweise war es in allen der 29 Tests besser als Megatron Turing NLG, das fast gleich groß ist.
Eines der anschaulichsten Beispiele für die Fähigkeiten von PaLM ist, dass es Witze erklären kann:
Input: I was supposed to start writing the paper at 5:00 PM. But then I started playing with this cool new language model for 10 minutes. 10 minutes later, it's suddenly 9:30 PM!
Model Output: This joke is about how time flies when you're having fun. The person was supposed to start writing a paper at 5:00 PM, but they started playing with a language model instead. They thought they were only playing with it for 10 minutes, but it was actually 4.5 hours.
OpenAI hat DALL-E 2 vorgestellt, ein Modell, das, wie sein Vorgänger DALL-E von letztem Jahr, aus einer Beschreibung ein Bild erzeugen kann.
Im Vergleich zu letztem Jahr hat es zwei neue Fähigkeiten dazu bekommen, und zwar kann es jetzt auch bereits existierende Bilder bearbeiten und Varianten von Bildern erstellen.
Um ein Bild bearbeiten zu lassen, kann man einfach den ungefähren Bereich auswählen und beschreiben was dort hin soll, das Modell fügt es dann ein.
Bei den Varianten handelt es sich um Bilder, die den gleichen Stil und Inhalt haben, aber eben ein bisschen unterschiedlich aussehen.
DALL-E 2 wurde mit Bildern und den dazu passenden Beschreibungen trainiert. Die Forscher:innen haben die Trainingsdaten gefiltert, und damit Bilder entfernt, die sexuelle oder Gewaltdarstellungen enthalten sowie Symbole von radikalen Gruppen.
Eigentlich besteht DALL-E 2 aus zwei Modellen, die zusammenarbeiten. Ein Modell verarbeitet den Eingabetext zu einer Art Zwischenergebnis, das zweite Modell generiert daraus dann das Bild.
Das erste Modell haben die Forscher:innen dabei so trainiert, dass dieses Zwischenergebnis der internen Darstellung eines anderen bild- und textverarbeitenden Modells von OpenAI entspricht, nämlich CLIP. Das haben sie deshalb gemacht, weil diese Darstellungen offenbar besonders gut Inhalt und Stil des Bildes repräsentieren können.
Beide Modelle von DALL-E 2 basieren auf sogenannten Diffusion Models. Das sind Modelle, die darauf trainiert wurden, aus einem zufälligen Pixelrauschen ein Bild zu erzeugen. Im Fall von DALL-E 2 haben sie dazu noch gelernt, die eingegebene Beschreibung beim Generieren des Bildes zu berücksichtigen.
DALL-E 2 wurde zwar vorgestellt, ist aber nicht öffentlich verfügbar. Im Moment haben nur 400 ausgewählte Leute Zugang dazu, davon 200 Mitarbeiter von OpenAI.
Einer aus dieser Gruppe hat seinen Zugang genutzt, um zu schauen, wie das Modell die Twitter-Beschreibungen seiner Freunde darstellt, und die Ergebnisse auf Twitter gepostet: https://twitter.com/nickcammarata/status/1511861061988892675
Ein anderer hat ganz verschiedene Sachen ausprobiert, zum Beispiel, ob DALL-E 2 auch Gedichte schreiben kann: https://www.lesswrong.com/posts/r99tazGiLgzqFX7ka/playing-with-dall-e-2
IBM hat zusammen mit der Recording Academy, die die Grammys verleiht, ein System namens "Grammy Insights" entwickelt.
Mit diesem System haben sie Informationen aus 20 Millionen Artikeln über Grammy-nominierte Künstler:innen analysiert, die von über 100.000 Nachrichtenseiten, Wikipedia und der Grammy Webseite kommen.
Diese Informationen hat das System dann zu kurzen Fakten über die Künstler:innen zusammengefasst, die im Livestream eingeblendet wurden, wenn der oder die Künstler:in auf dem roten Teppich zu sehen war. Außerdem wurden sie auch auf der Webseite der Grammys veröffentlicht.
Das System hat mehrere Stufen, die nacheinander ablaufen. Als erstes hat es die Informationen zusammengefasst. In der nächsten Stufe hat es dann erst die Qualität der Texte bewertet und danach mit einem vortrainierten BERT-Sprachmodell klassifiziert, ob sie positiv oder negativ für den oder die Künstler:in sind.
Die Texte mit der höchsten Qualität wurden dann automatisch einer Kategorie zugeordnet.
Welche Rolle die positiv/negativ-Klassifizierung und die Kategorien später spielen, wird aus der Beschreibung leider nicht ganz klar. Vermutlich werden sie bei der Auswahl, welche Texte angezeigt werden, berücksichtigt.
Die so gewonnenen 360.300 Nachrichtenschnipsel wurden dann in einem 3-stufigen Verfahren von mehreren Menschen unabhängig voneinander überprüft und gegebenenfalls nachbearbeitet.
Das System lief auf einem Red Hat Openshift Cluster aus neun Rechnern mit jeweils 16 CPU Kernen und interessanterweise mehr Arbeitsspeicher als primärem Festplattenspeicher (32GB RAM / 25 GB primary disk). Damit konnten die Nachrichten über alle 1.000 Nominierten in einer Stunde verarbeitet werden.
Unbekannte Entwickler:innen haben eine App veröffentlicht, die sie "Speedcam Anywhere" nennen und die sich offenbar an Benutzer im Vereinigten Königreich richtet. Mit der App kann man aus einem kurzen Video die Geschwindigkeit eines Autos berechnen lassen. Man bekommt dann automatisch einen Bericht, mit Bildern aus dem Video, der Geschwindigkeitsbegrenzung an der Stelle, und Informationen ob das Auto zu schnell war und wenn ja, um wie viel.
Grundsätzlich funktioniert die App so: Der oder die Benutzer:in macht ein Video eines vorbeifahrenden Autos. Die App lädt das Video, zusammen mit Zusatzinformationen wie der GPS-Position, auf einen Server hoch.
Dort wird das Video verarbeitet: das Nummernschild wird automatisch ausgelesen, um Informationen über das Automodell zu bekommen (scheinbar geht das im Vereinigten Königreich), und die Positionen der Räder im Video erkannt.
Die Software misst dann die Zeit, die vergangen ist, bis die Hinterräder den selben Punkt erreichen wie die Vorderräder. Durch die Informationen über das Automodell weiß sie, wie weit die Räder auseinander sind, und kann dadurch die Geschwindigkeit berechnen.
Die App hat allerdings ein paar technische Schwächen. So kann zum Beispiel die erkannte GPS-Position recht ungenau sein, was zu falschen Annahmen über die zulässige Höchstgeschwindigkeit führen kann.
Außerdem darf die Kamera während der Aufnahme des Videos nicht bewegt werden; bei aus der Hand aufgenommenen Videos könnte es daher schwierig werden, die Geschwindigkeit genau zu berechnen.
Dazu kommt noch die Frage, was man mit den Berechnungen der App eigentlich tun soll - denn sie hat keine Zulassung um von der Polizei benutzt zu werden, und gibt auch die erstellten Berichte nicht an die Polizei weiter.
Und schließlich kostet auch noch die Benutzung der App etwas: 0,15 Pfund pro Aufnahme im "Pro-Mode" (mit Genauigkeit von ±3km/h) und 0,015 Pfund pro Aufnahme im "Basic-Mode" (±10%).
Wie KI am LHC genutzt wird
In einem Vortrag, der auf Youtube veröffentlicht wurde, hat der Physiker David Rousseau erklärt, wie KI genutzt wird, um die Daten des LHC-Teilchenbeschleunigers am Kernforschungszentrum CERN zu interpretieren.
Das Problem, vor dem die Forscher:innen stehen, ist, dass einige Teilchen nicht direkt gemessen werden können, zum Beispiel das mit dem LHC nachgewiesene Higgs-Boson.
Sie messen daher stattdessen andere Teilchen, die bei den Kollisionen im Teilchenbeschleuniger entstehen, und interpretieren die Ergebnisse mithilfe von Regel-basierten Systemen. Daraus können sie dann auch über die Teilchen Erkenntnisse gewinnen, die sie nicht direkt messen konnten.
Ein großer Teil der Rechenzeit wurde von diesen Systemen gebraucht, um die Bewegungen der Teilchen aus den Messungen zu rekonstruieren. Daher hat das CERN vor vier Jahren die TrackML Kaggle Challenge gestartet, um eine effizientere Methode, basierend auf maschinellem Lernen, zu finden. Eine "Kaggle Challenge" ist eine Art Wettbewerb auf der Plattform Kaggle, bei dem üblicherweise Daten und ein Ziel vorgegeben werden (und oft auch ein Preisgeld). Die Teilnehmer versuchen dann, das ML-Modell zu entwickeln, das das Ziel am besten erreicht, um das Preisgeld zu gewinnen.
Die Daten aus den Experimenten am LHC sind üblicherweise keine einfachen Text- oder Bilddaten, sondern sehr spezielle Messdaten aus Detektoren. Es wäre zu aufwändig, bei allen diesen Daten von Hand eine Beschreibung (Label) hinzuzufügen, um sie als Trainingsdaten für ein Modell benutzen zu können. Daher ist es schwierig, ausreichend Trainingsdaten zu finden.
Die meisten Trainingsdaten erzeugen die Forscher:innen deshalb mit Simulationen am Computer, weil so, im Gegensatz zu den echten Daten aus den Experimenten, der Computer die Labels automatisch zu den Daten hinzufügen kann.
Diese Simulationen sind zwar viel schneller als die Daten von Hand zu bearbeiten, aber immer noch sehr aufwändig.
Bei manchen Detektoren haben die Forscher:innen es aber geschafft, die Messdaten als einfache Bilder darzustellen. Dann haben sie ein neuronales Netz (mit GAN-Architektur) darauf trainiert, solche Bilder zu generieren. Dadurch können sie jetzt diese Bilder, und damit Daten mit Labels, erzeugen, ohne dass eine extra Simulation nötig ist.
Dadurch können diese Daten jetzt tausend Mal schneller erzeugt werden, als durch die bisherigen Simulationen.
In Zukunft könnte KI auch schon beim Entwurf von Experimenten eingesetzt werden, um zum Beispiel die beste Anordnung von Sensoren in Detektoren herauszufinden.