KI News #45

Hallo und herzlich willkommen zur fünfundvierzigsten Ausgabe von KI News. Diesmal gibt es viele neue Modelle, die etwas aus einem Text erzeugen können - gesprochene Sprache, Bilder, Musik und 3D-Darstellungen. Außerdem habe ich ein Update zu den neuesten Entwicklungen bei ChatGPT und noch mehr.

Viel Spaß beim Lesen!

Inhalt

Vall-E TTS: ein neues Text-to-Speech Modell

Vall-E TTS ist ein Modell, das Forscher:innen von Microsoft entwickelt haben. TTS steht dabei für Text-to-Speech und beschreibt was das Modell macht: Text in Sprache umwandeln.

Trainiert wurde Vall-E mit 60.000 Stunden englischer Sprache von 7.000 verschiedenen Sprecher:innen. Laut den Forscher:innen sind das sehr viel mehr Trainingsdaten als bei bisherigen Modellen, die mit höchstens 600 Stunden Sprache trainiert wurden.

Wie funktioniert Vall-E TTS?

Als Eingabedaten bekommt es den Text und eine drei Sekunden lange Sprachaufnahme von der Stimme, mit der der Text gesprochen werden soll.

Sowohl der Text als auch die Aufnahme werden vorverarbeitet, bevor sie an das Modell weitergegeben werden.

Der Text wird in Phoneme (Laute mit unterschiedlicher Bedeutung) umgewandelt. Die Sprachaufnahme wird durch einen Audio Codec in Codes umgewandelt. Als Codec benutzen die Forscher:innen hier das EnCodec Modell.

Die Phoneme und Codes werden dann an ein Sprachmodell weitergegeben. Dieses Modell macht eine Vorhersage, welche Codes in der Aufnahme als nächstes kommen würden, unter Berücksichtigung des Textes.

Diese vorhergesagten Codes werden zum Schluss von einem Decoder wieder in hörbare Audiodaten umgewandelt.

Eine Besonderheit von Vall-E TTS ist, dass es auch die Emotionen aus der Sprachaufnahme in die Vorhersage übernehmen kann, auch ohne dafür speziell trainiert zu sein.

Muse: ein Text-to-Image Transformer

Forscher:innen von Google haben ein Modell namens Muse entwickelt, das zu Beschreibungen passende Bilder generieren kann.

Der Aufbau von Muse ist relativ komplex. Es besteht aus einer ganzen Reihe von Modellen, die jeweils spezielle Aufgaben übernehmen.

Muse kann als Eingabedaten Texte und Bilder verarbeiten. Diese werden als erstes vorverarbeitet: die Texte von einem Sprachmodell (T5 Text Encoder), zu sogenannten Embeddings, die Bilder von einem VQGAN CNN Modell, zu sogenannten Tokens.

Darauf folgen dann zwei aufeinander aufbauende Transformer Modelle:

Zuerst das "Base Model". Es lernt, die Tokens eines 256 x 256 Pixel großen Bildes passend zu den Text Embeddings vorherzusagen.

Danach kommt das "Super Resolution Model". Dieses bekommt zusätzlich zu den Embeddings noch die Tokens aus dem Base Model und macht damit eine Vorhersage der Tokens eines 512 x 512 Pixel großen Bildes.

Trainiert wurde Muse auf einem Datensatz aus 460 Millionen Text-Bild-Paaren. Das Training auf 512 spezialisierten Prozessoren (TPUs) dauerte eine Woche.

MusicLM kann aus einer Beschreibung Musik machen

Wie der Name schon andeutet, kann das MusicLM Modell (bis zu fünf Minuten lange) Musikstücke generieren.

Alles was es dazu braucht ist eine Beschreibung, was zu hören sein soll, zum Beispiel “enchanting jazz song with a memorable saxophone solo and a solo singer”.

Das von Google entwickelte Modell kann nicht nur völlig neue Lieder erzeugen, sondern auch gepfiffene oder gesummte Melodien in andere Musik umwandeln, die von einem Text beschrieben wird.

Beim Training des Modells hatten die Forscher:innen das Problem, dass es nicht besonders viele Beschreibungen von Liedern in der benötigten Form gibt.

Deshalb haben sie MusicLM nicht direkt auf Text-Musik-Datenpaaren trainiert, sondern einen anderen Weg gewählt.

Es gibt ein Modell namens "MuLan", das darauf trainiert ist, Musik und ihre Beschreibung intern sehr ähnlich darzustellen (eine sogenannte "Einbettung", englisch "Embedding"). Dadurch lassen sich die Text-Embeddings direkt aus der Musik ableiten.

Das wiederum hat den Vorteil, dass man nicht mehr unbedingt tatsächlich Texte braucht, sondern stattdessen die abgeleiteten Embeddings von MuLan benutzen kann.

Dadurch konnten die Forscher:innen MusicLM auf reinen Audio-Daten und den daraus berechneten Text-Embeddings trainieren.

MusicLM ist also tatsächlich nicht darauf trainiert, Musik aus Texten zu erzeugen, sondern aus den entsprechenden Text-Embeddings von MuLan.

Deshalb muss für eine Vorhersage, also das Generieren von Musik, der Text zuerst in ein Embedding umgewandelt werden, bevor er an MusicLM weitergegeben wird.

Um zu prüfen wie gut das Modell funktioniert, haben die Forscher:innen einen neuen Datensatz erstellt, für den sie, mithilfe von Musikern, 5.500 Musik-Textbeschreibung-Paare gesammelt haben.

Diesen haben sie auch veröffentlicht, so dass er für die weitere Forschung benutzt werden kann.

Die Evaluierung von fünf verschiedenen Metriken hat ergeben, dass MusicLM besser funktioniert als bisherige Modelle wie Riffusion und Mubert.

ChatGPT Update

Zusammengefasst

 
Dream3D: 3D-Darstellungen aus Texten
Forscher:innen aus China haben ein Modell namens Dream3D entwickelt, das eine Beschreibung in eine 3D-Darstellung umwandeln kann.
Dazu benutzt es zuerst ein anderes Modell, um aus einer Beschreibung ein Bild zu generieren, z.B. Stable Diffusion.
Dieses Bild enthält noch keine Details, sondern nur die grundsätzliche Form des gewünschten Gegenstands.
Daraus generiert es dann in einem weiteren Schritt eine einfache 3D-Darstellung.
Diese wird dann wiederum als Eingabe für ein weiteres Modell (NeRF) genutzt, das die fehlenden Details hinzufügt.
 
Forward-Forward Algorithmus
Das Training von neuronalen Netzen funktioniert aktuell grob gesagt so:
Das neuronale Netz bekommt Eingabedaten und verarbeitet diese, um eine Vorhersage zu machen. Die Vorhersage wird mit dem erwarteten Wert vergleichen. Aus diesem Vergleich wird dann berechnet, welche Änderungen im neuronalen Netz gemacht werden müssen, um die nächste Vorhersage näher an den erwarteten Wert zu bringen. Zum Schluss werden diese Änderungen dann angewandt.
Der erste Teil dieses Ablaufs, in dem die Vorhersage gemacht wird, heißt "Forward Pass", weil er von vorne (Eingabe) nach hinten (Vorhersage) durch das Netz berechnet wird.
Der zweite Teil, wo das Netz angepasst wird, heißt "Backpropagation", weil die Anpassungen von hinten nach vorne gemacht werden.
Der Forscher Geoffrey Hinton von Google Brain hat eine neue Methode veröffentlicht, wie die Backpropagation durch einen zweiten Forward Pass ersetzt werden kann, was in manchen Fällen Vorteile haben kann.
 
Stable Attribution: welche Bilder benutzt Stable Diffusion?
Bei Modellen wie Stable Diffusion, die Bilder generieren können, kann man bei der Benutzung nicht mehr sehen, durch welche Bilder in den Trainingsdaten das Modell gelernt hat, ein bestimmtes Bild zu generieren.
Die Webseite Stable Attribution will das ändern. Man kann dort ein Bild hochladen und Stable Attribution sucht dann die Bilder aus den Trainingsdaten von Stable Diffusion heraus, die am "ähnlichsten" dazu sind. Wie genau die Ähnlichkeit berechnet wird, bleibt leider unklar.
Witzigerweise funktioniert das auch mit normalen Fotos, die nicht KI-generiert sind. Dadurch kann man die Trainingsdaten einfach nach Bildern durchsuchen, die ähnlich zu einem bestimmten anderen Bild sind. Ich habe das z.B. mit einem Foto von mir ausprobiert und als Ergebnis lauter Bilder von Männern bekommen, die durchaus eine gewisse Ähnlichkeit mit mir hatten.

Außerdem

« VorherigeNächste »

Hier abonnieren und keine Ausgabe mehr verpassen: