KI News #47

Hallo und herzlich willkommen zur siebenundvierzigsten Ausgabe von KI News. In dieser Ausgabe gibt es Diffusion Modelle zur Musik-Generierung, Überblicke über die Neuigkeiten bei den verschiedenen Chatbots und die neuen Entwicklungen bei Modellen für 3D-Darstellungen, sowie eine Antwort auf die Frage, ob Diffusion Modelle bei einer Vorhersage auch die Original-Bilder aus den Trainingsdaten generieren können.

Viel Spaß beim Lesen!

Inhalt

Noise2Music: Diffusion Modelle machen aus einer Beschreibung Musik

Das Noise2Music Modell kann 30 Sekunden lange Audio-Clips erzeugen. Dazu benutzt es eine Reihe von verschiedenen Diffusion Modellen:

  1. Das erste Modell, das die Forscher:innen Generator Modell nennen, wandelt einen Text in eine Zwischendarstellung um.
  2. Danach folgt ein Cascader Modell, das aus dieser Zwischendarstellung (und ggf. dem Text) 16kHz Musik generiert.
  3. Ein zweites Cascader Modell verbessert schließlich die Qualität der Musik auf 24kHz.

Die Forscher:innen untersuchen in ihrer Arbeit zwei verschiedene Ansätze für die Zwischendarstellung:

Variante eins ist ein Spektrogramm, also eine grafische Darstellung der Frequenzen. Variante zwei ist Audio mit schlechterer Qualität (3,2kHz).

Bei den Trainingsdaten hatten die Forscher:innen das gleiche Problem wie diejenigen, die an MusicLM gearbeitet haben (das ebenfalls von Google entwickelt wurde), nämlich dass es keinen geeigneten Datensatz mit Musikbeschreibungen gibt.

Für Noise2Music haben sie aber eine andere Lösung gewählt als bei MusicLM: Und zwar haben sie von einem Sprachmodell (LaMDA), mögliche Beschreibungen für die Musikdateien generieren lassen und dann von einem zweiten Modell (MuLan), jeweils die passendste Beschreibung auswählen lassen.

Dadurch konnten sie ca. 150.000 Stunden Audiodateien beschriften.

Bei der Auswertung haben sie herausgefunden, dass Noise2Music bessere Ergebnisse liefert als Riffusion und Mubert.

Außerdem schnitt die Variante, die eine Audiodatei mit schlechter Qualität als Zwischendarstellung verwendet hat, etwas besser ab als die Variante mit dem Spektrogramm als Zwischendarstellung. Dafür sei aber die Spektrogramm-Variante billiger zu trainieren und zu benutzen.

DiffModels: Vorhersage von Code-Änderungen

Modelle zur Codegenerierung wie OpenAI Codex oder das darauf basierende Github Copilot, sind gut darin, Vorschläge für neuen Code zu machen. Als Programmierer:in muss man aber mindestens genauso oft bestehenden Code verändern, wie man ganz neuen schreibt.

Dafür hat die Forschergruppe CarperAI Modelle veröffentlicht, die sie "Diff Models" nennen. "Diff" kommt von "Difference" und beschreibt die Änderungen, die von eine:r Programmierer:in gemacht wurden. Die Diff Models wurden darauf trainiert, genau diese Änderungen vorherzusagen.

Als Trainingsdaten haben die Entwickler:innen von CarperAI öffentlich zugänglichen Code von Github genommen. Bei Github wird eine einzelne Änderung als "Commit" bezeichnet. 19 Millionen dieser Commits haben die Entwickler:innen für die Trainingsdaten verwendet.

Üblicherweise gibt es zu jedem Commit eine kurze Beschreibung der darin gemachten Code-Änderung, die sie für das Training verwenden konnten.

Die Diff Models basieren auf den CodeGen Modellen von Salesforce, die ebenfalls darauf trainiert sind, Code vorherzusagen. Die Entwickler:innen haben die CodeGen Modelle dafür mithilfe der Diff-Daten weitertrainiert (Finetuning).

Interessanterweise hat die Auswertung der Entwickler:innen ergeben, dass die originalen CodeGen Modelle besser darin sind, die passenden Korrekturen für Fehler in Python-Code vorherzusagen, als ihre spezialisierten Diff Modelle.

Das heißt, wenn ich das richtig verstanden habe, dass sie im Endeffekt sehr viel Aufwand darin investiert haben, die CodeGen Modelle schlechter zu machen.

(Wenn ich es falsch verstanden habe, schreibt mir gerne eine E-Mail)

Der aktuelle Stand bei Chatbots - ChatGPT, Bing, Bard & Co

Modelle für 3D-Bilder

Bei 3D-Modellen ist in letzter Zeit so viel passiert, dass ich hier nur eine kurze Übersicht über einige der Veröffentlichungen mit kurzen Stichworten zu den jeweils wichtgsten Punkten gemacht habe.

Generieren Diffusion Modelle auch Original-Bilder aus den Trainingsdaten?

Große Diffusion Modelle werden oft auf Datensätzen aus Milliarden Bildern trainiert, zum Beispiel LAION-5B. Dazu gehören auch Bilder von Menschen und Bilder, die durch Lizenzbedingungen o.ä. geschützt sind.
Wenn diese später von dem trainierten Modell im Original wiedergegeben werden, könnte das gegen Persönlichkeits- oder Urheberrechte verstoßen. Ob das ein reales Problem ist und wie groß es ist, hat eine Gruppe von Forscher:innen untersucht.

Bei Bildern, die mehrfach in den Trainingsdaten vorkommen, ist die Wahrscheinlichkeit größer, dass das Modell eine Vorhersage macht, bei der es sie 1:1 wie das Originalbild generiert. Deshalb haben die Forscher:innen als erstes mehrfach vorkommende Bilder in den Trainingsdaten gesucht.

Von den 350.000 am häufigsten vorkommenden Bildern in den Trainingsdaten haben sie dann die Beschreibungen genommen und mit jeder Beschreibung 500 Bilder von Stable Diffusion generieren lassen (insgesamt 175 Mio Bilder).

So haben sie bei Stable Diffusion insgesamt 107 generierte Bilder gefunden, die genau dem Original aus den Traininingsdaten entsprechen.
Für das Imagen Modell haben sie die selbe Untersuchung gemacht, aber nur mit den 1.000 häufigsten Bildern in den Trainingsdaten. Davon entsprachen 23 Bilder 1:1 einem Bild aus den Trainingsdaten.

Außerdem

« VorherigeNächste »

Hier abonnieren und keine Ausgabe mehr verpassen: