KI News #45

Hallo und herzlich willkommen zur fünfundvierzigsten Ausgabe von KI News. Diesmal gibt es viele neue Modelle, die etwas aus einem Text erzeugen können - gesprochene Sprache, Bilder, Musik und 3D-Darstellungen. Außerdem habe ich ein Update zu den neuesten Entwicklungen bei ChatGPT und noch mehr.

Viel Spaß beim Lesen!

Inhalt

VALL-E TTS: ein neues Text-to-Speech Modell
Muse: ein Text-to-Image Transformer
MusicLM kann aus einer Beschreibung Musik machen
ChatGPT Update
Zusammengefasst
- Dream3D: 3D-Darstellungen aus Texten
- Forward-Forward Algorithmus
- Stable Attribution: Welche Bilder benutzt Stable Diffusion?
Außerdem

Vall-E TTS: ein neues Text-to-Speech Modell

Vall-E TTS ist ein Modell, das Forscher:innen von Microsoft entwickelt haben. TTS steht dabei für Text-to-Speech und beschreibt was das Modell macht: Text in Sprache umwandeln.

Trainiert wurde Vall-E mit 60.000 Stunden englischer Sprache von 7.000 verschiedenen Sprecher:innen. Laut den Forscher:innen sind das sehr viel mehr Trainingsdaten als bei bisherigen Modellen, die mit höchstens 600 Stunden Sprache trainiert wurden.

Wie funktioniert Vall-E TTS?

Als Eingabedaten bekommt es den Text und eine drei Sekunden lange Sprachaufnahme von der Stimme, mit der der Text gesprochen werden soll.

Sowohl der Text als auch die Aufnahme werden vorverarbeitet, bevor sie an das Modell weitergegeben werden.

Der Text wird in Phoneme (Laute mit unterschiedlicher Bedeutung) umgewandelt. Die Sprachaufnahme wird durch einen Audio Codec in Codes umgewandelt. Als Codec benutzen die Forscher:innen hier das EnCodec Modell.

Die Phoneme und Codes werden dann an ein Sprachmodell weitergegeben. Dieses Modell macht eine Vorhersage, welche Codes in der Aufnahme als nächstes kommen würden, unter Berücksichtigung des Textes.

Diese vorhergesagten Codes werden zum Schluss von einem Decoder wieder in hörbare Audiodaten umgewandelt.

Eine Besonderheit von Vall-E TTS ist, dass es auch die Emotionen aus der Sprachaufnahme in die Vorhersage übernehmen kann, auch ohne dafür speziell trainiert zu sein.

Demo-Webseite: https://valle-demo.github.io/
Veröffentlichung der Forscher:innen: https://arxiv.org/abs/2301.02111

Muse: ein Text-to-Image Transformer

Forscher:innen von Google haben ein Modell namens Muse entwickelt, das zu Beschreibungen passende Bilder generieren kann.

Der Aufbau von Muse ist relativ komplex. Es besteht aus einer ganzen Reihe von Modellen, die jeweils spezielle Aufgaben übernehmen.

Muse kann als Eingabedaten Texte und Bilder verarbeiten. Diese werden als erstes vorverarbeitet: die Texte von einem Sprachmodell (T5 Text Encoder), zu sogenannten Embeddings, die Bilder von einem VQGAN CNN Modell, zu sogenannten Tokens.

Darauf folgen dann zwei aufeinander aufbauende Transformer Modelle:

Zuerst das "Base Model". Es lernt, die Tokens eines 256 x 256 Pixel großen Bildes passend zu den Text Embeddings vorherzusagen.

Danach kommt das "Super Resolution Model". Dieses bekommt zusätzlich zu den Embeddings noch die Tokens aus dem Base Model und macht damit eine Vorhersage der Tokens eines 512 x 512 Pixel großen Bildes.

Trainiert wurde Muse auf einem Datensatz aus 460 Millionen Text-Bild-Paaren. Das Training auf 512 spezialisierten Prozessoren (TPUs) dauerte eine Woche.

Webseite mit Beispielen: https://muse-model.github.io/
Veröffentlichung der Forscher:innen: https://arxiv.org/abs/2301.00704

MusicLM kann aus einer Beschreibung Musik machen

Wie der Name schon andeutet, kann das MusicLM Modell (bis zu fünf Minuten lange) Musikstücke generieren.

Alles was es dazu braucht ist eine Beschreibung, was zu hören sein soll, zum Beispiel “enchanting jazz song with a memorable saxophone solo and a solo singer”.

Das von Google entwickelte Modell kann nicht nur völlig neue Lieder erzeugen, sondern auch gepfiffene oder gesummte Melodien in andere Musik umwandeln, die von einem Text beschrieben wird.

Beim Training des Modells hatten die Forscher:innen das Problem, dass es nicht besonders viele Beschreibungen von Liedern in der benötigten Form gibt.

Deshalb haben sie MusicLM nicht direkt auf Text-Musik-Datenpaaren trainiert, sondern einen anderen Weg gewählt.

Es gibt ein Modell namens "MuLan", das darauf trainiert ist, Musik und ihre Beschreibung intern sehr ähnlich darzustellen (eine sogenannte "Einbettung", englisch "Embedding"). Dadurch lassen sich die Text-Embeddings direkt aus der Musik ableiten.

Das wiederum hat den Vorteil, dass man nicht mehr unbedingt tatsächlich Texte braucht, sondern stattdessen die abgeleiteten Embeddings von MuLan benutzen kann.

Dadurch konnten die Forscher:innen MusicLM auf reinen Audio-Daten und den daraus berechneten Text-Embeddings trainieren.

MusicLM ist also tatsächlich nicht darauf trainiert, Musik aus Texten zu erzeugen, sondern aus den entsprechenden Text-Embeddings von MuLan.

Deshalb muss für eine Vorhersage, also das Generieren von Musik, der Text zuerst in ein Embedding umgewandelt werden, bevor er an MusicLM weitergegeben wird.

Um zu prüfen wie gut das Modell funktioniert, haben die Forscher:innen einen neuen Datensatz erstellt, für den sie, mithilfe von Musikern, 5.500 Musik-Textbeschreibung-Paare gesammelt haben.

Diesen haben sie auch veröffentlicht, so dass er für die weitere Forschung benutzt werden kann.

Die Evaluierung von fünf verschiedenen Metriken hat ergeben, dass MusicLM besser funktioniert als bisherige Modelle wie Riffusion und Mubert.

Webseite mit Beispielen: https://google-research.github.io/seanet/musiclm/examples/
Veröffentlichung der Forscher:innen: https://arxiv.org/abs/2301.11325
Artikel bei Techcrunch: https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it/

ChatGPT Update

OpenAI hat APIs für ChatGPT und Whisper (ein Spracherkennungsmodell) eingeführt. Der Blogeintrag hat auch Beispiele, wie die APIs bereits in Apps genutzt werden (u.a. von Snapchat, Instacart und Shopify): 📖 openai.com
Wie der Hype um ChatGPT die geplante KI-Regulierung der EU, den sogenannten "AI Act", beeinflusst:📖 politico.eu
MIT Technology Review hat mit Mitarbeitenden von OpenAI über ChatGPT gesprochen und gibt einen interessanten Einblick: 📖 technologyreview.com
Ein Artikel mit einer Auflistung der Unternehmen, die versuchen, mit ChatGPT zu konkurrieren: 📖 theverge.com
Microsoft hat angefangen, die Einschränkungen für den Bing Chat wieder zu lockern: 📖theverge.com
Ein Artikel über den aktuellen KI-Hype und die damit einhergehenden Probleme veröffentlicht: 📖 tagesschau.de

Zusammengefasst

Dream3D: 3D-Darstellungen aus Texten

Forscher:innen aus China haben ein Modell namens Dream3D entwickelt, das eine Beschreibung in eine 3D-Darstellung umwandeln kann.
Dazu benutzt es zuerst ein anderes Modell, um aus einer Beschreibung ein Bild zu generieren, z.B. Stable Diffusion.
Dieses Bild enthält noch keine Details, sondern nur die grundsätzliche Form des gewünschten Gegenstands.
Daraus generiert es dann in einem weiteren Schritt eine einfache 3D-Darstellung.
Diese wird dann wiederum als Eingabe für ein weiteres Modell (NeRF) genutzt, das die fehlenden Details hinzufügt.

Webseite mit Beispielen: https://bluestyle97.github.io/dream3d/
Veröffentlichung der Forscher:innen: https://arxiv.org/abs/2212.14704

Forward-Forward Algorithmus
Das Training von neuronalen Netzen funktioniert aktuell grob gesagt so:
Das neuronale Netz bekommt Eingabedaten und verarbeitet diese, um eine Vorhersage zu machen. Die Vorhersage wird mit dem erwarteten Wert vergleichen. Aus diesem Vergleich wird dann berechnet, welche Änderungen im neuronalen Netz gemacht werden müssen, um die nächste Vorhersage näher an den erwarteten Wert zu bringen. Zum Schluss werden diese Änderungen dann angewandt.
Der erste Teil dieses Ablaufs, in dem die Vorhersage gemacht wird, heißt "Forward Pass", weil er von vorne (Eingabe) nach hinten (Vorhersage) durch das Netz berechnet wird.
Der zweite Teil, wo das Netz angepasst wird, heißt "Backpropagation", weil die Anpassungen von hinten nach vorne gemacht werden.
Der Forscher Geoffrey Hinton von Google Brain hat eine neue Methode veröffentlicht, wie die Backpropagation durch einen zweiten Forward Pass ersetzt werden kann, was in manchen Fällen Vorteile haben kann.

Artikel bei InfoQ: https://www.infoq.com/news/2023/01/hinton-forward-algorithm/
Veröffentlichung (PDF): https://www.cs.toronto.edu/~hinton/FFA13.pdf

Stable Attribution: welche Bilder benutzt Stable Diffusion?
Bei Modellen wie Stable Diffusion, die Bilder generieren können, kann man bei der Benutzung nicht mehr sehen, durch welche Bilder in den Trainingsdaten das Modell gelernt hat, ein bestimmtes Bild zu generieren.
Die Webseite Stable Attribution will das ändern. Man kann dort ein Bild hochladen und Stable Attribution sucht dann die Bilder aus den Trainingsdaten von Stable Diffusion heraus, die am "ähnlichsten" dazu sind. Wie genau die Ähnlichkeit berechnet wird, bleibt leider unklar.
Witzigerweise funktioniert das auch mit normalen Fotos, die nicht KI-generiert sind. Dadurch kann man die Trainingsdaten einfach nach Bildern durchsuchen, die ähnlich zu einem bestimmten anderen Bild sind. Ich habe das z.B. mit einem Foto von mir ausprobiert und als Ergebnis lauter Bilder von Männern bekommen, die durchaus eine gewisse Ähnlichkeit mit mir hatten.

Webseite: https://www.stableattribution.com/

Außerdem

Warum Alexa nicht darauf reagiert, wenn jemand in einer Fernsehwerbung "Alexa" sagt: 📖 Blogeintrag von Amazon
Sehr gute Erklärung von KI bei Quarks Dimension Ralph: 📖 Video auf Youtube
Der "Scene Optimizer" in der Foto App von Samsung scheint eine Art von KI zu benutzen, damit Fotos detaillierter aussehen als sie tatsächlich sind: 📖 Post auf Reddit
Infinite AI Array: ein witziges Python Package, das mithilfe von GPT-3 dafür sorgt, dass einem die Werte in einer Liste nicht ausgehen: 📖 Infinite AI Array auf Github
Jemand hat sich einen Katzen-Detektor programmiert, der ihn benachrichtigt, wenn eine Katze in seinem Garten ist: 📖 Blogeintrag bei aawadia.dev
Deep Learning Tuning Playbook von Forscher:innen von Google und Harvard: 📖 Playbook auf Github
Getty Images verklagt Stability AI: 📖 Dokument bei copyrightlately.com
Der Github CEO findet, dass open source Entwickler von der geplanten EU-Regulierung (AI Act) ausgenommen werden sollen: 📖 Artikel bei Techcrunch
Jemand hat eine iPhone-App programmiert, die einen mithilfe von CLIP die eigenen Fotos durchsuchen lässt: 📖 Beschreibung bei Github Pages
Die Rockband Limp Bizkit benutzt Deepfakes in einem Musikvideo, um unter anderem Putin, Selensky und Kim Jong Un auftreten zu lassen: 📖 Video auf Youtube

« Vorherige Nächste »