KI News #47

Hallo und herzlich willkommen zur siebenundvierzigsten Ausgabe von KI News. In dieser Ausgabe gibt es Diffusion Modelle zur Musik-Generierung, Überblicke über die Neuigkeiten bei den verschiedenen Chatbots und die neuen Entwicklungen bei Modellen für 3D-Darstellungen, sowie eine Antwort auf die Frage, ob Diffusion Modelle bei einer Vorhersage auch die Original-Bilder aus den Trainingsdaten generieren können.

Viel Spaß beim Lesen!

Inhalt

Noise2Music: Diffusion Modelle machen aus einer Beschreibung Musik
DiffModels: Vorhersage von Code-Änderungen
Der aktuelle Stand bei Chatbots - ChatGPT, Bing, Bard & Co
Modelle für 3D-Bilder
Generieren Diffusion Modelle auch Original-Bilder aus den Trainingsdaten?
Außerdem

Noise2Music: Diffusion Modelle machen aus einer Beschreibung Musik

Das Noise2Music Modell kann 30 Sekunden lange Audio-Clips erzeugen. Dazu benutzt es eine Reihe von verschiedenen Diffusion Modellen:

Das erste Modell, das die Forscher:innen Generator Modell nennen, wandelt einen Text in eine Zwischendarstellung um.
Danach folgt ein Cascader Modell, das aus dieser Zwischendarstellung (und ggf. dem Text) 16kHz Musik generiert.
Ein zweites Cascader Modell verbessert schließlich die Qualität der Musik auf 24kHz.

Die Forscher:innen untersuchen in ihrer Arbeit zwei verschiedene Ansätze für die Zwischendarstellung:

Variante eins ist ein Spektrogramm, also eine grafische Darstellung der Frequenzen. Variante zwei ist Audio mit schlechterer Qualität (3,2kHz).

Bei den Trainingsdaten hatten die Forscher:innen das gleiche Problem wie diejenigen, die an MusicLM gearbeitet haben (das ebenfalls von Google entwickelt wurde), nämlich dass es keinen geeigneten Datensatz mit Musikbeschreibungen gibt.

Für Noise2Music haben sie aber eine andere Lösung gewählt als bei MusicLM: Und zwar haben sie von einem Sprachmodell (LaMDA), mögliche Beschreibungen für die Musikdateien generieren lassen und dann von einem zweiten Modell (MuLan), jeweils die passendste Beschreibung auswählen lassen.

Dadurch konnten sie ca. 150.000 Stunden Audiodateien beschriften.

Bei der Auswertung haben sie herausgefunden, dass Noise2Music bessere Ergebnisse liefert als Riffusion und Mubert.

Außerdem schnitt die Variante, die eine Audiodatei mit schlechter Qualität als Zwischendarstellung verwendet hat, etwas besser ab als die Variante mit dem Spektrogramm als Zwischendarstellung. Dafür sei aber die Spektrogramm-Variante billiger zu trainieren und zu benutzen.

Webseite mit Beispielen: https://google-research.github.io/noise2music/
Veröffentlichung der Forscher:innen: https://arxiv.org/abs/2302.03917

DiffModels: Vorhersage von Code-Änderungen

Modelle zur Codegenerierung wie OpenAI Codex oder das darauf basierende Github Copilot, sind gut darin, Vorschläge für neuen Code zu machen. Als Programmierer:in muss man aber mindestens genauso oft bestehenden Code verändern, wie man ganz neuen schreibt.

Dafür hat die Forschergruppe CarperAI Modelle veröffentlicht, die sie "Diff Models" nennen. "Diff" kommt von "Difference" und beschreibt die Änderungen, die von eine:r Programmierer:in gemacht wurden. Die Diff Models wurden darauf trainiert, genau diese Änderungen vorherzusagen.

Als Trainingsdaten haben die Entwickler:innen von CarperAI öffentlich zugänglichen Code von Github genommen. Bei Github wird eine einzelne Änderung als "Commit" bezeichnet. 19 Millionen dieser Commits haben die Entwickler:innen für die Trainingsdaten verwendet.

Üblicherweise gibt es zu jedem Commit eine kurze Beschreibung der darin gemachten Code-Änderung, die sie für das Training verwenden konnten.

Die Diff Models basieren auf den CodeGen Modellen von Salesforce, die ebenfalls darauf trainiert sind, Code vorherzusagen. Die Entwickler:innen haben die CodeGen Modelle dafür mithilfe der Diff-Daten weitertrainiert (Finetuning).

Interessanterweise hat die Auswertung der Entwickler:innen ergeben, dass die originalen CodeGen Modelle besser darin sind, die passenden Korrekturen für Fehler in Python-Code vorherzusagen, als ihre spezialisierten Diff Modelle.

Das heißt, wenn ich das richtig verstanden habe, dass sie im Endeffekt sehr viel Aufwand darin investiert haben, die CodeGen Modelle schlechter zu machen.

(Wenn ich es falsch verstanden habe, schreibt mir gerne eine E-Mail)

Veröffentlichung von CarperAI: https://carper.ai/diff-models-a-new-way-to-edit-code/

Der aktuelle Stand bei Chatbots - ChatGPT, Bing, Bard & Co

Chrome Plugin, mit dem man ChatGPT, Bing Chat und Bard benutzen kann: 📖 github.com
ChatGPT kann jetzt mit Plugins erweitert werden: 📖 openai.com
Die Wikimedia Foundation hat einen Artikel zu den Copyright-Fragen rund um ChatGPT geschrieben (kurz gesagt: es ist unklar): 📖 meta.wikimedia.org
ChatGPT war in Italien wegen Datenschutzverstößen im April gesperrt, ist nach Anpassungen jetzt aber wieder verfügbar: 📖 tagesschau.de
Microsoft integriert Dall-E in Bing: 📖 blogs.microsoft.com
Der Bing-Chatbot antwortet jetzt auch mit Werbung: 📖 twitter.com
Außerdem droht Microsoft anderen Suchmaschinen, die den Bing-Suchindex lizensiert haben, damit, den Zugriff darauf einzuschränken, wenn sie die Bing-Daten für KI-Chatbots verwenden: 📖 bloomberg.com
Google hat einer kleinen Gruppe von Nutzer:innen Zugriff auf den Bard Chatbot gegeben, hier sind ein paar Eindrücke von Journalist:innen:
- Google opens early access to its ChatGPT rival Bard - here are our first impressions 📖 theverge.com
- Google's Bard chatbot doesn't love me - but it's still pretty weird 📖 theverge.com
- AI chatbots compared: Bard vs. Bing vs. ChatGPT 📖 theverge.com
- Google's Bard lags behind GPT-4 and Claude in head-to-head comparison: 📖 techcrunch.com
Hier kann man die Updates bei der Entwicklung von Bard verfolgen: 📖 bard.google.com
Die Bing und Bard Chatbots zitieren sich gegenseitig mit Falschinformationen: 📖 theverge.com
Das ZDF heute journal hat jetzt auch entdeckt, dass es ChatGPT gibt, und ein "Interview" damit geführt. Anschließend hat sich noch der "ZDF KI-Experte" geäußert und dabei auf mich recht kompetent gewirkt, obwohl er so Fragen beantworten musste wie "Das ist ja gerade das Perfide: die künstliche Intelligenz schleimt sich quasi bei uns ein. Ist das am Ende die größte Gefahr von allen?": 📖 youtu.be
Headhunter scheinen den Bing Chatbot zu benutzen, um automatisch E-Mails an potentielle Job-Kandidaten zu schreiben. Jemand hat deshalb eine Anweisung an Bing in sein/ihr LinkedIn Profil geschrieben, das in diesen Mails zuzugeben: 📖 twitter.com
Geoffrey Hinton hat Google verlassen und warnt vor den Folgen des aktuellen Chatbot-Wettlaufs zwischen Microsoft, Google und anderen: 📖 nytimes.com
Zwei der OpenAI-Mitgründer sprechen über ChatGPT und die Zukunft von KI:
- Sam Altman im Podcast von Lex Fridman: 📖 youtube.com (Dauer 2:34 h)
- Greg Brockman in einem TED Talk: 📖 youtube.com (16 min Vortrag + 14 min Interview)
Der chinesische Suchmaschinenkonzern Baidu hat den Chatbot Ernie vorgestellt, der Firmengründer sagt aber selbst, dass sie eigentlich noch nicht soweit sind: 📖 t3n.de

Modelle für 3D-Bilder

Bei 3D-Modellen ist in letzter Zeit so viel passiert, dass ich hier nur eine kurze Übersicht über einige der Veröffentlichungen mit kurzen Stichworten zu den jeweils wichtgsten Punkten gemacht habe.

Zero-1-to-3
- Kann aus einem einzelnen 2D Bild ein neues 2D Bild des selben Objekts aus einem anderen Blickwinkel generieren
- Stable Diffusion Modell, das auf synthetischen Daten weiter trainiert wurde, die Gegenstände aus verschiedenen Blickwinkeln zeigen
- Mit Bildern aus mehreren Blickwinkeln kann eine 3D-Darstellung vorhergesagt werden
- Webseite: 📖 https://zero123.cs.columbia.edu/
- Paper: 📖 https://arxiv.org/abs/2303.11328
Instruct-NeRF2NeRF
- Kann eine 3D-Darstellung nach Text-Anweisungen verändern
1. 3D-Darstellung (NeRF) aus Originalbildern trainieren
2. Ein Bild aus der 3D-Darstellung nehmen, das einem Originalbild entspricht
3. Von einem Diffusion Modell (InstructPix2Pix) das Bild entsprechend der Anweisungen bearbeiten lassen
4. Das NeRF mit diesem neuen Bild weiter trainieren
5. Bis alle Originalbilder ersetzt wurden
- Webseite: 📖 https://instruct-nerf2nerf.github.io/
- Paper: 📖 https://arxiv.org/abs/2303.12789
Text2Room
- Kann 3D-Darstellungen von Räumen nur aus Text erzeugen
- Bild für Bild von einem Modell eine 2D-Abbildung eines kompletten Raums und von einem anderen dazu passende Tiefen-Informationen vorhersagen lassen
- Beides zusammenfügen und optimieren
- Webseite: 📖 https://lukashoel.github.io/text-to-room/
- Paper: 📖 https://arxiv.org/abs/2303.11989
Make-a-Video-3D
- Generiert 3D-Videos aus Text
- Ein Text-zu-Video Diffusion Modell erzeugt ein Video
- Benutzt ein "4D"-NeRF, das aus dem Video zeitlich konsistente 3D-Darstellungen generiert
- Webseite: 📖 https://make-a-video3d.github.io/
- Paper: 📖 https://arxiv.org/abs/2301.11280

Generieren Diffusion Modelle auch Original-Bilder aus den Trainingsdaten?

Große Diffusion Modelle werden oft auf Datensätzen aus Milliarden Bildern trainiert, zum Beispiel LAION-5B. Dazu gehören auch Bilder von Menschen und Bilder, die durch Lizenzbedingungen o.ä. geschützt sind.
Wenn diese später von dem trainierten Modell im Original wiedergegeben werden, könnte das gegen Persönlichkeits- oder Urheberrechte verstoßen. Ob das ein reales Problem ist und wie groß es ist, hat eine Gruppe von Forscher:innen untersucht.

Bei Bildern, die mehrfach in den Trainingsdaten vorkommen, ist die Wahrscheinlichkeit größer, dass das Modell eine Vorhersage macht, bei der es sie 1:1 wie das Originalbild generiert. Deshalb haben die Forscher:innen als erstes mehrfach vorkommende Bilder in den Trainingsdaten gesucht.

Von den 350.000 am häufigsten vorkommenden Bildern in den Trainingsdaten haben sie dann die Beschreibungen genommen und mit jeder Beschreibung 500 Bilder von Stable Diffusion generieren lassen (insgesamt 175 Mio Bilder).

So haben sie bei Stable Diffusion insgesamt 107 generierte Bilder gefunden, die genau dem Original aus den Traininingsdaten entsprechen.
Für das Imagen Modell haben sie die selbe Untersuchung gemacht, aber nur mit den 1.000 häufigsten Bildern in den Trainingsdaten. Davon entsprachen 23 Bilder 1:1 einem Bild aus den Trainingsdaten.

Veröffentlichung der Forscher:innen: https://arxiv.org/abs/2301.13188

Außerdem

Nachdem Die Aktuelle ein angebliches Interview mit Michael Schumacher veröffentlich hat, das tatsächlich KI-generiert war, wurde die Chefredakteurin entlassen: 📖 tagesschau.de
Um die KI-Entwicklung zu beschleunigen legt Google die bisher getrennten Forschungsbereiche Google Brain und Deepmind zu Google Deepmind zusammen: 📖 deepmind.com
Wie KI bei der Suche nach außerirdischen Signalen eingesetzt wird: 📖 blogs.nvidia.com
Aktueller Überblick über die Varianten von Transformer-Modellen: 📖 lilianweng.github.io
FauxPilot - open-source Server, um GitHub Copilot selbst nachzubauen: 📖 github.com
Eine:e Reddit-Nutzer:in hat mit Midjourney Bilder generieren lassen, die zeigen, wie eine Party in Hogwarts ausgesehen hätte: 📖 reddit.com
Mozilla hat ein Tochterunternehmen gegründet, um an "vertrauenswürdiger KI" (trustworthy AI) zu arbeiten: 📖 techcrunch.com
Adobe hat eine Beta-Version von generativen KI-Modellen veröffentlicht, die Künstler unterstützen sollen: 📖 adobe.com
Eine Studie hat gezeigt, dass Menschen KI-generierte Texte nicht erkennen können: 📖 pnas.org
Indien will KI-Technologie nicht regulieren: 📖 techcrunch.com
Die chinesische Cyberspace-Behörde hat einen Entwurf für die Regulierung von KI-Diensten veröffentlicht. Laut Tagesschau gehören zu den vorgeschlagenen Regeln unter anderem, dass die Inhalte "die Grundwerte des Sozialismus widerspiegeln" müssen, sowie Diskriminierung verhindern und wahrheitsgemäß sein sollen: 📖 tagesschau.de

« Vorherige Nächste »