KI News #42

Hallo und herzlich willkommen zur zweiundvierzigsten Ausgabe von KI News. Diesmal mit Texten, aus denen 3D-Modelle entstehen, einem neuen effizienten Audio-Codec, einem Sprachmodell, das wissenschaftliche Fragen beantworten können soll und noch mehr.

Viel Spaß beim Lesen!

Inhalt

Text-zu-3D-Modelle von Nvidia und Open AI

Nvidias neues Modell heißt Magic3D. Die Forscher:innen verfolgen dabei einen zweistufigen Ansatz: Zuerst lassen sie eine 3D-Darstellung mit geringer Qualität erzeugen und verbessern dann im zweiten Schritt die Auflösung.

Für den ersten Schritt generiert ein Diffusion Modell ein Bild mit geringer Auflösung, das zum Text passt. Ein anderes neuronales Netz erzeugt dann aus diesem Bild die erste 3D-Darstellung.

Im zweiten Schritt erhöht ein weiteres Diffusion Modell (genauer: Stable Diffusion) die Auflösung des Bildes aus Schritt eins. Basierend darauf wird auch die Auflösung der 3D-Darstellung entsprechend erhöht.

Um schneller zu sein als das DreamFusion Modell, das im September veröffentlicht wurde, benutzt Magic3D eine Optimierung für die Umwandlung des Bildes in 3D. Dadurch ist Magic3D ungefähr doppelt so schnell wie DreamFusion (40 min statt 90 min).

Kurz gesagt:

1. Text -> Bild mit geringer Auflösung -> 3D-Darstellung

2. Auflösung des Bildes erhöhen -> Auflösung der 3D-Darstellung erhöhen

Die Forscher:innen von OpenAI nennen ihr Modell Point-E. Sie benutzen ebenfalls einen zweistufigen Prozess, aber geben der Geschwindigkeit noch höhere Priorität gegenüber der Qualität der Ergebnisse.

Auch bei Point-E gibt es im ersten Schritt ein Diffusion Modell (eine Variante des GLIDE Modells), das aus dem Text ein Bild generiert.

Der Unterschied zu Magic3D liegt in dem was darauf folgt. In Schritt zwei erzeugt nämlich ein weiteres Diffusion Modell aus dem Bild eine 3D-Punktewolke mit 1.000 Punkten. Darauf folgt nochmal ein Diffusion Modell, das die Auflösung auf 4.000 Punkte erhöht.

Mit diesem Ansatz schaffen es die Forscher:innen, eine 3D-Darstellung in nur 1-2 Minuten generieren zu lassen, wenn auch mit geringerer Qualität als DreamFusion oder Magic3D.

Kurz gesagt:

1. Text -> Bild

2. Bild -> 3D-Punktewolke mit 1.000 Punkten -> 3D-Punktewolke mit 4.000 Punkten

Audio-Codec basierend auf neuronalen Netzen

Meta hat ein Verfahren namens Encodec entwickelt, das, mithilfe von neuronalen Netzen, Audio-Dateien auf ein Zehntel der Größe von Mp3 komprimieren kann. Eine Datei braucht bei vergleichbarer Qualität nur noch 6 Kilobyte pro Sekunde statt 64 kb bei Mp3.

Um Dateien zu komprimieren benötigt Encodec zwei Teile: ein neuronales Netz mit CNN-Architektur, das die Informationen aus der Original-Datei verarbeitet, sowie einen weiteren Teil, der das Ergebnis davon mithilfe von Vektorquantisierung komprimiert.

Beim Training sind noch weitere Komponenten nötig.

Das sind zum einen ein weiteres CNN, das die komprimierten Daten wieder in eine Audiodatei umwandelt, und zum anderen ein "Diskriminator". Das ist ein neuronales Netz, das lernt, die verarbeitete Datei vom Original zu unterscheiden. Mit diesem Feedback kann das erste CNN lernen, eine Komprimierung zu finden, bei der das Ergebnis dem Original möglichst ähnlich ist.

Da der Diskriminator nicht wissen kann, wie etwas für Menschen klingt, benutzen die Forscher:innen die Spektrogramme der Dateien als Hilfsmittel, um den Klang darzustellen.

Ein Vorteil dieses Ansatzes im Vergleich zu vielen anderen aktuellen ML Modellen ist, dass er relativ ressourceneffizient ist. Man braucht keine Hochleistungs-Grafikkarte um Encodec auszuführen, sondern es funktioniert auf einem einzelnen CPU-Kern.

Kurz gesagt:

Ausführung: Original-Audio -> CNN zur Komprimierung -> Vektorquantisierung -> komprimierte Daten

Training: Original-Audio -> CNN zur Komprimierung -> Vektorquantisierung -> komprimierte Daten -> CNN zur Rückumwandlung in Audio -> Diskriminator vergleicht mit Original und gibt Feedback an das CNN zur Komprimierung

Galactica - Sprachmodelle als Schnittstelle zur Wissenschaft?

Forscher:innen von Meta haben ein Sprachmodell namens Galactica entwickelt, das auf "high-quality" Daten trainiert wurde. Dazu gehören zum Beispiel wissenschaftliche Veröffentlichungen, Lehrbücher, Vorlesungsnotizen und Enzyklopädien.

Interessant bei Galactica ist, dass das Modell auch in einigen Testaufgaben, die nichts mit Wissenschaft zu tun haben, besser war als andere, zum Teil deutlich größere, Sprachmodelle. Das könnte darauf hindeuten, dass die Qualität der Trainingsdaten für Sprachmodelle eine wichtigere Rolle spielt als bisher angenommen.

Für mehr Aufmerksamkeit hat aber etwas anderes gesorgt. Meta hat nämlich nach Protesten die Demo-Version des Modells nach nur drei Tagen wieder von der Webseite genommen.

Der größte Kritikpunkt dabei war, dass Meta den Anschein erweckt hat, als könnte das Modell eine Art Schnittstelle für Wissen sein: Laut der Webseite: "Sie können damit die Literatur erforschen, wissenschaftliche Fragen stellen, wissenschaftlichen Code schreiben und vieles mehr".

Das klingt erstmal gut. Ein Modell, das auf wissenschaftlichen Arbeiten trainiert wurde, gibt auch wissenschaftliche Antworten, oder?

Leider nicht.

Sprachmodelle wie Galactica lernen kein "Wissen", sondern nur die statistischen Eigenschaften von Texten. Daher wirken ihre Ausgaben zwar zum Teil sehr intelligent, sie sind aber einfach nur eine statistisch wahrscheinliche Fortsetzung eines Textes.

Und das ist auch Meta bewusst, denn im Abschnitt "Limitations" schreiben sie unter anderem "Es gibt keine Garantien für wahrheitsgemäße oder zuverlässige Ergebnisse von Sprachmodellen" und "Sprachmodelle sind oft selbstbewusst, aber falsch. Einige der von Galactica generierten Texte können sehr authentisch und selbstbewusst erscheinen, aber in wichtigen Punkten subtil falsch sein".

Oder kurz gesagt: man kann sich nicht darauf verlassen, dass die Antworten stimmen, auch wenn sie richtig wirken.

Das steht natürlich im Konflikt mit dem Anspruch von Meta, dass das Modell als eine Art Schnittstelle zu wissenschaftlichen Erkenntnissen genutzt werden kann.

Und das ist auch vielen Leuten aufgefallen, die das Modell ausprobiert haben.

Dazu gehört unter anderem Michael Black, der Direktor des Max-Planck-Institutes für Intelligente Systeme in Tübingen, der seine Versuche mit Galactica auf Twitter veröffentlich hat und es als "potenziell verzerrend und gefährlich für die Wissenschaft" beschreibt: https://twitter.com/Michael_J_Black/status/1593133722316189696

Zusammengefasst

 
Metas neues Modell für Text, Audio und Bilder: data2vec 2.0
Ungefähr vor einem Jahr, am 20. Januar 2022, wurde die erste Version von data2vec veröffentlicht. Die grundsätzliche Funktionsweise ist auch in Version zwei noch die gleiche wie beim Original: Für jede Art von Daten (Text, Audio, Bilder) wird ein separates Modell trainiert.
Diese Modelle nennen die Forscher:innen "Teacher"-Modelle. Dann trainieren sie das eigentliche data2vec Modell darauf, wenn es eine bestimmte Art von Eingabedaten bekommt, den internen Zustand des entsprechenden Teacher-Modells vorherzusagen.
So kann es alle drei Arten von Daten verarbeiten.
Durch verschiedene Optimierungen in der Art, wie die Daten im Training verarbeitet werden, sowie ein neuronales Netz mit einer anderen Architektur in einem Teil von data2vec 2.0, konnte die Geschwindigkeit im Vergleich zur ersten Version deutlich gesteigert werden.
 
Sprachmodell sagt Proteinstrukturen voraus
Das AlphaFold-Modell von DeepMind (gehört zu Google) hat Ende 2020 mit der genauen Vorhersage von Proteinstrukturen für Aufsehen gesorgt und die Forscher:innen haben inzwischen in einer Datenbank die Strukturen von 200 Millionen Proteinen veröffentlicht.
Jetzt haben Forscher:innen von Meta nachgezogen und ein Modell namens ESMFold entwickelt. Dabei handelt es sich um ein Sprachmodell mit 15 Milliarden Parametern.
Aminosäure-Sequenzen von Proteinen lassen sich auch als Buchstaben darstellen, so dass ein Sprachmodell damit arbeiten kann. Deshalb wurde das Modell mit Daten in dieser Darstellung trainiert.
Die Ergebnisse sind nicht so genau wie die von AlphaFold, aber dafür ist die Vorhersage deutlich schneller (je nach Länge der Proteinsequenz 6x bis 60x schneller).
Mithilfe von ESMFold haben die Forscher:innen 617 Millionen Strukturen von Proteinen vorhergesagt, davon werden 225 Millionen als hohe Qualität eingeschätzt.
 
Bessere Vorschläge für Programmierer durch KI
Integrated Development Environments (IDEs) sind die Programme, mit denen Programmierer:innen programmieren. Viele IDEs analysieren dabei den Code, der gerade bearbeitet wird, um Tipps und Hinweise zu geben.
Forscher:innen von Microsoft, Uber, Apple und der Universität von Wisconsin-Madison haben ein Modell namens Overwatch entwickelt, das diese Vorschläge verbessern soll. Dafür bezieht Overwatch nicht nur den aktuellen Code mit ein, an dem jemand arbeitet, sondern auch die zuletzt gemachten Änderungen. Damit versucht es die Änderungen vorherzusagen, die wahrscheinlich als nächstes gemacht werden, um dafür Hilfe anzubieten.

Außerdem

« VorherigeNächste »

Hier abonnieren und keine Ausgabe mehr verpassen: