Viel Spaß beim Lesen!
Nvidias neues Modell heißt Magic3D. Die Forscher:innen verfolgen dabei einen zweistufigen Ansatz: Zuerst lassen sie eine 3D-Darstellung mit geringer Qualität erzeugen und verbessern dann im zweiten Schritt die Auflösung.
Für den ersten Schritt generiert ein Diffusion Modell ein Bild mit geringer Auflösung, das zum Text passt. Ein anderes neuronales Netz erzeugt dann aus diesem Bild die erste 3D-Darstellung.
Im zweiten Schritt erhöht ein weiteres Diffusion Modell (genauer: Stable Diffusion) die Auflösung des Bildes aus Schritt eins. Basierend darauf wird auch die Auflösung der 3D-Darstellung entsprechend erhöht.
Um schneller zu sein als das DreamFusion Modell, das im September veröffentlicht wurde, benutzt Magic3D eine Optimierung für die Umwandlung des Bildes in 3D. Dadurch ist Magic3D ungefähr doppelt so schnell wie DreamFusion (40 min statt 90 min).
Kurz gesagt:
1. Text -> Bild mit geringer Auflösung -> 3D-Darstellung
2. Auflösung des Bildes erhöhen -> Auflösung der 3D-Darstellung erhöhen
Die Forscher:innen von OpenAI nennen ihr Modell Point-E. Sie benutzen ebenfalls einen zweistufigen Prozess, aber geben der Geschwindigkeit noch höhere Priorität gegenüber der Qualität der Ergebnisse.
Auch bei Point-E gibt es im ersten Schritt ein Diffusion Modell (eine Variante des GLIDE Modells), das aus dem Text ein Bild generiert.
Der Unterschied zu Magic3D liegt in dem was darauf folgt. In Schritt zwei erzeugt nämlich ein weiteres Diffusion Modell aus dem Bild eine 3D-Punktewolke mit 1.000 Punkten. Darauf folgt nochmal ein Diffusion Modell, das die Auflösung auf 4.000 Punkte erhöht.
Mit diesem Ansatz schaffen es die Forscher:innen, eine 3D-Darstellung in nur 1-2 Minuten generieren zu lassen, wenn auch mit geringerer Qualität als DreamFusion oder Magic3D.
Kurz gesagt:
1. Text -> Bild
2. Bild -> 3D-Punktewolke mit 1.000 Punkten -> 3D-Punktewolke mit 4.000 Punkten
Meta hat ein Verfahren namens Encodec entwickelt, das, mithilfe von neuronalen Netzen, Audio-Dateien auf ein Zehntel der Größe von Mp3 komprimieren kann. Eine Datei braucht bei vergleichbarer Qualität nur noch 6 Kilobyte pro Sekunde statt 64 kb bei Mp3.
Um Dateien zu komprimieren benötigt Encodec zwei Teile: ein neuronales Netz mit CNN-Architektur, das die Informationen aus der Original-Datei verarbeitet, sowie einen weiteren Teil, der das Ergebnis davon mithilfe von Vektorquantisierung komprimiert.
Beim Training sind noch weitere Komponenten nötig.
Das sind zum einen ein weiteres CNN, das die komprimierten Daten wieder in eine Audiodatei umwandelt, und zum anderen ein "Diskriminator". Das ist ein neuronales Netz, das lernt, die verarbeitete Datei vom Original zu unterscheiden. Mit diesem Feedback kann das erste CNN lernen, eine Komprimierung zu finden, bei der das Ergebnis dem Original möglichst ähnlich ist.
Da der Diskriminator nicht wissen kann, wie etwas für Menschen klingt, benutzen die Forscher:innen die Spektrogramme der Dateien als Hilfsmittel, um den Klang darzustellen.
Ein Vorteil dieses Ansatzes im Vergleich zu vielen anderen aktuellen ML Modellen ist, dass er relativ ressourceneffizient ist. Man braucht keine Hochleistungs-Grafikkarte um Encodec auszuführen, sondern es funktioniert auf einem einzelnen CPU-Kern.
Kurz gesagt:
Ausführung: Original-Audio -> CNN zur Komprimierung -> Vektorquantisierung -> komprimierte Daten
Training: Original-Audio -> CNN zur Komprimierung -> Vektorquantisierung -> komprimierte Daten -> CNN zur Rückumwandlung in Audio -> Diskriminator vergleicht mit Original und gibt Feedback an das CNN zur Komprimierung
Forscher:innen von Meta haben ein Sprachmodell namens Galactica entwickelt, das auf "high-quality" Daten trainiert wurde. Dazu gehören zum Beispiel wissenschaftliche Veröffentlichungen, Lehrbücher, Vorlesungsnotizen und Enzyklopädien.
Interessant bei Galactica ist, dass das Modell auch in einigen Testaufgaben, die nichts mit Wissenschaft zu tun haben, besser war als andere, zum Teil deutlich größere, Sprachmodelle. Das könnte darauf hindeuten, dass die Qualität der Trainingsdaten für Sprachmodelle eine wichtigere Rolle spielt als bisher angenommen.
Für mehr Aufmerksamkeit hat aber etwas anderes gesorgt. Meta hat nämlich nach Protesten die Demo-Version des Modells nach nur drei Tagen wieder von der Webseite genommen.
Der größte Kritikpunkt dabei war, dass Meta den Anschein erweckt hat, als könnte das Modell eine Art Schnittstelle für Wissen sein: Laut der Webseite: "Sie können damit die Literatur erforschen, wissenschaftliche Fragen stellen, wissenschaftlichen Code schreiben und vieles mehr".
Das klingt erstmal gut. Ein Modell, das auf wissenschaftlichen Arbeiten trainiert wurde, gibt auch wissenschaftliche Antworten, oder?
Leider nicht.
Sprachmodelle wie Galactica lernen kein "Wissen", sondern nur die statistischen Eigenschaften von Texten. Daher wirken ihre Ausgaben zwar zum Teil sehr intelligent, sie sind aber einfach nur eine statistisch wahrscheinliche Fortsetzung eines Textes.
Und das ist auch Meta bewusst, denn im Abschnitt "Limitations" schreiben sie unter anderem "Es gibt keine Garantien für wahrheitsgemäße oder zuverlässige Ergebnisse von Sprachmodellen" und "Sprachmodelle sind oft selbstbewusst, aber falsch. Einige der von Galactica generierten Texte können sehr authentisch und selbstbewusst erscheinen, aber in wichtigen Punkten subtil falsch sein".
Oder kurz gesagt: man kann sich nicht darauf verlassen, dass die Antworten stimmen, auch wenn sie richtig wirken.
Das steht natürlich im Konflikt mit dem Anspruch von Meta, dass das Modell als eine Art Schnittstelle zu wissenschaftlichen Erkenntnissen genutzt werden kann.
Und das ist auch vielen Leuten aufgefallen, die das Modell ausprobiert haben.
Dazu gehört unter anderem Michael Black, der Direktor des Max-Planck-Institutes für Intelligente Systeme in Tübingen, der seine Versuche mit Galactica auf Twitter veröffentlich hat und es als "potenziell verzerrend und gefährlich für die Wissenschaft" beschreibt: https://twitter.com/Michael_J_Black/status/1593133722316189696