KI News #50

Hallo und herzlich willkommen zur fünfzigsten Ausgabe von KI News. Diesmal geht es um Gedanken lesen und Bildverarbeitung, neue Entwicklungen bei der Steuerung von Robotern, verschiedene neue Ansätze im Zusammenhang mit Trainingsdaten und Verbesserungen bei Transformer-Modellen.

Viel Spaß beim Lesen!

Inhalt

Modelle die "Gedanken lesen" und mit Bildern arbeiten können

ViperGPT kann eine Frage über ein Bild beantworten, indem es Python-Code generiert, der die Frage beantwortet.

Webseite mit Beispielen: 📖 viper.cs.columbia.edu, Veröffentlichung der Forscher:innen: 📖 arxiv.org, Code: 📖 github.com

Einen ähnlichen Ansatz - Code generieren und ausführen, um die Ergebnisse zu verwenden - unterstüzt jetzt auch Google Bard: 📖 blog.google

Damit lassen sich vielleicht in Zukunft irritierende Antworten wie diese vermeiden, wo Bard darauf besteht, dass das Wort "Ketchup" kein "e" enthält: 📖 theverge.com

Es gibt einen neuen Ansatz für ein Modell, das Gedanken lesen kann. Ähnlich wie das MinD-Vis Modell Ende letzten Jahres (KI News #41), kann auch der neue Ansatz aus fMRI-Aufnahmen die Bilder rekonstruieren, die den Proband:innen gezeigt wurden.

Die Forscher:innen lassen dafür von verschiedenen Modellen mehrere Sachen aus den fMRI-Daten vorhersagen: ein (verschwommenes) Bild, eine Bildunterschrift und Tiefeninformationen des Bildes.

Mit diesen Informationen lassen sie dann von Stable Diffusion ein Bild mit besserer Qualität vorhersagen.

Webseite mit Beispielen: 📖 sites.google.com, Veröffentlichung: 📖 biorxiv.org, technische Veröffentlichung: 📖 arxiv.org

Aktuelle Modelle, die Bilder generieren können, können meistens keinen lesbaren Text in diesen Bildern erzeugen. Stattdessen sieht man oft merkwürdige Zeichen, die vage an Buchstaben erinnern.

Um das zu verbessern, haben Forscher:innen von Microsoft und chinesischen Universitäten das TextDiffuser Modell entwickelt. Das liest aus einem eingegebenen Text zuerst aus, welche Wörter in dem späteren Bild gezeigt werden sollen, und erstellt für diese ein Layout.

Dieses Layout wird dann beim Generieren des Bildes benutzt, um die Wörter richtig darzustellen.

Veröffentlichung: 📖 arxiv.org, Code: 📖 github.com

Bildsegmentierung ist die Aufgabe, herauszufinden, welche Pixel eines Bildes zu welchem Objekt gehören, das im Bild zu sehen ist.

Forscher:innen von Meta haben dafür das Segment Anything Modell (SAM) entwickelt. SAM kann mit verschiedenen Eingaben umgehen.

Nutzer:innen können ein Objekt im Bild anklicken, einen Rahmen darum ziehen oder es mit einem Text beschreiben. SAM versucht mit diesen Informationen dann herauszufinden welches Objekt gemeint ist, und welche Pixel dazu gehören.

Webseite mit Beispielen: 📖 segment-anything.com, Blogeintrag: 📖ai.meta.com, Veröffentlichung: 📖 arxiv.org

Drag Your GAN ist ein Modell, das in Zusammenarbeit von deutschen und amerikanischen Forschungseinrichtungen und Google entstanden ist.

Wie der Name andeutet, kann man mithilfe des Modells etwas ziehen (drag). Und zwar Punkte in Bildern!

Was bedeutet das? Wenn man z.B. ein Bild von einem Hund hat, der auf dem Boden liegt, dann kann man ein paar Bildpunkte nach oben ziehen, und das Modell verändert das Bild so, dass der Hund steht. Man kann auch andere Sachen verändern, z.B. Autos im Bild drehen oder Berge größer oder kleiner machen.

GAN steht für "Generative Adversarial Networks" und ist die Methode, mit der die Bilder verändert werden.

Webseite mit Beispielen: 📖 vcai.mpi-inf.mpg.de, Selbst ausprobieren: 📖 huggingface.co Veröffentlichung (PDF): 📖 vcai.mpi-inf.mpg.de, Code: 📖 github.com

Forscher:innen von Meta haben ein Modell namens ImageBind entwickelt, das sechs verschiedene Arten von Daten einander zuordnen kann.

Zum Beispiel kann es zu einem Bild von einem Hund eine Audio-Aufnahme von Hundegebell finden.

Das funktioniert aber nicht nur mit Bildern und Audio, sondern auch mit Texten, Tiefeninformationen, Wärmedaten, und sogar mit den Daten von Beschleunigungssensoren.

Webseite mit Beispielen: 📖 imagebind.metademolab.com, Blogeintrag: 📖 ai.meta.com, Veröffentlichung: 📖 arxiv.org

Neue Entwicklungen beim Steuern von Robotern

Fokus auf die Trainingsdaten

Verbesserungen bei Transformer-Modellen

Eine Beschränkung von Modellen mit Transformer-Architektur (das sind alle aktuellen Sprachmodelle, von GPT-4 über Llama 2 bis PaLM 2) ist, dass sie Texte nur bis zu einer bestimmten Länge verarbeiten können. Deshalb "vergisst" ChatGPT z.B. nach einigen Nachrichten den Beginn der Konversation.

Diese Länge nennt man auch "Kontextlänge", weil alles, was kürzer als diese Länge ist, als Kontext für die nächste Vorhersage benutzt werden kann.

Von GPT-4 zum Beispiel gibt es Versionen mit Kontextlängen von 8.192 bzw. 32.768 Tokens (Teile von Wörtern).

Verschiedene Gruppen von Forscher:innen haben daran gearbeitet die maximale Kontextlänge für Transformer-Modelle zu vergrößern:

Zwei weitere mögliche Verbesserungen der Transformer-Architektur sind

Außerdem

« VorherigeNächste »

Hier abonnieren und keine Ausgabe mehr verpassen: