KI News #50

Hallo und herzlich willkommen zur fünfzigsten Ausgabe von KI News. Diesmal geht es um Gedanken lesen und Bildverarbeitung, neue Entwicklungen bei der Steuerung von Robotern, verschiedene neue Ansätze im Zusammenhang mit Trainingsdaten und Verbesserungen bei Transformer-Modellen.

Viel Spaß beim Lesen!

Inhalt

Modelle die "Gedanken lesen" und mit Bildern arbeiten können
Neue Entwicklungen beim Steuern von Robotern
Fokus auf die Trainingsdaten
Verbesserungen bei Transformer-Modellen
Außerdem

Modelle die "Gedanken lesen" und mit Bildern arbeiten können

ViperGPT kann eine Frage über ein Bild beantworten, indem es Python-Code generiert, der die Frage beantwortet.

Webseite mit Beispielen: 📖 viper.cs.columbia.edu, Veröffentlichung der Forscher:innen: 📖 arxiv.org, Code: 📖 github.com

Einen ähnlichen Ansatz - Code generieren und ausführen, um die Ergebnisse zu verwenden - unterstüzt jetzt auch Google Bard: 📖 blog.google

Damit lassen sich vielleicht in Zukunft irritierende Antworten wie diese vermeiden, wo Bard darauf besteht, dass das Wort "Ketchup" kein "e" enthält: 📖 theverge.com

Es gibt einen neuen Ansatz für ein Modell, das Gedanken lesen kann. Ähnlich wie das MinD-Vis Modell Ende letzten Jahres (KI News #41), kann auch der neue Ansatz aus fMRI-Aufnahmen die Bilder rekonstruieren, die den Proband:innen gezeigt wurden.

Die Forscher:innen lassen dafür von verschiedenen Modellen mehrere Sachen aus den fMRI-Daten vorhersagen: ein (verschwommenes) Bild, eine Bildunterschrift und Tiefeninformationen des Bildes.

Mit diesen Informationen lassen sie dann von Stable Diffusion ein Bild mit besserer Qualität vorhersagen.

Webseite mit Beispielen: 📖 sites.google.com, Veröffentlichung: 📖 biorxiv.org, technische Veröffentlichung: 📖 arxiv.org

Aktuelle Modelle, die Bilder generieren können, können meistens keinen lesbaren Text in diesen Bildern erzeugen. Stattdessen sieht man oft merkwürdige Zeichen, die vage an Buchstaben erinnern.

Um das zu verbessern, haben Forscher:innen von Microsoft und chinesischen Universitäten das TextDiffuser Modell entwickelt. Das liest aus einem eingegebenen Text zuerst aus, welche Wörter in dem späteren Bild gezeigt werden sollen, und erstellt für diese ein Layout.

Dieses Layout wird dann beim Generieren des Bildes benutzt, um die Wörter richtig darzustellen.

Veröffentlichung: 📖 arxiv.org, Code: 📖 github.com

Bildsegmentierung ist die Aufgabe, herauszufinden, welche Pixel eines Bildes zu welchem Objekt gehören, das im Bild zu sehen ist.

Forscher:innen von Meta haben dafür das Segment Anything Modell (SAM) entwickelt. SAM kann mit verschiedenen Eingaben umgehen.

Nutzer:innen können ein Objekt im Bild anklicken, einen Rahmen darum ziehen oder es mit einem Text beschreiben. SAM versucht mit diesen Informationen dann herauszufinden welches Objekt gemeint ist, und welche Pixel dazu gehören.

Webseite mit Beispielen: 📖 segment-anything.com, Blogeintrag: 📖ai.meta.com, Veröffentlichung: 📖 arxiv.org

Drag Your GAN ist ein Modell, das in Zusammenarbeit von deutschen und amerikanischen Forschungseinrichtungen und Google entstanden ist.

Wie der Name andeutet, kann man mithilfe des Modells etwas ziehen (drag). Und zwar Punkte in Bildern!

Was bedeutet das? Wenn man z.B. ein Bild von einem Hund hat, der auf dem Boden liegt, dann kann man ein paar Bildpunkte nach oben ziehen, und das Modell verändert das Bild so, dass der Hund steht. Man kann auch andere Sachen verändern, z.B. Autos im Bild drehen oder Berge größer oder kleiner machen.

GAN steht für "Generative Adversarial Networks" und ist die Methode, mit der die Bilder verändert werden.

Webseite mit Beispielen: 📖 vcai.mpi-inf.mpg.de, Selbst ausprobieren: 📖 huggingface.co Veröffentlichung (PDF): 📖 vcai.mpi-inf.mpg.de, Code: 📖 github.com

Forscher:innen von Meta haben ein Modell namens ImageBind entwickelt, das sechs verschiedene Arten von Daten einander zuordnen kann.

Zum Beispiel kann es zu einem Bild von einem Hund eine Audio-Aufnahme von Hundegebell finden.

Das funktioniert aber nicht nur mit Bildern und Audio, sondern auch mit Texten, Tiefeninformationen, Wärmedaten, und sogar mit den Daten von Beschleunigungssensoren.

Webseite mit Beispielen: 📖 imagebind.metademolab.com, Blogeintrag: 📖 ai.meta.com, Veröffentlichung: 📖 arxiv.org

Neue Entwicklungen beim Steuern von Robotern

Steuerung von Fußball-Robotern mit Reinforcment Learning: 📖 arxiv.org
Das Sprachmodell PaLM-E kann Roboter steuern: 📖 palm-e.github.io
Steuerung von Aufräum-Robotern zum Müllsortieren mit Reinforcement Learning: 📖 rl-at-scale.github.io
Ein Modell kann Roboter-Arme steuern und dann für sich selbst neue Trainingsdaten erzeugen, um besser zu werden: 📖 deepmind.com
Ein autonomer Roboter, der die Eipakete von Insekten erkennen und zerstören kann: 📖 cs.cmu.edu

Fokus auf die Trainingsdaten

"Vergiften" von Trainingsdaten ist das Manipulieren der Daten, um die Vorhersagen eines Modells zu beeinflussen
- Mit $60 lassen sich 0,01% der Daten von zwei großen Bilder-Datensätzen manipulieren: 📖 arxiv.org
- Auch bei einer bestimmten Trainingsart, dem sogenannten "Instruction Tuning", können die Modelle mit relativ wenig Aufwand (100 manipulierteTrainingsbeispiele) beeinflusst werden: 📖 arxiv.org
Das Startup Buildt hat ein kleineres GPT Modell mit den Vorhersagen eines größeren trainiert und damit gute Erfahrungen gemacht: 📖 buildt.ai
Um die Leistung von ML-Modellen zu verbessern, ist es am naheliegendsten, das Modell selbst zu verändern. Stattdessen kann man aber auch die Daten verbessern, mit denen das Modell trainiert wurde. Damit beschäftigt sich Data-Centric AI. Der Data-Centric AI Kurs des MIT ist online kostenlos verfügbar: 📖 dcai.csail.mit.edu
Labels in den Daten geben einem Modell beim Training die erwartete Vorhersage vor. Self-Supervised Learning ist eine Methode, wie ML-Modelle trainiert werden können, wenn die Trainingsdaten keine Labels enthalten. Meta hat dafür das "Self-Supervised Learning Cookbook" veröffentlicht, das beschreibt, wie das funktioniert: Blogeintrag: 📖 ai.meta.com, Kochbuch: 📖 arxiv.org
Wenn die Größe von Sprachmodellen weiter so stark wächst wie in den letzten Jahren, werden bald alle Daten im Internet nicht mehr ausreichen, um sie zu trainieren. Daher haben Forscher:innen untersucht, wie man mit diesem Problem umgehen kann: 📖 arxiv.org

Verbesserungen bei Transformer-Modellen

Eine Beschränkung von Modellen mit Transformer-Architektur (das sind alle aktuellen Sprachmodelle, von GPT-4 über Llama 2 bis PaLM 2) ist, dass sie Texte nur bis zu einer bestimmten Länge verarbeiten können. Deshalb "vergisst" ChatGPT z.B. nach einigen Nachrichten den Beginn der Konversation.

Diese Länge nennt man auch "Kontextlänge", weil alles, was kürzer als diese Länge ist, als Kontext für die nächste Vorhersage benutzt werden kann.

Von GPT-4 zum Beispiel gibt es Versionen mit Kontextlängen von 8.192 bzw. 32.768 Tokens (Teile von Wörtern).

Verschiedene Gruppen von Forscher:innen haben daran gearbeitet die maximale Kontextlänge für Transformer-Modelle zu vergrößern:

Der Chatbot Claude von Anthropic unterstützt jetzt Kontextlängen von 100.000 Tokens: 📖 anthropic.com
In diesem Paper beschreiben Forscher:innen wie sie die Kontextlänge eines Transformer-Modells auf zwei Millionen Tokens erweitern konnten: 📖 arxiv.org
Eine andere Gruppe hat eine neue Variante entwickelt, die mit einer Milliarde Tokens arbeiten kann: 📖 arxiv.org
Und eine weitere Gruppe schreibt sogar "unbegrenzte Länge" (hat aber nur bis 500.000 Tokens getestet): 📖 arxiv.org

Zwei weitere mögliche Verbesserungen der Transformer-Architektur sind

die Erkenntnis, dass bei Modellen mit 175 Milliarden Gewichten bis zu 100 Milliarden davon bei der Vorhersage ignoriert werden können, ohne dass es zu großen Verschlechterungen der Vorhersagen kommt: 📖 arxiv.org
Die Receptance Weighted Key Value (RWKV) Architekur, die Transformer mit der vorher meist verwendeten Architekur für Sprachmodelle, RNNs, verbindet, und so die Vorteile von beiden kombinieren soll: 📖 arxiv.org

Außerdem

Sehr gutes Video (auf Deutsch) über den aktuellen KI Hype: 📖 youtube.com
Eine Webseite, die darüber aufklären will, wie schlecht KI-Detektoren funktionieren: 📖 itwasntai.com
StarCoder, ein neues open source Modell für Programmcode: 📖 arxiv.org, 📖 github.com
ChatML, die Art, wie Eingabedaten für ChatGPT unter der Decke strukturiert werden: 📖 github.com
Der chinesische Suchmaschinenkonzern Baidu hat einen Fonds aufgelegt, der $145 Millionen in Startups für generative KI investieren soll: 📖 reuters.com
Mozilla hat einen KI-Chatbot in die Dokumentation eingebaut, die Nutzer sind nicht besonders glücklich darüber. Ankündigung: 📖 developer.mozilla.org, 📖 Bedenken aus der Community: github.com
Microsoft erklärt den Supercomputer, auf dem ChatGPT läuft: 📖 youtube.com
Nachdem sich McDonald's vor zwei Jahren mit IBM zusammengetan hat, um das Aufnehmen von McDrive-Bestellungen zu automatisieren (KI News #18), hat jetzt Wendy's etwas Ähnliches zusammen mit Google entwickelt: 📖 wsj.com
Die Zeitschrift Nature wird die Verwendung von KI-generierten Bildern und Videos nur bei fachlich darauf bezogenen Artikeln erlauben: 📖 nature.com
Metas erstes Feature mit generativer KI werden Sticker im Facebook Messenger: 📖 theverge.com
Können unentdeckbare Wasserzeichen in KI-generierte Texte eingebaut werden? 📖 eprint.iacr.org
Eine Sammelklage gegen OpenAI behauptet, dass die Firma beim Sammeln von Trainingsdaten auch sensible Daten, wie medizinische Informationen oder Daten über Kinder, gesammelt hat: 📖 businessinsider.com, Klageschrift (PDF): 📖 assets.bwbx.io
Auch drei Autor:innen verklagen OpenAI und Meta, wegen angeblicher Urheberrechtsverletzungen: 📖 edition.cnn.com

« Vorherige Nächste »