KI News #41

Hallo und herzlich willkommen zur einundvierzigsten Ausgabe von KI News. Zum Jahresende mit einer gedankenlesenden KI, natürlich ChatGPT, einem Update zum autonomen Fahren und mehr.

Viel Spaß beim Lesen und einen guten Rutsch!

Inhalt

KI lernt Gedanken lesen
Disney-KI verändert Alter von Schauspieler:innen
ChatGPT
Autonomes Fahren, Dezember Update
Zusammengefasst
- Nvidia-KI spielt Minecraft
- Diffusion Modell kann Musik generieren
- Übersetzungen auf Skype mit deiner eigenen Deepfake-Stimme
Außerdem

KI lernt Gedanken lesen

Forscher:innen der Universitäten von Singapur, Hongkong und Stanford haben ein Modell namens MinD-Vis entwickelt. Die Abkürzung steht rätselhafterweise für "Sparse Masked Brain Modeling with Double-Conditioned Latent Diffusion Model for Human Vision Decoding".

Aber was das Modell kann ist sehr beeindruckend: Jemandem wird ein Bild gezeigt, während sein Gehirn mit dem fMRT-Verfahren (funktionelle Magnetresonanztomographie) untersucht wird. Dann kann MinD-Vis aus den fMRT-Daten das Bild rekonstruieren, das die Person gerade sieht.

MinD-Vis besteht aus zwei Teilen. Der erste ist ein Transformer Modell, das darauf trainiert wird, Strukturen in den fMRT-Daten zu erkennen. Es wird benutzt, um die fMRT-Daten vorzuverarbeiten.

Die vorverarbeiteten Daten werden an ein Diffusion Modell weitergegeben. Das Diffusion Modell kann damit dann das Originalbild rekonstruieren.

Webseite mit Beispielen: https://mind-vis.github.io/
Veröffentlichung der Forscher:innen: https://arxiv.org/abs/2211.06956

Disney-KI verändert Alter von Schauspieler:innen

Um ein Modell zu trainieren, das das Alter von Menschen in Fotos verändern kann, braucht man als Trainingsdaten viele Bilder von Leuten zu verschiedenen Zeitpunkten in ihrem Leben.

Und da man dafür warten muss, bis die Menschen tatsächlich älter werden, dauert es Jahrzehnte so einen Datensatz zu erstellen.

Um dieses Problem zu umgehen, haben die Forscher:innen von Disney andere, bereits existierende, Lösungen zum künstlichen Ändern des Alters in Fotos benutzt.

Da diese jedoch für echte Fotos nicht gut funktionieren, haben sie erst noch künstliche Bilder von Menschen generiert, und dann deren Alter geändert.

Die Trainingsdaten bestehen also aus künstlichen Fotos von Menschen, deren Alter dann künstlich verändert wurde.

Das neuronale Netz, das die Forscher:innen damit trainiert haben, scheint aber trotzdem auch für echte Bilder gut zu funktionieren.

Das Modell nennen sie FRAN (Face Re-Aging Network). Es funktioniert für Menschen im Alter von 18-85 und kann Gesichter älter und jünger machen.

FRAN benutzt eine U-Net-Architektur für das neuronale Netz. Beim U-Net handelt es sich um eine Variante eines Convolutional Neural Network (CNN). CNNs werden hauptsächlich für die Bildverarbeitung verwendet.

Das U-Net hat die Besonderheit, dass die Eingabe ein Bild ist und die Ausgabe ist auch wieder ein Bild.

In diesem Fall ist die Eingabe das Originalbild eine:r Schauspieler:in und die Ausgabe eine Art Negativ-Bild, das angibt, an welcher Stelle das Originalbild wie geändert werden muss, um ein Bild im Ziel-Alter zu bekommen.

Die Forscher:innen hoffen, dass FRAN den Prozess, Gesichter in Filmen durch Bildbearbeitung jünger oder älter zu machen, deutlich beschleunigen kann.

Video auf Youtube: https://www.youtube.com/watch?v=ZP1ApcdyAjk
Webseite mit Beispielen: https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-effects/
Veröffentlichung der Forscher:innen (PDF): https://studios.disneyresearch.com/app/uploads/2022/10/Production-Ready-Face-Re-Aging-for-Visual-Effects.pdf

ChatGPT

ChatGPT ist ein neues Sprachmodell von OpenAI. Durch die einfache Benutzbarkeit in Form eines Chatbots auf der OpenAI Webseite, haben in den letzten Wochen sehr viele Leute ChatGPT ausprobiert.

Das hatte zwei interessante Effekte - zum einen hat es eine neue Welle an Diskussionen über die Fähigkeiten von aktuellen KI-Systemen angestoßen, zum anderen sind viele auch auf sehr kreative Ideen gekommen, was sie mit ChatGPT machen können: zum Beispiel einem Strafzettel widersprechen, eine Virtuelle Maschine erstellen oder Informatik-Tests lösen.

Technisch gesehen basiert ChatGPT auf einem Modell der GPT 3.5 Reihe.

Mit GPT 3 wird eine Gruppe von Sprachmodellen von OpenAI bezeichnet, die 2020 für ähnlich viele Schlagzeilen sorgte wie jetzt ChatGPT.

GPT 3.5 ist die aktuelle Reihe von Sprachmodellen von OpenAI, quasi eine neuere Variante von GPT 3.

Um das Sprachmodell zu einem guten Chatbot zu machen, haben die Forscher:innen von OpenAI einen dreistufigen Trainingsprozess angewandt:

1. Aus einem Datensatz von Benutzereingaben eine zufällige auswählen und einen Menschen eine mögliche Antwort darauf schreiben lassen. Mit diesen Daten ein GPT 3.5 Modell darauf trainieren, auf Eingaben zu antworten.

2. Zu einer Benutzereingabe mehrere Antworten vom Modell aus Schritt 1 generieren lassen und diese von einem Menschen von gut nach schlecht sortieren lassen. Damit ein zweites Modell darauf trainieren, gute und schlechte Antworten zu unterscheiden.

3. Mithilfe dieses zweiten Modells das erste Modell darauf trainieren, gute Antworten zu geben.

Während der aktuellen, "Research Preview" genannten, Testphase kann man ChatGPT kostenlos auf https://chat.openai.com/ ausprobieren.

Blogeintrag von OpenAI: https://openai.com/blog/chatgpt/

Autonomes Fahren, Dezember Update

"Full Self-Driving" Beta ist jetzt für alle Tesla-Kunden in Nordamerika verfügbar, die es gekauft haben: 📖 Tweet von Elon Musk. Unterdessen stellt Electrek, eine auf Elektroautos spezialisierte Webseite, Vermutungen an, dass das FSD-System heute schneller so sehr überfordert ist, dass der/die Fahrer:in übernehmen muss, als noch vor einem Jahr: 📖 Artikel bei Electrek

Auch Cruise hat Probleme, denn die amerikanische Verkehrssicherheitsbehörde NHTSA hat eine Untersuchung gestartet. Dabei geht es um drei Fälle, in denen Cruise-Autos eine gefährliche Situation erkannt und daraufhin stark gebremst haben. Während das grundsätzlich nach der richtigen Reaktion klingt, war die Gefahr in diesen Fällen dummerweise ein Auto, das sich schnell von hinten genähert hat, so dass es durch das Bremsmanöver zu einem Unfall kam.

Weiterer Teil der Untersuchung sind auch mehrere Fälle, in denen die Autos stehen geblieben sind und so eine potentielle Gefahr für andere Verkehrsteilnehmer darstellten: 📖 Zusammenfassung der NHTSA (PDF), 📖 Artikel bei Techcrunch

Von Waymo gibt es zwei bessere Neuigkeiten. Zum einen bieten sie seit November auch Fahrten zum Flughafen von Phoenix an, bisher allerdings nur auf eine kleine Anzahl von Kunden beschränkt: 📖 Blogeintrag von Waymo

Zum anderen hat Waymo einen neuen Prototypen für ein zukünftiges autonomes Auto vorgestellt, der zusammen mit dem chinesischen Autokonzern Geely entwickelt wurde. Eine Besonderheit: das Auto soll kein Lenkrad mehr haben: 📖 Artikel bei The Verge

Auch Uber bietet in Las Vegas jetzt die Möglichkeit an, von einem selbstfahrenden Auto ans Ziel gebracht zu werden, und das vorerst sogar kostenlos. Dafür greift Uber (wie schon der Konkurrent Lyft) auf Autos von Motional zurück, einem Joint Venture von Hyundai und dem Zulieferer Aptiv: 📖 Artikel bei The Verge

Bei ArgoAI geht die Auflösung des Unternehmens weiter, Berichten zufolge suchen Ford und VW (die Hauptinvestoren) gerade einen Käufer für den Lidar-Bereich. Außerdem soll der ArgoAI-Standort in München von VW übernommen werden: 📖 Artikel bei Techcrunch

Zusammengefasst

Nvidia-KI spielt Minecraft

Neben OpenAI (mein Bericht dazu) hat auch Nvidia eine KI entwickelt, die Minecraft spielen kann.
Das Modell, genannt MineDojo, kann schriftliche Anweisungen in Minecraft ausführen, zum Beispiel "Bau Zäune um die Lamas".
Für das Training haben die Forscher:innen 730.000 Minecraft-Youtube-Videos, 6.700 Seiten des Minecraft-Wiki und 340.000 Posts auf Reddit verwendet.
Mit diesen Daten haben die Forscher:innen zuerst einem Modell namens MineCLIP beigebracht, wie es aussieht, wenn ein:e Spieler:in in Minecraft eine bestimmte Tätigkeit ausführt. Beim Training von MineDojo hat dann MineCLIP quasi "zugeschaut" und Feedback gegeben, ob es richtig aussieht was MineDojo tut.

Artikel bei Ars Technica: https://arstechnica.com/information-technology/2022/11/nvidia-wins-award-for-ai-that-can-play-minecraft-on-command/
Webseite zum Modell: https://minedojo.org/
Veröffentlichung der Forscher:innen: https://arxiv.org/abs/2206.08853

Diffusion Modell kann Musik generieren
Riffusion ist ein Diffusion Modell, das eine Beschreibung wie "funk bassline with a jazzy saxophone solo" in entsprechende Musik umwandeln kann.
Riffusion basiert auf dem Stable Diffusion Modell, das so weitertrainiert ("fine-tuned") wurde, dass es Spektrogramme von Musik generieren kann.
Da ein Spektrogramm eine andere Darstellung von Tönen ist, lassen sich die Spektrogramme dann in Audio-Dateien umwandeln.

Ausprobieren: https://www.riffusion.com/
Beschreibung der Funktionsweise mit Beispielen: https://www.riffusion.com/about

Übersetzungen auf Skype mit deiner eigenen Deepfake-Stimme
Skype hat eine eingebaute Übersetzungsfunktion. Diese erkennt bei einem Gespräch automatisch, welche Sprachen gesprochen werden, übersetzt sie in einander und lässt den übersetzten Text dann von einer Computerstimme sprechen.
Weil das sehr unnatürlich klingt, hat Skype eine neue Funktion bekommen: TruVoice. Dabei wird die Computerstimme an die Original-Stimme angepasst, so dass es so klingt, als würde die Person selbst in der anderen Sprache sprechen.

Blogeintrag von Skype: https://www.skype.com/en/blogs/2022-12-skype-truvoice/
Beispielvideo: https://www.youtube.com/watch?v=qrTZ2IQpwi0

Außerdem

Kickstarter hat sich Gedanken dazu gemacht, welche Art von KI-Projekten zur Bild-Generierung auf der Plattform zugelassen werden sollten. Dem ist unter anderem das Unstable Diffusion Projekt zum Opfer gefallen, dessen Ziel laut Medienberichten KI-generierte pornografische Bilder waren:
- 📖 Post von Kickstarter
- 📖 Unstable Diffusion auf Kickstarter
- 📖 Artikel bei Techcrunch
Petpic.ai bietet an, von einer KI witzige Bilder des eigenen Haustiers generieren zu lassen: 📖 Webseite von Petpic
Bei Which Face is Real? werden zwei Fotos von Gesichtern angezeigt, eins echt, eins KI-generiert, und man kann testen, wie gut man darin ist sie zu unterscheiden: 📖 whichfaceisreal.com
Apple hat die eigene Core ML Programm-Bibliothek um Optimierungen für Stable Diffusion erweitert: 📖 Veröffentlichung von Apple
Smartynames benutzt ein Sprachmodell, um zu einer Beschreibung eines Unternehmens passende Vorschläge für Web-Domains zu machen: 📖 smartynames.com
Der Tweet Generator kann Tweets im gleichen Stil wie einige bekannte Twitter-Nutzer verfassen: 📖 Tweet Generator bei tweethunter.io
Metaphor Search nutzt ein Sprachmodell, um eine Suchmaschine zu ersetzen. Das Modell sagt zu einer Suchanfrage Links vorher, die von einer richtigen Suchmaschine wahrscheinlich als Ergebnisse angezeigt werden: 📖 metaphor.systems

« Vorherige Nächste »