Viel Spaß beim Lesen und einen guten Rutsch!
Forscher:innen der Universitäten von Singapur, Hongkong und Stanford haben ein Modell namens MinD-Vis entwickelt. Die Abkürzung steht rätselhafterweise für "Sparse Masked Brain Modeling with Double-Conditioned Latent Diffusion Model for Human Vision Decoding".
Aber was das Modell kann ist sehr beeindruckend: Jemandem wird ein Bild gezeigt, während sein Gehirn mit dem fMRT-Verfahren (funktionelle Magnetresonanztomographie) untersucht wird. Dann kann MinD-Vis aus den fMRT-Daten das Bild rekonstruieren, das die Person gerade sieht.
MinD-Vis besteht aus zwei Teilen. Der erste ist ein Transformer Modell, das darauf trainiert wird, Strukturen in den fMRT-Daten zu erkennen. Es wird benutzt, um die fMRT-Daten vorzuverarbeiten.
Die vorverarbeiteten Daten werden an ein Diffusion Modell weitergegeben. Das Diffusion Modell kann damit dann das Originalbild rekonstruieren.
Um ein Modell zu trainieren, das das Alter von Menschen in Fotos verändern kann, braucht man als Trainingsdaten viele Bilder von Leuten zu verschiedenen Zeitpunkten in ihrem Leben.
Und da man dafür warten muss, bis die Menschen tatsächlich älter werden, dauert es Jahrzehnte so einen Datensatz zu erstellen.
Um dieses Problem zu umgehen, haben die Forscher:innen von Disney andere, bereits existierende, Lösungen zum künstlichen Ändern des Alters in Fotos benutzt.
Da diese jedoch für echte Fotos nicht gut funktionieren, haben sie erst noch künstliche Bilder von Menschen generiert, und dann deren Alter geändert.
Die Trainingsdaten bestehen also aus künstlichen Fotos von Menschen, deren Alter dann künstlich verändert wurde.
Das neuronale Netz, das die Forscher:innen damit trainiert haben, scheint aber trotzdem auch für echte Bilder gut zu funktionieren.
Das Modell nennen sie FRAN (Face Re-Aging Network). Es funktioniert für Menschen im Alter von 18-85 und kann Gesichter älter und jünger machen.
FRAN benutzt eine U-Net-Architektur für das neuronale Netz. Beim U-Net handelt es sich um eine Variante eines Convolutional Neural Network (CNN). CNNs werden hauptsächlich für die Bildverarbeitung verwendet.
Das U-Net hat die Besonderheit, dass die Eingabe ein Bild ist und die Ausgabe ist auch wieder ein Bild.
In diesem Fall ist die Eingabe das Originalbild eine:r Schauspieler:in und die Ausgabe eine Art Negativ-Bild, das angibt, an welcher Stelle das Originalbild wie geändert werden muss, um ein Bild im Ziel-Alter zu bekommen.
Die Forscher:innen hoffen, dass FRAN den Prozess, Gesichter in Filmen durch Bildbearbeitung jünger oder älter zu machen, deutlich beschleunigen kann.
ChatGPT ist ein neues Sprachmodell von OpenAI. Durch die einfache Benutzbarkeit in Form eines Chatbots auf der OpenAI Webseite, haben in den letzten Wochen sehr viele Leute ChatGPT ausprobiert.
Das hatte zwei interessante Effekte - zum einen hat es eine neue Welle an Diskussionen über die Fähigkeiten von aktuellen KI-Systemen angestoßen, zum anderen sind viele auch auf sehr kreative Ideen gekommen, was sie mit ChatGPT machen können: zum Beispiel einem Strafzettel widersprechen, eine Virtuelle Maschine erstellen oder Informatik-Tests lösen.
Technisch gesehen basiert ChatGPT auf einem Modell der GPT 3.5 Reihe.
Mit GPT 3 wird eine Gruppe von Sprachmodellen von OpenAI bezeichnet, die 2020 für ähnlich viele Schlagzeilen sorgte wie jetzt ChatGPT.
GPT 3.5 ist die aktuelle Reihe von Sprachmodellen von OpenAI, quasi eine neuere Variante von GPT 3.
Um das Sprachmodell zu einem guten Chatbot zu machen, haben die Forscher:innen von OpenAI einen dreistufigen Trainingsprozess angewandt:
1. Aus einem Datensatz von Benutzereingaben eine zufällige auswählen und einen Menschen eine mögliche Antwort darauf schreiben lassen. Mit diesen Daten ein GPT 3.5 Modell darauf trainieren, auf Eingaben zu antworten.
2. Zu einer Benutzereingabe mehrere Antworten vom Modell aus Schritt 1 generieren lassen und diese von einem Menschen von gut nach schlecht sortieren lassen. Damit ein zweites Modell darauf trainieren, gute und schlechte Antworten zu unterscheiden.
3. Mithilfe dieses zweiten Modells das erste Modell darauf trainieren, gute Antworten zu geben.
Während der aktuellen, "Research Preview" genannten, Testphase kann man ChatGPT kostenlos auf https://chat.openai.com/ ausprobieren.
"Full Self-Driving" Beta ist jetzt für alle Tesla-Kunden in Nordamerika verfügbar, die es gekauft haben: 📖 Tweet von Elon Musk. Unterdessen stellt Electrek, eine auf Elektroautos spezialisierte Webseite, Vermutungen an, dass das FSD-System heute schneller so sehr überfordert ist, dass der/die Fahrer:in übernehmen muss, als noch vor einem Jahr: 📖 Artikel bei Electrek
Auch Cruise hat Probleme, denn die amerikanische Verkehrssicherheitsbehörde NHTSA hat eine Untersuchung gestartet. Dabei geht es um drei Fälle, in denen Cruise-Autos eine gefährliche Situation erkannt und daraufhin stark gebremst haben. Während das grundsätzlich nach der richtigen Reaktion klingt, war die Gefahr in diesen Fällen dummerweise ein Auto, das sich schnell von hinten genähert hat, so dass es durch das Bremsmanöver zu einem Unfall kam.
Weiterer Teil der Untersuchung sind auch mehrere Fälle, in denen die Autos stehen geblieben sind und so eine potentielle Gefahr für andere Verkehrsteilnehmer darstellten: 📖 Zusammenfassung der NHTSA (PDF), 📖 Artikel bei Techcrunch
Von Waymo gibt es zwei bessere Neuigkeiten. Zum einen bieten sie seit November auch Fahrten zum Flughafen von Phoenix an, bisher allerdings nur auf eine kleine Anzahl von Kunden beschränkt: 📖 Blogeintrag von Waymo
Zum anderen hat Waymo einen neuen Prototypen für ein zukünftiges autonomes Auto vorgestellt, der zusammen mit dem chinesischen Autokonzern Geely entwickelt wurde. Eine Besonderheit: das Auto soll kein Lenkrad mehr haben: 📖 Artikel bei The Verge
Auch Uber bietet in Las Vegas jetzt die Möglichkeit an, von einem selbstfahrenden Auto ans Ziel gebracht zu werden, und das vorerst sogar kostenlos. Dafür greift Uber (wie schon der Konkurrent Lyft) auf Autos von Motional zurück, einem Joint Venture von Hyundai und dem Zulieferer Aptiv: 📖 Artikel bei The Verge
Bei ArgoAI geht die Auflösung des Unternehmens weiter, Berichten zufolge suchen Ford und VW (die Hauptinvestoren) gerade einen Käufer für den Lidar-Bereich. Außerdem soll der ArgoAI-Standort in München von VW übernommen werden: 📖 Artikel bei Techcrunch