KI News #32

Hallo und herzlich willkommen zur zweiunddreißigsten Ausgabe von KI News. In den letzten Wochen gab es sehr viele Neuigkeiten von Google. Darunter Gato, ein Modell, das mehrere unterschiedliche Aufgaben übernehmen kann, Sprachmodelle mit "Gedächtnis" und ganze vier Modelle, die auf Bildern und Texten arbeiten.

Außerdem gibt es neue Regeln zum autonomen Fahren in Deutschland, und mehr.

Viel Spaß beim Lesen!

Neues von Computer Vision und Deepfakes

Das Startup Pearl will Zahnärzt:innen mit KI-basierter Software bei der Auswertung von Röntgenbildern helfen und bei der Diagnose unterstützen. Die Software wurde vor kurzem durch die amerikanische Food and Drug Administration zugelassen: 📖 Blogeintrag von Nvidia, 📖 Pressemitteilung von Pearl

Eine Sicherheitsfirma hat getestet, ob sich Online-Identitätsprüfungsdienste durch Deepfakes dazu bringen lassen, eine fremde Identität zu bestätigen. Das Ergebnis: 9 der 10 getesteten sind "extrem anfällig" dafür: 📖 Artikel bei The Verge

Forscher:innen der Aston University haben ein System entwickelt, das die Verkehrssituation an einer Kreuzung erkennen und die Ampeln so schalten kann, dass sich der Rückstau minimiert: 📖 Artikel bei Techxplore, Veröffentlichung der Forscher:innen (PDF)

Ein Artikel darüber, wie sich Abbildungen des Gehirns (z.B. MRT- oder EEG-Bilder) von den Bildern unterscheiden, mit denen üblicherweise Deep Learning Systeme trainiert werden, und was das für die Herangehensweise bedeutet, wenn man mit solchen Daten arbeitet: 📖 Artikel bei The Gradient

DALLE-E 2 ist ein Modell von OpenAI, das aus Beschreibungen Bilder generieren kann. Jemand hat getestet, ob es seinen Freunden auffällt, wenn er zwischen seine Urlaubsbilder ein paar von DALL-E 2 generierte mischt (die meisten haben es nicht gemerkt): 📖 Blogeintrag von Matt Bell

Eine Firma hat Menschen beauftragt Bilder zu malen und DALL-E 2 die gleichen Vorgaben gegeben. Die Bilder im Vergleich kann man hier sehen: 📖 Seite von Surge AI

Neue Google-Modelle kombinieren Texte und Bilder

In den letzten Wochen gab es sehr viele Veröffentlichungen von Google zu Modellen, die entweder aus Texten Bilder machen oder umgekehrt. Daher hier mal ein Überblick:

Imagen ist Googles "Konkurrenzmodell" zu DALL-E, kann also auch zu einem Text passende Bilder generieren. Imagen benutzt ein existierendes Sprachmodell um den Text in eine andere Darstellung umzuwandeln.

Mit dem Text in dieser Darstellung wird dann ein Diffusion Modell darauf trainiert, dazu passende Bilder zu erzeugen. Danach folgen zwei weitere Diffusion Modelle, die jeweils die Auflösung der Bilder erhöhen: 📖 Imagen-Webseite bei Google Research

Das Flamingo Modell der Google-Tochter Deepmind arbeitet ebenfalls auf Texten und Bildern, erzeugt aber eine Beschreibung des Bilds als Ausgabe. Eine Besonderheit dabei ist der Aufbau des Modells: es besteht aus zwei Modellen, eins für Bilder und eins für Texte, die getrennt voneinander trainiert werden. Danach werden sie mithilfe einer Art Adapter miteinander verbunden. Beim Training des kompletten Systems lernt dann nur der Adapter, wie er die Ausgaben der Text- und Bild-Modelle miteinander verbinden muss: 📖 Blogeintrag von Deepmind

Zwei weitere Modelle, die mit Bildern und Texten umgehen können, sind LiT und CoCa.

Das Funktionsprinzip von LiT (Locked-image Tuning) ist, sehr grob betrachtet, ähnlich wie das von Imagen, nur andersherum. Bei LiT wird das Textmodell darauf trainiert, dass sein interner Zustand ähnlich dem des Bildmodells wird, wenn Text und Bild zusammenpassen: 📖 Blogeintrag von Google

CoCa (Contrastive Captioner) ist dagegen ein Modell, bei dem der Bild- und der Text-Teil gleichzeitig lernen, sich aneinander anzupassen. Zusätzlich lernt das komplette Modell beim Training, Beschreibungen der Bilder zu generieren, die Sinn ergeben: 📖 Veröffentlichung der Forscher:innen

Spotlight: Neue KI kann spielen, chatten und Roboter steuern

Neuronale Netze werden meistens nur auf eine spezielle Aufgabe trainiert (zum Beispiel passende Beschreibungen zu Bildern zu generieren). KI-Systeme, die mehrere Sachen können, benutzen dafür üblicherweise jeweils ein spezialisiertes Modell pro Aufgabe.

Deepmind hat jetzt ein Modell trainiert, das viele Dinge gleichzeitig kann; unter anderem Atari spielen, Bildbeschreibungen erzeugen, chatten, und einen Roboterarm steuern.

Dieses Modell, das auf der Transformer-Architektur basiert, haben die Forscher:innen Gato genannt.

Gato wurde auf einer großen Anzahl und Vielfalt von Daten trainiert, Milliarden an Bildern und Texten, Steuerungsaufgaben und Spieledaten.

Da diese Daten sehr unterschiedlich sind, mussten die Forscher:innen sie zuerst in eine einheitliche Form bringen.

Transformer-Modelle können gut mit sequenziellen Daten umgehen, deshalb haben die Forscher:innen die Trainingsdaten in eine sequenzielle Form gebracht. Texte wurden zum Beispiel in Sequenzen von Wortteilen umgewandelt und Bilder in Sequenzen von 16x16 Pixel großen Bereichen aufgeteilt.

Die so entstandenen Sequenzen haben die Forscher:innen noch weiter verarbeitet, und sie in eine Form (sogenannte "Embeddings") gebracht, die es dem Modell möglichst einfach macht, von ihnen zu lernen.

Da Gato bei manchen Aufgaben, z.B. beim Spielen oder Chatten, auf eine Reaktion wiederum reagieren können muss, durchläuft es bei der Datenverarbeitung eine Schleife:

1. Die erste Eingabesequenz besteht aus Informationen darüber, was genau es tun soll (ein sogenannter "Prompt") und einer "Beobachtung", die hinter dem Prompt an die Sequenz angehängt wird.

Wenn es mit eine:r Benutzer:in chatten soll, dann könnte das zum Beispiel die erste Chatnachricht sein.

2. Daraufhin generiert das Modell nacheinander die einzelnen Elemente eines "Action Vectors", der dann je nach Aufgabe interpretiert wird.

Beim Chatbeispiel könnte der Action Vector verschiedene Wörter darstellen, aus denen die Antwort besteht.

3. Die Aktion wird ausgeführt (also im Beispiel die Nachricht abgeschickt), und führt wieder zu einer neuen Beobachtung (also einer neuen Antwort).

Die Aktion und die Beobachtung werden an die Eingabesequenz angehängt, so dass das Modell sie bei der nächsten Aktion berücksichtigen kann, und das Ganze wiederholt sich.

Gato hat 1,2 Milliarden Parameter. Das ist sehr viel, aber verglichen mit den aktuellen Sprachmodellen, mit über 500 Millarden Parametern und nur einer einzigen Aufgabe, recht wenig.

Die Forscher:innen sagen, dass das die maximale Größe ist, mit der das Modell schnell genug reagiert, um einen Roboterarm in Echtzeit steuern zu können.

Ihr Fazit ist, dass sie zeigen konnten, dass Transformer-Modelle geeignet sind, für solche unterschiedlichen Aufgaben benutzt zu werden. Außerdem sehen sie das Potenzial, dass durch zukünftige größere Modelle und weitere Verbesserungen des Ansatzes ein nützliches Modell entstehen könnte.

Artikel von Deepmind: https://www.deepmind.com/publications/a-generalist-agent
Veröffentlichung der Forscher:innen: https://arxiv.org/abs/2205.06175

Neue KI-Features von Google, Uber und Sonos

Googles jährliche Entwicklerkonferenz IO hat vor zwei Wochen stattgefunden. Dort wurden eine ganze Reihe von neuen KI-Features angekündigt: Zum Beispiel kann man in der Videokonferenzlösung Meet in Zukunft das Bild verbessern und die Belichtung anpassen lassen: 📖 Google Blog.

Für die Suche gibt es ein neues Feature namens Scene Exploration. Damit soll man einfach die Handykamera auf etwas richten können, z.B. ein Supermarktregal, die Google App erkennt die Gegenstände und zeigt Informationen darüber an: 📖 Google Blog.

Auch Google Maps bekommt eine neue Funktion, den Immersive Mode. Dafür sollen StreetView- und Satellitenbilder kombiniert werden, um Orte auf Google Maps noch echter aussehen zu lassen. Man soll außerdem die Möglichkeit haben, verschiedene Tageszeiten und Wetterbedingungen einzustellen: 📖 Google Blog.

Der Google Translator kann jetzt 24 zusätzliche Sprachen übersetzen. Das Besondere dabei ist, dass es sich um Sprachen handelt, für die nur relativ wenige Trainingsdaten vorliegen. Daher haben die Entwickler:innen einen Ansatz namens Zero-shot Translation benutzt, bei dem ein Modell lernt, zwei Sprachen ineinander zu übersetzen, ohne eine solche Übersetzung in den Trainingsdaten gehabt zu haben: 📖 Google Blog, 📖 Google AI Blog, 📖 Veröffentlichung der Forscher:innen

Uber Eats, der Lieferdienst von Uber, hat zwei Pilotprogramme für autonome Lieferungen in Los Angeles gestartet: Beim einen werden kleine autonome Fahrzeuge von Serve Robotics Bestellungen über kurze Distanzen transportieren. Dabei handelt es sich um sogenannte Sidewalk Robots, weil sie auf dem Gehweg fahren.

Beim anderen benutzt Uber selbstfahrende Autos von Motional (mit Sicherheitsfahrer), um Bestellungen auszulieferen: 📖 Artikel bei Techcrunch, 📖 Info-Seite von Uber.

Sonos, ein Hersteller von vernetzten Lautsprechern, hat einen eigenen Sprachassistenten zur Steuerung der Lautsprecher angekündigt. Im Unterschied zu anderen Sprachassistenten, wie Alexa oder Google Assistant, soll Sonos Voice Control alle Daten lokal verarbeiten und somit die Privatsphäre der Benutzer schützen: 📖 Ankündigungsvideo auf Youtube

Zusammengefasst

Neue Regeln zum autonomen Fahren

Der Bundesrat hat eine Verordnung zum autonomen Fahren beschlossen, die die existierenden Regeln für selbstfahrende Autos in Deutschland konkretisiert.

So werden zum Beispiel die Anforderungen aufgezählt, die die "Technische Aufsicht" erfüllen muss. Vor ein paar Wochen habe ich noch überlegt, ob die Technische Aufsicht das ist, was allgemein als "Sicherheitsfahrer" bezeichnet wird, obwohl das Gesetz für sie bisher nicht einmal einen Führerschein vorgeschrieben hat. Das ist jetzt klarer geworden: ein Führerschein ist nötig. Dazu kommen noch ein Abschluss in einem von fünf technischen Fächern (u.a. Fahrzeugtechnik und Maschinenbau, Informatik gehört nicht dazu) und weitere Anforderungen.

Laut Bericht der Tagesschau wird es durch die Verordnung jetzt möglich, autonome Busse im Regelbetrieb einzusetzen. Unter anderem der Rhein-Main-Verkehrsverbund will das nutzen und in Zukunft bis zu 25 autonome Busse fahren lassen.

Der Bundesverkehrsminister begründet die Notwendigkeit der Verordnung übrigens damit, dass in Deutschland "unendlich viele Arbeitsplätze" von der Automobilbranche abhängen.

Zusammenfassung bei Bundesrat Kompakt (TOP 33): https://www.bundesrat.de/DE/plenum/bundesrat-kompakt/22/1021/1021-node.html
Links zu den Dokumenten: https://www.bundesrat.de/bv.html?id=0086-22
Artikel der Tagesschau: https://www.tagesschau.de/wirtschaft/autonomes-fahren-busse-101.html

Google gibt Sprachmodellen ein Gedächtnis

Transformer-Modelle haben einen internen Mechanismus, der "Attention" genannt wird. Damit können sie lernen, wie wichtig ein bestimmter Teil der Daten für die Vorhersage ist.

Das Problem dabei ist, dass der Rechenaufwand dafür quadratisch mit der Länge der Eingabedaten wächst. So wird die Menge der Daten, für die die Attention berechnet werden kann, durch die verfügbare Rechenleistung begrenzt.

Die neue Idee der Google-Forscher:innen ist, ein Transformer-Modell mit einem zusätzlichem Speicher auszustatten, in dem Teile der zuletzt gesehenen Daten gespeichert werden.

In einer zusätzlichen Verarbeitungsschicht lädt das Modell dann die Daten aus dem Speicher, die den aktuellen Daten am ähnlichsten sind, und bezieht sie in die Berechnung der Attention mit ein.

Dadurch, dass nur die ähnlichsten Daten zusätzlich betrachtet werden, statt alle, können ältere Informationen genutzt werden, ohne dass der Mehraufwand zu groß wird.

Veröffentlichung der Forscher:innen: https://arxiv.org/abs/2203.08913

Außerdem

Das US-Justizministerium warnt, dass KI-Tools, z.B. im Bewerbungsprozess, Menschen mit Behinderungen diskriminieren könnten: 📖 Pressemitteilung auf justice.gov
ThisAIDoesNotExist.com zeigt Beschreibungen und Codeschnipsel für nicht existierende KI-Projekte: 📖 thisaidoesnotexist.com
Argo AI, ein Unternehmen für autonomes Fahren, testet seine Autos jetzt ohne Sicherheitsfahrer in Miami und Austin: 📖 Artikel bei The Verge
China will angeblich in Tibet einen großen Staudamm bauen, ohne dass Menschen direkt an den Bauarbeiten beteiligt sind:
- Artikel bei der South China Morning Post
- Veröffentlichung der Forscher:innen (ließ sich bei mir nicht öffnen)
Forscher:innen von Microsoft haben ein Text-to-Speech-System entwickelt, von dem sie sagen, dass es eine ähnliche Qualität wie Menschen erreicht: 📖 Demo-Seite
Der Bundesstaat New York verteilt Chatbots an Senioren, damit sie sich nicht so einsam fühlen: 📖 Artikel bei The Verge
Nachdem Pony.ai vor einem halben Jahr schon die Erlaubnis für Tests ihrer selbstfahrenden Autos ohne Sicherheitsfahrer verloren hat, dürfen sie jetzt in Kalifornien auch nicht mehr mit Fahrer:in testen: 📖 Artikel bei Techcrunch

« Vorherige Nächste »