Außerdem gibt es neue Regeln zum autonomen Fahren in Deutschland, und mehr.
Viel Spaß beim Lesen!
Das Startup Pearl will Zahnärzt:innen mit KI-basierter Software bei der Auswertung von Röntgenbildern helfen und bei der Diagnose unterstützen. Die Software wurde vor kurzem durch die amerikanische Food and Drug Administration zugelassen: 📖 Blogeintrag von Nvidia, 📖 Pressemitteilung von Pearl
Eine Sicherheitsfirma hat getestet, ob sich Online-Identitätsprüfungsdienste durch Deepfakes dazu bringen lassen, eine fremde Identität zu bestätigen. Das Ergebnis: 9 der 10 getesteten sind "extrem anfällig" dafür: 📖 Artikel bei The Verge
Forscher:innen der Aston University haben ein System entwickelt, das die Verkehrssituation an einer Kreuzung erkennen und die Ampeln so schalten kann, dass sich der Rückstau minimiert: 📖 Artikel bei Techxplore, Veröffentlichung der Forscher:innen (PDF)
Ein Artikel darüber, wie sich Abbildungen des Gehirns (z.B. MRT- oder EEG-Bilder) von den Bildern unterscheiden, mit denen üblicherweise Deep Learning Systeme trainiert werden, und was das für die Herangehensweise bedeutet, wenn man mit solchen Daten arbeitet: 📖 Artikel bei The Gradient
DALLE-E 2 ist ein Modell von OpenAI, das aus Beschreibungen Bilder generieren kann. Jemand hat getestet, ob es seinen Freunden auffällt, wenn er zwischen seine Urlaubsbilder ein paar von DALL-E 2 generierte mischt (die meisten haben es nicht gemerkt): 📖 Blogeintrag von Matt Bell
Eine Firma hat Menschen beauftragt Bilder zu malen und DALL-E 2 die gleichen Vorgaben gegeben. Die Bilder im Vergleich kann man hier sehen: 📖 Seite von Surge AI
In den letzten Wochen gab es sehr viele Veröffentlichungen von Google zu Modellen, die entweder aus Texten Bilder machen oder umgekehrt. Daher hier mal ein Überblick:
Imagen ist Googles "Konkurrenzmodell" zu DALL-E, kann also auch zu einem Text passende Bilder generieren. Imagen benutzt ein existierendes Sprachmodell um den Text in eine andere Darstellung umzuwandeln.
Mit dem Text in dieser Darstellung wird dann ein Diffusion Modell darauf trainiert, dazu passende Bilder zu erzeugen. Danach folgen zwei weitere Diffusion Modelle, die jeweils die Auflösung der Bilder erhöhen: 📖 Imagen-Webseite bei Google Research
Das Flamingo Modell der Google-Tochter Deepmind arbeitet ebenfalls auf Texten und Bildern, erzeugt aber eine Beschreibung des Bilds als Ausgabe. Eine Besonderheit dabei ist der Aufbau des Modells: es besteht aus zwei Modellen, eins für Bilder und eins für Texte, die getrennt voneinander trainiert werden. Danach werden sie mithilfe einer Art Adapter miteinander verbunden. Beim Training des kompletten Systems lernt dann nur der Adapter, wie er die Ausgaben der Text- und Bild-Modelle miteinander verbinden muss: 📖 Blogeintrag von Deepmind
Zwei weitere Modelle, die mit Bildern und Texten umgehen können, sind LiT und CoCa.
Das Funktionsprinzip von LiT (Locked-image Tuning) ist, sehr grob betrachtet, ähnlich wie das von Imagen, nur andersherum. Bei LiT wird das Textmodell darauf trainiert, dass sein interner Zustand ähnlich dem des Bildmodells wird, wenn Text und Bild zusammenpassen: 📖 Blogeintrag von Google
CoCa (Contrastive Captioner) ist dagegen ein Modell, bei dem der Bild- und der Text-Teil gleichzeitig lernen, sich aneinander anzupassen. Zusätzlich lernt das komplette Modell beim Training, Beschreibungen der Bilder zu generieren, die Sinn ergeben: 📖 Veröffentlichung der Forscher:innen
Neuronale Netze werden meistens nur auf eine spezielle Aufgabe trainiert (zum Beispiel passende Beschreibungen zu Bildern zu generieren). KI-Systeme, die mehrere Sachen können, benutzen dafür üblicherweise jeweils ein spezialisiertes Modell pro Aufgabe.
Deepmind hat jetzt ein Modell trainiert, das viele Dinge gleichzeitig kann; unter anderem Atari spielen, Bildbeschreibungen erzeugen, chatten, und einen Roboterarm steuern.
Dieses Modell, das auf der Transformer-Architektur basiert, haben die Forscher:innen Gato genannt.
Gato wurde auf einer großen Anzahl und Vielfalt von Daten trainiert, Milliarden an Bildern und Texten, Steuerungsaufgaben und Spieledaten.
Da diese Daten sehr unterschiedlich sind, mussten die Forscher:innen sie zuerst in eine einheitliche Form bringen.
Transformer-Modelle können gut mit sequenziellen Daten umgehen, deshalb haben die Forscher:innen die Trainingsdaten in eine sequenzielle Form gebracht. Texte wurden zum Beispiel in Sequenzen von Wortteilen umgewandelt und Bilder in Sequenzen von 16x16 Pixel großen Bereichen aufgeteilt.
Die so entstandenen Sequenzen haben die Forscher:innen noch weiter verarbeitet, und sie in eine Form (sogenannte "Embeddings") gebracht, die es dem Modell möglichst einfach macht, von ihnen zu lernen.
Da Gato bei manchen Aufgaben, z.B. beim Spielen oder Chatten, auf eine Reaktion wiederum reagieren können muss, durchläuft es bei der Datenverarbeitung eine Schleife:
1. Die erste Eingabesequenz besteht aus Informationen darüber, was genau es tun soll (ein sogenannter "Prompt") und einer "Beobachtung", die hinter dem Prompt an die Sequenz angehängt wird.
Wenn es mit eine:r Benutzer:in chatten soll, dann könnte das zum Beispiel die erste Chatnachricht sein.
2. Daraufhin generiert das Modell nacheinander die einzelnen Elemente eines "Action Vectors", der dann je nach Aufgabe interpretiert wird.
Beim Chatbeispiel könnte der Action Vector verschiedene Wörter darstellen, aus denen die Antwort besteht.
3. Die Aktion wird ausgeführt (also im Beispiel die Nachricht abgeschickt), und führt wieder zu einer neuen Beobachtung (also einer neuen Antwort).
Die Aktion und die Beobachtung werden an die Eingabesequenz angehängt, so dass das Modell sie bei der nächsten Aktion berücksichtigen kann, und das Ganze wiederholt sich.
Gato hat 1,2 Milliarden Parameter. Das ist sehr viel, aber verglichen mit den aktuellen Sprachmodellen, mit über 500 Millarden Parametern und nur einer einzigen Aufgabe, recht wenig.
Die Forscher:innen sagen, dass das die maximale Größe ist, mit der das Modell schnell genug reagiert, um einen Roboterarm in Echtzeit steuern zu können.
Ihr Fazit ist, dass sie zeigen konnten, dass Transformer-Modelle geeignet sind, für solche unterschiedlichen Aufgaben benutzt zu werden. Außerdem sehen sie das Potenzial, dass durch zukünftige größere Modelle und weitere Verbesserungen des Ansatzes ein nützliches Modell entstehen könnte.
Googles jährliche Entwicklerkonferenz IO hat vor zwei Wochen stattgefunden. Dort wurden eine ganze Reihe von neuen KI-Features angekündigt: Zum Beispiel kann man in der Videokonferenzlösung Meet in Zukunft das Bild verbessern und die Belichtung anpassen lassen: 📖 Google Blog.
Für die Suche gibt es ein neues Feature namens Scene Exploration. Damit soll man einfach die Handykamera auf etwas richten können, z.B. ein Supermarktregal, die Google App erkennt die Gegenstände und zeigt Informationen darüber an: 📖 Google Blog.
Auch Google Maps bekommt eine neue Funktion, den Immersive Mode. Dafür sollen StreetView- und Satellitenbilder kombiniert werden, um Orte auf Google Maps noch echter aussehen zu lassen. Man soll außerdem die Möglichkeit haben, verschiedene Tageszeiten und Wetterbedingungen einzustellen: 📖 Google Blog.
Der Google Translator kann jetzt 24 zusätzliche Sprachen übersetzen. Das Besondere dabei ist, dass es sich um Sprachen handelt, für die nur relativ wenige Trainingsdaten vorliegen. Daher haben die Entwickler:innen einen Ansatz namens Zero-shot Translation benutzt, bei dem ein Modell lernt, zwei Sprachen ineinander zu übersetzen, ohne eine solche Übersetzung in den Trainingsdaten gehabt zu haben: 📖 Google Blog, 📖 Google AI Blog, 📖 Veröffentlichung der Forscher:innen
Uber Eats, der Lieferdienst von Uber, hat zwei Pilotprogramme für autonome Lieferungen in Los Angeles gestartet: Beim einen werden kleine autonome Fahrzeuge von Serve Robotics Bestellungen über kurze Distanzen transportieren. Dabei handelt es sich um sogenannte Sidewalk Robots, weil sie auf dem Gehweg fahren.
Beim anderen benutzt Uber selbstfahrende Autos von Motional (mit Sicherheitsfahrer), um Bestellungen auszulieferen: 📖 Artikel bei Techcrunch, 📖 Info-Seite von Uber.
Sonos, ein Hersteller von vernetzten Lautsprechern, hat einen eigenen Sprachassistenten zur Steuerung der Lautsprecher angekündigt. Im Unterschied zu anderen Sprachassistenten, wie Alexa oder Google Assistant, soll Sonos Voice Control alle Daten lokal verarbeiten und somit die Privatsphäre der Benutzer schützen: 📖 Ankündigungsvideo auf Youtube
Der Bundesrat hat eine Verordnung zum autonomen Fahren beschlossen, die die existierenden Regeln für selbstfahrende Autos in Deutschland konkretisiert.
So werden zum Beispiel die Anforderungen aufgezählt, die die "Technische Aufsicht" erfüllen muss. Vor ein paar Wochen habe ich noch überlegt, ob die Technische Aufsicht das ist, was allgemein als "Sicherheitsfahrer" bezeichnet wird, obwohl das Gesetz für sie bisher nicht einmal einen Führerschein vorgeschrieben hat. Das ist jetzt klarer geworden: ein Führerschein ist nötig. Dazu kommen noch ein Abschluss in einem von fünf technischen Fächern (u.a. Fahrzeugtechnik und Maschinenbau, Informatik gehört nicht dazu) und weitere Anforderungen.
Laut Bericht der Tagesschau wird es durch die Verordnung jetzt möglich, autonome Busse im Regelbetrieb einzusetzen. Unter anderem der Rhein-Main-Verkehrsverbund will das nutzen und in Zukunft bis zu 25 autonome Busse fahren lassen.
Der Bundesverkehrsminister begründet die Notwendigkeit der Verordnung übrigens damit, dass in Deutschland "unendlich viele Arbeitsplätze" von der Automobilbranche abhängen.
Google gibt Sprachmodellen ein Gedächtnis
Transformer-Modelle haben einen internen Mechanismus, der "Attention" genannt wird. Damit können sie lernen, wie wichtig ein bestimmter Teil der Daten für die Vorhersage ist.
Das Problem dabei ist, dass der Rechenaufwand dafür quadratisch mit der Länge der Eingabedaten wächst. So wird die Menge der Daten, für die die Attention berechnet werden kann, durch die verfügbare Rechenleistung begrenzt.
Die neue Idee der Google-Forscher:innen ist, ein Transformer-Modell mit einem zusätzlichem Speicher auszustatten, in dem Teile der zuletzt gesehenen Daten gespeichert werden.
In einer zusätzlichen Verarbeitungsschicht lädt das Modell dann die Daten aus dem Speicher, die den aktuellen Daten am ähnlichsten sind, und bezieht sie in die Berechnung der Attention mit ein.
Dadurch, dass nur die ähnlichsten Daten zusätzlich betrachtet werden, statt alle, können ältere Informationen genutzt werden, ohne dass der Mehraufwand zu groß wird.