KI News #23

Hallo und herzlich willkommen zur dreiundzwanzigsten Ausgabe von KI News. Heute geht es um ein Frühwarnsystem für Virusvarianten von Biontech, wie Nvidia 3D-Modelle aus Fotos erstellt und wie man mit den (Daten-)Nachbarn Sprachmodelle verbessern kann. Außerdem bessere Bildqualität in Spielen und ein neuer Lieferroboter.

Viel Spaß beim Lesen!

3D-Modelle aus Fotos erstellen

Forscher:innen von Nvidia haben eine Methode entwickelt, mit der ein neuronales Netz konsistent Bilder von einem Objekt aus verschiedenen Blickwinkeln und mit verschiedenen Eigenschaften erzeugen kann. Als Eingabe dafür reicht ein einzelnes Bild des Objekts aus.

Dieser Prozess, aus einem 2D-Bild eine 3D-Darstellung zu machen, wird auch „Inverse Graphics“ genannt.

Eine Software, die aus Eingabedaten ein Bild erzeugen kann, nennt man Renderer. Normale Renderer kann man nicht direkt in ein neuronales Netz einbauen, da bei ihnen der Trainingsprozess nicht funktionieren würde. Damit das Training klappt, müssen sie bestimmte mathematische Eigenschaften erfüllen, sie müssen differenzierbar sein.

Mit einem integrierten differenzierbaren Renderer kann ein neuronales Netz dann lernen, direkt Bilder aus 3D-Modell-Daten zu erzeugen.

Die aktuellen Methoden, um 3D-Darstellungen mit neuronalen Netzen zu erzeugen, benötigen noch aufwändig zu sammelnde Referenzdaten, z.B. Bilder des Objekts aus mehreren Blickwinkeln.

Eine aktuelle Architektur von neuronalen Netzen zur Erzeugung von Bildern sind Generative Adversarial Networks (GANs). In Versuchen haben Forscher:innen herausgefunden, dass diese die dreidimensionalen Eigenschaften eines Objekts implizit zu lernen scheinen. So haben sie es z.B. geschafft, durch bestimmte Änderungen den „Blickwinkel“ im erzeugten Bild zu bestimmen. Allerdings sind bei GANs verschiedene Eigenschaften miteinander verwoben, so dass sich dann z.B. auch die Farbe ändert.

Die Forscher:innen von Nvidia haben herausgefunden, wie sie in einem bestimmten GAN (StyleGAN) relativ gut nur den Blickwinkel verändern können. Dadurch können sie ganz einfach neue Bilder von Objekten aus verschiedenen Blickwinkeln erzeugen.

Das haben sie genutzt, und beide Techniken kombiniert: Das GAN erzeugt Bilder aus mehreren Blickwinkeln, mit denen der differenzierbare Renderer dann lernen kann ein 3D-Bild zu berechnen.

Mit diesem 3D-Bild kann wiederum das GAN so verbessert werden, dass intern die verschiedenen Eigenschaften der erzeugten Bilder besser getrennt sind und unabhängig voneinander verändert werden können.

Dadurch konnten sie das GAN darauf trainieren Bilder zu erzeugen, bei denen die Eigenschaften beliebig geändert werden können.

Mit dem so trainierten GAN konnten die Forscher:innen Bilder generieren, bei denen sie den Kamerablickwinkel frei bestimmen, und die Form der dargestellten Autos (die Objekte, mit denen sie den Versuch gemacht haben) ändern konnten.

Probleme gab es noch bei der Beleuchtung, die zwischen den Bildern nicht konsistent blieb, und dem Hintergrund, dessen Aussehen immer noch mit manchen anderen Eigenschaften zusammen hing.

Frühwarnsystem für gefährliche Virusvarianten von Biontech und InstaDeep

Von Anfang Oktober bis Ende November 2021 wurden mehr als 70.000 neue Varianten des Coronavirus entdeckt. Die meisten davon machen das Virus ungefährlicher oder haben keine signifikanten Auswirkungen. Aber wie erkennt man in dieser Masse die gefährlichen?

Biontech und die Londoner KI Firma InstaDeep haben ein System entwickelt, das mithilfe von Deep Learning diese gefährlichen Varianten des Coronavirus frühzeitig erkenennen soll.

Dazu werden zwei Ansätze miteinander kombiniert: Zum einen eine Modellierung des Spike Proteins (wie stark die Bindung an die Zellen und die Erkennung durch Antikörper sind), zum anderen ein neuronales Netz mit Transformer-Architektur, das auf den Gensequenzen der Viren arbeitet.

Daraus werden zwei Werte berechnet: ein "Immune Escape Score", also wie gut das Virus vom Immunsystem erkannt werden kann, und ein "Fitness Score", der das Übertragungspotential des Virus angibt.

Ein Transformer ist eine Architektur, die eigentlich vor allem zur Textverarbeitung und bei Sprachmodellen verwendet wird. Die Forscher:innen machen sich hier zu nutze, dass Gensequenzen auch als Buchstabenfolgen dargestellt werden können, und sich so von Transformern verarbeiten lassen.

Beim Training wird ein zweistufiges Verfahren angewandt. Zuerst wird das Modell auf allgemeinen Sequenzierungsdaten des Coronavirus trainiert (sogenanntes „Pretraining“). Danach wird es nochmal speziell mit den Daten von Spike-Proteinen trainiert („Fine-tuning“).

Dazu werden in einer Sequenz immer einige Aminosäuren „maskiert“ und das Modell lernt, die dadurch entstandene Lücke korrekt zu füllen.

Dieses Modell wird dann dazu benutzt, die Ähnlichkeit zwischen Gensequenzen verschiedener Varianten zu berechnen. Dazu wird die Eigenschaft von Transformern ausgenutzt, dass sie lernen können ähnliche Eingabesequenzen intern ähnlich darzustellen.

Für die untersuchte Sequenz wird dann der Abstand in dieser internen Darstellung zu den Wuhan- und D614G-Varianten berechnet (D614G ist eine Mutation am Spike-Protein, die die Übertragung erhöht und z.B. in den Varianten Alpha, Beta, Gamma, Delta und Omikron vorkommt).

Da das Modell außerdem gelernt hat, welche Sequenzen eine höhere Wahrscheinlichkeit haben vorzukommen und welche seltener sind, kann man hieraus auch die Wahrscheinlichkeit ableiten, mit der eine bestimmte Mutation auftritt.

In Versuchen zwischen September 2020 und November 2021 hat das System 90% der von der WHO mindestens als „Variant under Monitoring“ benannten Varianten erkannt, durchschnittlich 58 Tage vor der Einstufung durch die WHO.

Die Alpha, Beta, Gamma, Theta, Eta und Omikron Varianten wurden in der gleichen Woche, in der zum ersten Mal Sequenzierungsdaten hochgeladen wurden, erkannt, bei Omikron gelang das sogar am gleichen Tag.

RETRO: Mit den (Daten-)Nachbarn Sprachmodelle verbessern

Aktuelle Sprachmodelle sind riesig und haben daher auch eine sehr lange Trainingszeit und einen hohen Energieverbrauch. Zum Beispiel würde es nach Schätzungen 34 Tage dauern, um das bekannte Sprachmodell GPT-3 auf 1024 Grafikkarten parallel zu trainieren.

Daher hatten Forscher:innen die Idee, kleinere Sprachmodelle zu verwenden und ihre Vorhersagen mit zusätzlichen Daten verbessern. Da mehr Daten im Training auch wieder eine längere Trainingszeit, hohen Energieaufwand etc. bedeuten, kommen die zusätzlichen Daten in diesem Ansatz erst bei der Vorhersage zum Einsatz.

Wie funktioniert das? Aus einer sehr großen Datenbank voller Texte werden die Texte herausgesucht, die dem Eingabetext am ähnlichsten sind (die „Nachbarn“). Um dieses Heraussuchen beim Training schneller zu machen, haben die Forscher:innen von Deepmind, deren Veröffentlichung ich unten verlinkt habe, für jeden Text in den Trainingsdaten schon vorab die Nachbarn berechnet.

Diese Texte aus der Datenbank werden dann vom neuronalen Netz als zusätzliche Information genutzt um vorherzusagen, wie der Eingabetext weitergeht.

Bei dem neuronalen Netz handelt es sich um eine Transformer Architektur, die um die Nachbarn-heraussuchen Funktion und eine Attention-Komponente erweitert wurde, die die Nachbarn in die Vorhersage einfließen lässt.

Deepmind hat eine Text-Datenbank mit 2 Billionen Wörtern benutzt und verschiedene Modell-Größen getestet, von 150 Millionen bis 7 Milliarden Parametern. Sie waren damit die ersten, die den Ansatz in dieser Größenordnung umgesetzt haben. Ihre Variante haben sie RETRO (Retrieval-Enhanced Transformer) genannt.

In Tests haben sie gezeigt, dass das Modell ungefähr so gut ist wie ein zehn mal so großes Modell ohne die RETRO-Erweiterung.

Das Prinzip hat mehrere Vorteile: Einerseits die kleinere Größe und der damit verbundene geringere Trainingsaufwand. Andererseits aber auch, dass man die Vorhersagen, die das Modell macht, auch nach dem Training noch verändern kann, indem man die Texte in der Datenbank oder die Anzahl der betrachteten Nachbarn verändert.

Zusammengefasst

KI für bessere Bildqualität in Spielen

Dynamic Super Resolution (DSR) ist eine Technik um die Bildqualität von Computerspielen zu verbessern. Dafür stellt man die Grafikkarte so ein, dass sie ein höher aufgelöstes Bild erzeugt als der Bildschirm darstellen kann und das deshalb danach wieder heruntergerechnet wird. Das klingt erstmal unintuitiv, führt aber tatsächlich zu einem besseren Bild, gerade bei feinen Details.

Das Problem dabei ist: durch das höher aufgelöste Bild hat man auch eine deutlich höhere Beanspruchung der Grafikkarte. Um zum Beispiel ein 4K-Bild statt einem Full HD-Bild zu erzeugen, muss die Grafikkarte vier mal so viele Pixel berechnen.

Nvidia hat dafür eine Lösung gefunden und stellt sie mit dem neuen Treiber zur Verfügung: Deep Learning DSR. Dabei wird ein neuronales Netz zur Bildverbesserung eingesetzt, das mit weniger Eingabepixeln ein genauso gutes Bild erzeugen kann. Im Beispiel von Nvidia wird nur das 2,25-fache statt dem vierfachen der Zielauflösung benötigt.

Dadurch ist die Grafikkarte weniger beansprucht, wodurch wiederum die Bildwiederholrate höher sein kann (Im Beispiel 143 Bilder pro Sekunde (FPS) mit DLDSR statt 108 FPS mit normalem DSR).

Neuer Lieferroboter von Nuro

Das Liefer-Startup Nuro hat in einem Blogeintrag die dritte Generation ihres autonomen Transporters vorgestellt. Dieser ist als komplett autonomes Fahrzeug konzipiert, und hat daher keine Sitzplätze. Das hat den Vorteil, dass kein Insassenschutz notwendig ist. So hat der Transporter zum Beispiel einen Airbag außen, als Schutz für andere.

Das vollelektrische Auto kann bis zu 70 km/h schnell fahren, ist mit dem Lidar Aufbau auf dem Dach ungefähr so groß wie ein Erwachsener und „20% schmaler als durchschnittliche Autos“ (da es sich dabei wohl um amerikanische Autos handelt, also ungefähr so breit wie ein durchschnittliches Auto in Europa? 😄).

Der Frachtraum ist mit knapp 0,8 m³ relativ klein, kann gut 200 kg Gewicht transportieren und mit Einsätzen sind verschiedene Bereiche unterschiedlich klimatisierbar.

Außerdem

« VorherigeNächste »

Hier abonnieren und keine Ausgabe mehr verpassen: