KI News #38

Hallo und herzlich willkommen zur achtunddreißigsten Ausgabe von KI News. Es gibt sehr viel Neues, deshalb habe ich versucht, mich bei den einzelnen Nachrichten kurz zu fassen (und bei den meisten hat es auch geklappt). Die sind: der Tesla AI Day mit dem lange erwarteten Roboter, ein Modell zur Video-Generierung von Meta, ein Sprach-Bild-Modell von Google, ein Update zum autonomen Fahren und noch mehr.

Viel Spaß beim Lesen!

Metas Make-a-Video Modell

Nach dem Make-a-Scene Modell, das Bilder generieren kann, hat Meta jetzt das Make-a-Video Modell vorgestellt. Wie der Name schon sagt, kann das Modell kurze Videos erzeugen.

Um Make-a-Video zu trainieren, haben die Forscher:innen einen zweistufigen Trainingsprozess verwendet:

1. Der erste Schritt benutzt überwachtes Lernen. Damit lernt ein Modell den Zusammenhang zwischen Texten und dazu passenden Bildern herzustellen (Text-to-Image)

2. Im zweiten Schritt wird einem anderen Modell mithilfe von Videos dafür trainiert, zu einem Bild die passenden nächsten Videobilder zu erzeugen (selbstüberwachtes Lernen)

Dadurch kann das Modell Videos zu Texten erzeugen, ohne dass es direkt auf Text-Video-Daten trainiert wird.

Für bessere Auflösung und flüssigere Videos werden außerdem noch Modelle eingesetzt, die die Auflösung verbessern (super-resolution), sowie Modelle, die zusätzliche Zwischenbilder in die Videos einfügen können.

Super-resolution Modelle erhöhen die Auflösung und müssen deshalb die zusätzlichen, neuen Pixel irgendwie füllen. Da diese Informationen nicht im Originalbild vorkommen, müssen die Modelle sie dazu erfinden oder "halluzinieren".

Bei den beiden super-resolution Modellen, die hier verwendet werden, werden diese Halluzinationen unterschiedlich behandelt.

Beim ersten Modell wird versucht sie zu reduzieren, indem auch Informationen aus den davor und danach kommenden Bildern betrachtet werden, die dann für die neuen Pixel verwendet werden können.

Beim zweiten wäre das wegen der höheren Auflösung zu aufwändig, daher wird hier versucht, die Hallzinationen konsistent zu halten, um Flackern zu vermeiden.

Dadurch, dass die einzelnen Teile des Gesamtmodells unabhängig voneinander funktionieren, können sie auch unabhängig voneinander trainiert werden

Als möglicher zukünftiger Entwicklungschritt ist geplant, dass das Modell auch Zusammenhänge zwischen Texten und Phänomenen lernen soll, die sich nur in Videos erkennen lassen (z.B. ob sich etwas von rechts nach links oder von links nach rechts bewegt).

Googles PaLI Model

Forscher:innen von Google haben ein Modell entwickelt, das Aufgaben mit Bildern und Texten in 109 Sprachen lösen kann.

Dazu gehören zum Beispiel Objekterkennung sowie das Beschreiben (Image Captioning) und Klassifizieren (Image Classification) von Bildern.

Sie haben mehrere verschieden große Varianten des Modells trainiert. Die kleinste verfügt über 3 Milliarden Parameter, die größte hat insgesamt 17 Milliarden Parameter, davon 4 Milliarden im Bild-Teil und 13 Milliarden im Text-Teil.

Eigentlich handelt es sich beim PaLI Modell um ein System, das aus 3 "Untermodellen" besteht, die alle auf der Transformer-Architektur basieren: Ein Vision-Transformer, der die Bilddaten vorverarbeitet, ein Transformer-Encoder, der die Textdaten und die vorbereiteten Bilddaten verarbeitet und ein Decoder, der daraus dann die Ausgabetexte erzeugt.

Autonomes Fahren, September Update

Ein selbstfahrender Lastwagen des Unternehmens TuSimple hat einen Unfall gebaut, weil er auf einer Interstate unerwartet nach links in eine Betonbegrenzung abgebogen ist. Dabei hat er nur knapp ein Auto auf der linken Spur verfehlt. TuSimple gibt dem Fahrer die Schuld, weil er das System nicht neu gestartet hätte. Stattdessen sollten sie sich vielleicht lieber fragen, was mit ihrer Software los ist, wenn sie es für das Richtige hält, mit über 100 km/h eine Betonwand zu rammen. 📖 Artikel beim Wall Street Journal

Unterdessen fahren autonome Lkw mit Technologie von Waymo (und einem Sicherheitsfahrer) im Rahmen eines Testprogramms in Texas seit April Bier von Dallas nach Houston (ca. 350km): 📖 Artikel bei Bloomberg

ArgoAI, ein weiteres Unternehmen, das an selbstfahrenden Autos arbeitet, hat ein Gremium von externen Experten ins Leben gerufen. Diese sollen Feedback zu Sicherheitspraktiken und -maßnahmen des Unternehmens geben: 📖 Artikel bei The Verge

Zum Schluss noch eine Meldung, die nicht direkt mit autonomem Fahren zu tun hat: BMW hat angekündigt, dass der in den Autos integrierte Sprachassistent in Zukunft auf der Technologie von Amazons Alexa Custom Assistant basieren soll: 📖 Artikel bei Heise

Tesla AI Day

Im Vorfeld des AI Days mit der größten Spannung erwartet wurde sicherlich der letztes Jahr angekündigte Tesla Bot, ein menschenähnlicher Roboter.

Im Gegensatz zum letzten Jahr war dann auch tatsächlich ein Roboter auf der Bühne zu sehen, der ein paar vorsichtige Schritte machen und ins Publikum winken konnte.

Ich habe unten einen Artikel von The Verge verlinkt, der die Reaktionen von einigen Roboter-Experten zusammenfasst. Kurz gesagt: die gezeigten Fähigkeiten waren nichts besonderes, die Geschwindigkeit, mit der der Roboter so weit entwickelt wurde, dagegen schon.

Außer dem Roboter gab es natürlich auch noch Informationen über die Fahrassistenzsysteme. So haben inzwischen 160.000 Kund:innen in den USA und Kanada die Betaversion des sogenannten Full Self Driving-Systems aktiviert.

Dafür wurden laut Tesla im letzten Jahr mehr als 75.000 Modelle trainiert und 281 Modelle über Softwareupdates ausgeliefert.

Um die Software zu verbessern, wird unter anderem ein Simulator verwendet, der auf der Unreal Engine basiert, einem Framework zur Entwicklung von Computerspielen.

Für das Training der Modelle hat Tesla 30 Petabyte an Daten gesammelt (ein Petabyte sind 1.000 Terabyte).

Zusammengefasst

KI für die Tuberkulose-Diagnose

Tuberkulose ist eine der häufigsten Todesursachen weltweit. Eine der von der WHO empfohlenen Methoden zur Erkennung einer Infektion ist eine Röntgenaufnahme des Brustkorbs.

Forscher:innen von Google Health haben zusammen mit verschiedenen Gesundheitseinrichtungen in Indien, Sambia und Südafrika ein Deep Learning System entwickelt, das diese Röntgenaufnahmen auswerten kann.

Dieses System wurde auf über 160.000 Aufnahmen von mehr als 22.000 Menschen (aus unbekannten Gründen nur 21% davon weiblich) trainiert, und kann eine aktive Lungentuberkulose ähnlich gut erkennen wie die Radiologen, mit denen es verglichen wurde.

 
KI um Wale zu schützen

An der Westküste der USA werden jedes Jahr ungefähr 80 Wale aus bedrohten Arten getötet, die meisten davon durch Kollisionen mit Schiffen.

Das Whale Safe System benutzt Daten von Walbeobachtungen und aus anderen Quellen zusammen mit einem KI-System, das die Rufe von Walen erkennen kann. Damit werden die Gebiete erkannt, in denen sich besonders häufig Wale aufhalten. Dort werden die Schiffe dann gebeten langsamer zu fahren, um Kollisionen zu vermeiden.

Das System wird bereits seit 2020 im Santa-Barbara-Kanal eingesetzt und soll zukünftig auch vor San Francisco benutzt werden.


Amazon entwickelt Roboter-Wachhund mit KI
Amazon will den letztes Jahr vorgestellten Astro-Roboter durch die Verknüpfung mit der Ring-Alarmanlage zu einer Art KI-gesteuertem Wachhund machen. Wenn der Alarm ausgelöst wird, kann der Roboter selbstständig zur entsprechenden Stelle fahren, Bilder und Videos übertragen, und, wenn man für den Alexa Guard Plus Service bezahlt, kann er sogar Hundegebell abspielen.
 
Neue Deepmind-KI erreicht menschliches Können 200x schneller
Eine Agent57 genannte KI war 2020 die erste, die auf 57 Atari-Spielen besser war als die menschliche Vergleichsgruppe. Dafür benötigte sie jedoch sehr viel Spielzeit, die in "Frames" gemessen wurde.
Ein Frame ist eine Aktualisierung des Bildschirminhalts. Bei Kinofilmen werden beispielsweise 24 Bilder pro Sekunde angezeigt; bei modernen Spielen sind es oft deutlich mehr, um Ruckeln bei schnellen Bewegungen zu vermeiden.
Nach insgesamt 78 Milliarden Frames war Agent57 in allen Spielen besser als Menschen. Die neue KI namens MEME (die Abkürzung steht für MEME is an Efficient Memory-based Exploration agent) benötigt dafür jetzt nur noch 390 Millionen Frames.
 
Sichererer neuer Chatbot von Deepmind
Es gibt einige bekannte Probleme, die häufig bei Sprachmodellen auftreten, die für Chatbots verwendet werden: dass die Antworten falsche Informationen enthalten oder gefährliche Ratschläge geben, und dass sie Beleidigungen oder diskriminierende Äußerungen von sich geben.
Um einen Chatbot zu entwickeln, der "sicherer" in Bezug auf diese Probleme ist, setzen Forscher:innen von Deepmind auf Reinforcement Learning.
Damit bringen sie dem Sprachmodell bei, was gewünschte Antworten sind und was nicht. Dafür wird Feedback von Testern dazu, wie gut einzelne Antworten sind, verwendet. Dazu kommt noch die Vorhersage eines zweiten Modells, ob die Antwort wahrscheinlich gegen bestimmte vorgegebene Regeln verstößt.
 
Erster kassenloser Biomarkt in Hamburg
In Hamburg hat das Startup Autonomo vor kurzem seinen ersten kassenlosen Supermarkt unter dem Namen "Hoody" eröffnet. Beim Eintreten muss man sich mit einer App durch's Scannen eines QR-Codes anmelden. Danach wird mit 32 Kameras und Waagen in den Regalen verfolgt, wer was aus den Regalen nimmt, und beim Verlassen automatisch abgerechnet.
In der Anfangsphase sollen aber nur sechs Kunden gleichzeitig im Laden sein, damit die Technik nicht durcheinander kommt.
Einer der Gründer von Autonomo ist der ehemalige Real-Chef Patrick Müller-Sarmiento.

Außerdem

« VorherigeNächste »

Hier abonnieren und keine Ausgabe mehr verpassen: