KI News #35

Hallo und herzlich willkommen zur fünfunddreißigsten Ausgabe von KI News. Heute gibt es wieder ein Update zum autonomen Fahren, ein neues Übersetzungsmodell von Meta, gleich zwei neue Modelle zur Objekterkennung, eine KI für das Rennspiel Gran Tourismo und noch mehr.

Viel Spaß beim Lesen!

Autonomes Fahren, Juli Update

Ende Juni sind mehr als zehn selbstfahrende Taxis von Cruise alle an der selben Kreuzung stehen geblieben und haben sie stundenlang blockiert: 📖 Fotos auf Reddit

Kurz danach hat eine anonyme Person, die behauptet Angestellte:r von Cruise zu sein, in einem Brief an die zuständige Behörde Zweifel geäußert, ob die Technik von Cruise schon bereit für den Start des autonomen Taxidiensts ist 📖 Artikel bei Techcrunch

Waymo wird in einem Pilotprojekt mit selbstfahrenden Lastwagen auf bestimmten Strecken Waren für den Onlinehändler Wayfair transportieren. Jeder Lastwagen wird dabei von eine:r Lkw-Fahrer:in und eine:r Softwareingenieur:in überwacht: 📖 Artikel bei The Verge

Das Bundeskartellamt hat die Kooperation von Bosch und VW zum teilautomatisierten Fahren geprüft und wird kein Verfahren einleiten: 📖 Mitteilung des Kartellamts

Tesla entlässt ungefähr 200 Mitarbeiter:innen, die an den Daten für die "Autopilot"-Software gearbeitet haben: 📖 Artikel bei Techcrunch. Außerdem hat der Senior Director of AI, Andrej Karpathy, die Firma verlassen: 📖 Artikel bei Techcrunch, Tweet von Andrej Karpathy

Pony.ai hat ein Joint Venture mit Sany Heavy Truck gegründet, um selbstfahrenden Lastwagen zu entwickeln: 📖 Artikel bei Techcrunch

Neues Modell von Meta kann 200 Sprachen ineinander übersetzen

Meta AI hat ein neues Übersetzungsmodell unter dem Titel No Language Left Behind (NLLB) veröffentlicht. Dabei handelt es sich um eine Weiterentwicklung des M2M-100 Modells, über das ich in KI News #19 berichtet habe, so dass es jetzt 200 Sprachen übersetzen kann, statt 100.

Das NLLB Modell hat 54 Milliarden Parameter, was im Vergleich zu aktuellen Sprachmodellen wie Googles PaLM (540 Milliarden Parameter) relativ wenig ist. Allerdings ist natürlich auch der Einsatzzweck ein etwas anderer, da es um Übersetzungen geht.

Um zu lernen eine Sprache in eine andere zu übersetzen, brauchen die Modelle beim Training üblicherweise den selben Text in beiden Sprachen. Das Problem dabei ist, dass die Anzahl der Sprachpaare quadratisch mit der Anzahl der Sprachen steigt.

Eine andere Möglichkeit ist, Englisch als Zwischenschritt zu benutzen. Dadurch braucht man von beiden Sprachen nur eine Übersetzung nach Englisch, was die Anzahl der Kombinationen drastisch reduziert, aber auch negative Auswirkungen auf die Qualität der Übersetzung haben kann.

Bei NLLB liegt der Fokus besonders darauf, automatische Übersetzungen auch für Sprachen zu ermöglichen, für die es bisher nur sehr wenige Trainingsdaten gibt.

Die Lösung, die die Forscher:innen hier benutzen, um genügend Trainingssätze auch für solche Sprachen zu finden, besteht aus einem zweiten Modell. Dieses kann in Texten in verschiedenen Sprachen erkennen, welche Abschnitte übereinstimmen, und so neue Übersetzungen als Trainingsdaten finden.

Solche Modelle gab es schon vorher, aber die Forscher:innen haben sie so verbessert, dass sie jetzt für alle 200 Sprachen funktionieren.

Zusätzlich haben sie besondere Maßnahmen ergriffen, damit das Training eines einzigen Modells mit so vielen Sprachen überhaupt funktioniert und für die Evaluierung des Modells extra eine neue Datensammlung erstellt, die sie FLORES-200 nennen.

NLLB soll auf Facebook, Instagram und für das Wikipedia Content Translation Tool eingesetzt werden, damit Wikipedia-Artikel besser in Sprachen übersetzt werden können, in denen es bisher kaum Artikel gibt.

Zusätzlich bietet Meta gemeinnützigen Organisationen bis zu 200.000 Dollar an Unterstützung, wenn diese das Modell einsetzen wollen.

Zwei neue YOLO-Modelle zur Objekterkennung

YOLO (You Only Look Once) ist ein Modell zur Objekterkennung auf Bildern, das, in der ursprünglichen Version, im Jahr 2015 veröffentlicht wurde.

Der Name YOLO kommt daher, dass es nur einen Durchlauf braucht, um sowohl die Positionen als auch die Arten von Objekten in einem Bild  zu erkennen; im Gegensatz zu anderen Modellen, die beides getrennt voneinander machen.

Vor kurzem sind kurz nacheinander von zwei Forscher:innen-Teams unabhängig voneinander neue Modelle veröffentlicht worden, die diese Idee weiterentwickeln und daher YOLO Version 6 bzw. 7 genannt wurden.

YOLOv6 wurde von einem Team des chinesischen Unternehmens Meituan entwickelt. Laut den veröffentlichten Messungen kann die neue Version bei gleicher Geschwindigkeit eine höhere Präzision erzielen als die vorherigen Versionen von YOLO.

YOLOv7 stammt von Forscher:innen der Academica Sinica in Taiwan und Alexey Bochkovskiy, der auch schon an früheren Versionen von YOLO mitgearbeitet hat.

Auch diese Version ist bei gleicher Geschwindigkeit besser als die vorherigen Versionen, allerdings fehlt der direkte Vergleich zu v6.

Laut diesem Vergleich bei paperswithcode.com ist YOLOv7 aber deutlich besser als v6.

Zusammengefasst

Respektvolle Gran Tourismo KI von Sony

Sony hat eine KI-Fahrerin für das Rennspiel Gran Tourismo entwickelt, die sie GT Sophy nennen und die schneller ist als die besten menschlichen Fahrer:innen.

GT Sophy basiert auf einem Modell, das mithilfe von Reinforcement Learning gelernt hat, das Auto über die Strecke zu steuern.

Die erste Version konnte zwar schneller fahren als ihre menschlichen Konkurrent:innen, aber war oft zu aggressiv, weshalb sie, durch die daraus folgenden Strafen, das Rennen nicht gewinnen konnte.

Erst nachdem die Forscher:innen GT Sophy auch respektvolles Verhalten gegenüber den anderen Spieler:innen beigebracht hatten, hatten diese keine Chance mehr.


30% von Googles Emotions Daten sind falsch beschriftet
Um ML Modelle trainieren zu können, braucht man für die Trainingsdaten oft eine Beschriftung ("Label"), die dem Modell quasi sagt was es lernen soll.
Die Data-Labeling-Firma Surge AI hat sich die Beschriftungen von Googles GoEmotions Datensatz genauer angeschaut.
Der Datensatz besteht aus 58.000 Kommentaren von Reddit, die einer von 27 Emotionen zugeordnet wurden. Daraus hat Surge AI 1.000 Kommentare zufällig ausgewählt und geprüft, ob die Labels mit den Emotionen richtig sind. 308 der Kommentare waren falsch beschriftet.
Das macht es natürlich unmöglich, darauf ein gut funktionierendes Modell zu trainieren.
Die Fehler bei den Labels führt Surge AI vor allem auf zwei Ursachen zurück: Die Kommentare wurden den Beschrifter:innen ohne weiteren Kontext gezeigt, wodurch ihnen Informationen zur besseren Einordnung fehlten, und die Daten wurden von Inder:innen beschriftet, was zu kulturellen Missverständnissen mit Kommentaren von einer US-amerikanisch geprägten Seite wie Reddit führen kann.

Rennen mit autonomen Drohnen
Die Universität Zürich (UZH) hat KI-gesteuerte Renn-Drohnen entwickelt, die selbstständig den besten Weg über eine Rennstrecke finden und fliegen können. Als Eingabedaten für die Steuerung bekommen die Drohnen nur ein 3D-Modell des Kurses und die Bilder einer Stereokamera an Bord.
Alle Berechnungen erfolgen an Bord der Drohne, ohne externe Verbindungen.
Als Test, wie gut die Technik funktioniert, hat die UZH ein Rennen ihrer Drohnen gegen drei Top-Drohnen-Piloten organisiert. Die KI-Drohnen waren schneller.
Laut Artikel soll eine Veröffentlichung mit technischen Details noch folgen.

Außerdem

« VorherigeNächste »

Hier abonnieren und keine Ausgabe mehr verpassen: