KI News #33

Hallo und herzlich willkommen zur dreiunddreißigsten Ausgabe von KI News. Diese Ausgabe ist ein bisschen länger geworden als üblich, aber das Lesen lohnt sich:

Eine Gruppe von Forscher:innen hat möglicherweise eine verborgene Sprache gefunden, die ein Modell entwickelt hat; eine andere kann Vorhersagen mit einem künstlichen neuronalen Netz machen, ohne dafür einen Computer zu benutzen; es gibt einen neuen Ansatz, um das Training von Transformer-Netzen effizienter zu machen; und Deepmind kann das Verhalten von Fußballspielern vorhersagen, obwohl sie nicht im Kamerabild zu sehen sind.

Außerdem gibt es wieder Neuigkeiten zum autonomen Fahren. Jetzt geht es direkt los mit einem allgemeinen Überblick.

Viel Spaß beim Lesen!

KI News: Überblick

ARD und ZDF bieten seit 1. Juni eine zusätzliche  Tonspur "Klare Sprache" an. Dafür trennt eine, nicht näher benannte, künstliche Intelligenz die Sprache von der restlichen Tonspur und macht sie lauter, so dass sie besser verständlich wird: 📖 Artikel beim MDR

Meta organisiert die KI-Entwicklung neu: statt in einer eigenen Einheit sollen die KI-Entwickler:innen künftig auf die Produkte verteilt und so mehr in die Produktentwicklung eingebunden werden: 📖 Blogeintrag von Meta AI

Außerdem hat Meta für die KI-Entwicklung eine Partnerschaft mit Microsoft Azure geschlossen. Unter anderem geht es dabei um die Benutzung eines Supercomputers mit 5.400 Grafikkarten: 📖 Blogeintrag von Azure

Mozilla hat, als Beitrag zu einem EU-geförderten Projekt, ein Add-on für lokale Übersetzungen im Firefox-Browser veröffentlicht. Lokale Übersetzung bedeutet, es funktioniert, ohne dass der zu übersetzende Text den Computer des Benutzers verlässt: 📖 Blogeintrag von Mozilla, 📖 Link zum Add-on

Apple hat dagegen Probleme mit dem eigenen Übersetzer: scheinbar werden manche harmlose Sätze in Pornotitel übersetzt: 📖 Artikel bei t3n

Außerdem hat Google die Nutzungsbedingungen seiner Entwicklungsplattform "Colab" geändert und das Erstellen von Deepfakes verboten: 📖 Artikel bei Techcrunch, 📖 FAQ von Google Colab

Autonomes Fahren, Juni Update

In San Francisco wollte ein Fahrzeug der Feuerwehr auf dem Weg zu einem Brand ein Müllauto überholen. Auf der Gegenspur war ein selbstfahrendes Auto von Cruise. Wenn selbstfahrende Autos mit einer Situation "überfordert" sind halten sie aus Sicherheitsgründen oft einfach an. So auch in diesem Fall, wodurch die Straße blockiert war und die Feuerwehr warten musste, bis die Müllabfuhr weitergefahren war: 📖 Artikel bei Wired

Trotz dieses Vorfalls hat Cruise eine Genehmigung für den kommerziellen Betrieb eines fahrerlosen Taxidiensts in San Francisco bekommen: 📖 Mitteilung von Cruise

Neben den Ankündigungen, dass Tesla-Mitarbeiter:innen zukünftig "mindestens 40 Stunden pro Woche" an einem Tesla-Standort arbeiten müssen, statt von zuhause, und dass 10% der Stellen abgebaut werden, hat Tesla auch Probleme mit Autos, die plötzlich anhalten.

Einerseits geht es um Teslas, die unerwartet bremsen: die amerikanische Behörde für Verkehrssicherheit hat mehr als 700 Berichte über sogenannte "Phantombremsungen" erhalten und eine Untersuchung gestartet: 📖 (PDF) Dokument der NHTSA.

Andererseits werden wiederum am Straßenrand stehende Einsatzfahrzeuge vom "Autopilot" so oft nicht erkannt, dass die Untersuchung der damit verbundenen Unfälle gerade hochgestuft wurde: 📖 Artikel bei der Tagesschau

Außerdem verschiebt Tesla den "AI Day" auf Ende September, in der Hoffnung, bis dahin einen Prototyp des Roboters fertig zu haben, der auf dem letzten AI Day angekündigt wurde: 📖 Artikel bei t3n, 📖 Artikel bei TheVerge

Nach Uber hat jetzt auch die Fast-Food-Kette Chick-fil-A angekündigt, autonome Fahrzeuge für den Lieferdienst zu testen: 📖 Artikel bei Techcrunch

Die geheime Sprache von DALL-E 2

DALL-E 2 ist ein Modell, das aus Beschreibungen dazu passende Bilder generieren kann.

Vor ein paar Tagen haben zwei Forscher:innen der University of Texas at Austin für Aufsehen gesorgt, als sie eine Untersuchung über das "versteckte Vokabular" von DALL-E 2 veröffentlicht haben.

Wenn Text in den Bildern von DALL-E 2 vorkommt, dann sind es oft keine Wörter, sondern scheinbar zufällige Aneinanderreihungen von Buchstaben. In ihrer Veröffentlichung schreiben die Forscher:innen, dass sie herausgefunden haben, dass diese Buchstabenfolgen für das Modell tatsächlich eine Bedeutung zu haben scheinen.

So soll zum Beispiel "Apoploe vesrreaitais" "Vögel" bedeuten.

Dafür sind sie so vorgegangen:

Zuerst haben sie ein Bild erzeugen lassen, das ein geschriebenes Wort enthält, zum Beispiel mit der Anweisung "Two farmers talking about vegetables, with subtitles"

Dann haben sie die "Wörter", die im so entstandenen Bild zu sehen waren, wieder benutzt, um neue Bilder erzeugen zu lassen, und so ihre Bedeutung zu erfahren.

Durch die Anweisung mit den zwei Bauern haben sie z.B. ein Bild bekommen, das zwei Männer zeigt. Über ihnen steht ein längeres Wort, das vorne und hinten abgeschnitten ist, darunter "Vicootess". Einer der Männer hat eine Sprechblase, in der "Apoploe vesrreaitais" steht.

Die Eingabe "Vicootess" führt zu Bildern von Gerichten mit Gemüse, "Apoploe vesrreaitais" ergibt Bilder von Vögeln.

Daraus schließen die Forscher:innen, dass sie herausgefunden haben, was diese "Wörter" für das Modell bedeuten.

Allerdings schränken sie ihre Entdeckung auch ein. Zum Beispiel schreiben sie, dass "Contarra ccetnxniams luryca tanniounons" nur manchmal "Käfer" bedeutet. Und auch das "Wort" für Vögel führt nicht immer zu Vögeln, sondern auch zu anderen Tieren, scheint dabei aber konsistenter zu sein als das andere.

In ihrer Veröffentlichung und in den Twitter-Threads gibt es einige Beispielbilder und noch weitere Beispiele für gefundene Wörter.

Alles kann eine KI sein: Physikalische Neuronale Netze

Die Idee von physikalischen neuronalen Netzen ist einfach, aber faszinierend: statt die vielen Berechnungen eines neuronalen Netzes explizit von einem Prozessor ausführen zu lassen, kann man die physikalischen Eigenschaften von Materialien ausnutzen, um zu den selben Ergebnissen zu kommen.

Der Vorteil dabei ist, dass dieser Ansatz schneller und energieeffizienter sein könnte als herkömmliche Berechnungen.

Forscher:innen der Cornell University haben gezeigt, dass dieser Ansatz allgemein funktioniert, indem sie ein neuronales Netz zur Erkennung von Zahlen in Fotos mit drei verschiedenen Systemen implementiert haben:

- Mechanisch: Eine Metallplatte wird zum Schwingen gebracht und diese Schwingungen gemessen

- Elektronisch: Ströme werden an einen Transistor angelegt

- Optisch: Mit einem Laser wird eine Frequenzverdopplung durchgeführt

Mit einem Beispiel kann man die Idee dahinter besser verstehen:

Beim optischen System werden die Eingabedaten (das Foto der Zahl) und die trainierbaren Parameter des neuronalen Netzes als Teil eines Laserspektrums kodiert.

Dieses Licht wird dann einer Frequenzverdopplung unterzogen. Diese übernimmt hier die Rolle der Aktivierungsfunktion des neuronalen Netzes.

Das Ergebnis davon wird mit einem Spektrometer gemessen und in mehrere Frequenzbereiche aufgeteilt. Der Bereich mit der höchsten gemessenen Energie wird dann als Vorhersage des neuronalen Netzes betrachtet.

Die Frage dabei ist natürlich: Wie trainiert man eigentlich ein Material (oder einen Laserstrahl)?

Den Forscher:innen ist es gelungen, dafür die Backpropagation zu benutzen, ähnlich wie bei "normalen" neuronalen Netzen.

Das funktioniert so:

Zuerst wird eine Vorhersage gemacht, wie oben beschrieben. Dann wird wie üblich der Fehler berechnet, also wie groß die Abweichung der Vorhersage von den Trainingsdaten ist.

Danach benutzen die Forscher:innen ein simuliertes System, um herauszufinden, wie sie die Parameter anpassen müssen, um den Fehler zu verringern.

Als Letztes aktualisieren sie die Parameter entsprechend und machen mit dem nächsten Trainingsbeispiel genauso weiter.

Die so trainierten physikalischen neuronalen Netze können nach dem Training handgeschriebene Zahlen mit 87% (mechanisch), 93% (elektrisch) bzw. 97% (optisch) Genauigkeit erkennen.

Zusammengefasst

Flash Attention

Transformer Modelle haben sich in den letzten Jahren als eine der einflussreichsten Modell-Architekturen durchgesetztzt.

Der Mechanismus, der das ermöglicht hat, heißt "Attention". Damit kann ein Modell lernen, welche Teile der Eingabe wichtig für eine bestimmte Ausgabe sind.

Das Problem dabei ist, dass der benötigte Rechenaufwand quadratisch mit der Länge der Eingabedaten wächst. Dadurch beschränkt die verfügbare Rechenleistung die Menge an Daten, die ein Transformer-Modell für seine Vorhersagen benutzen kann.

Forscher:innen der Universitäten Stanford und Buffalo haben eine effizientere Art der Attention-Berechnung gefunden. Dadurch konnten sie den Modellen entweder mehr Eingabedaten geben und so deren Leistung verbessern, oder das Training bei gleicher Eingabelänge deutlich beschleunigen (15% schneller bei BERT-large und sogar drei Mal schneller bei GPT-2).

ML hilft Astronomen neue Theorie zu entwickeln

Astronom:innen der University of California, Berkeley und der Ohia State University haben den Mikrolinseneffekt untersucht. Dabei handelt es sich um eine Helligkeitsschwankung, die auftritt, wenn ein Planet oder Stern vor einem anderen Stern vorbeizieht. Dieses Phänomen kann z.B. dazu benutzt werden, um Exoplaneten (Planeten außerhalb unseres Sonnensystems) zu finden.

Die Forscher:innen haben ein ML-Modell entwickelt, das solche Beobachtungen in ihren Daten einem von zwei bekannten Typen zuordnen kann.

Als sie es benutzt haben, haben sie festgestellt, dass einige Beobachtungen nicht eindeutig zugeordnet werden konnten.

Deshalb haben sie eine neue Theorie entwickelt, die sowohl die beiden bekannten Arten von Beobachtungen als auch die anderen erklären kann.


Bewegungen von Fußballspielern außerhalb der Kamera vorhersagen
Forscher:innen von Deepmind haben in Zusammenarbeit mit dem Liverpool FC ein Modell entwickelt, das vorhersagen kann, wie Fußballspieler sich verhalten, obwohl sie sich nicht im Blickfeld der Kamera befinden.
Dazu benutzen sie eine Mischung aus LSTMs, die zeitliche Daten verarbeiten können, und Graph Networks, die die Abhängigkeiten zwischen den Spielern modellieren können.
Das Modell wurde mit den Daten von 105 echten Fußballspielen trainiert. Dabei hat es gelernt, quasi die Lücken in den Kamerabildern zu füllen und vorherzusagen, wie sich ein Spieler verhalten hat, während er nicht zu sehen war, unter Berücksichtigung seines Verhaltens davor und danach.
Dieser Ansatz könnte z.B. auch für Vorhersagen des Verhaltens von Fußgängern durch selbstfahrende Autos benutzt werden.

Außerdem

« VorherigeNächste »

Hier abonnieren und keine Ausgabe mehr verpassen: