KI News #19

Hallo und herzlich willkommen zur neunzehnten Ausgabe von KI News. In dieser Ausgabe mit gleich drei neuen ML Modellen: Eins kann Sprachen direkt ineinander übersetzen, eins kann den Inhalt von Bildern beschreiben und das dritte löst Textaufgaben. Dazu noch der Versuch mit Pottwalen zu sprechen, putzende Roboter und einiges mehr!

Viel Spaß beim Lesen!

100 Sprachen direkt ineinander übersetzen

Die meisten Trainingsdaten für neuronale Netze sind in englischer Sprache verfügbar. Deshalb werden auch die meisten Übersetzungsmodelle darauf trainiert, von und nach Englisch zu übersetzen, aber nicht direkt zwischen anderen Sprachen.

Forscher:innen von Facebook haben ein Modell entwickelt, das 100 Sprachen direkt ineinander übersetzen kann, ohne den Umweg über Englisch zu gehen.

Als erstes haben sie, aufgrund der oben erwähnten, mangelnden Daten, dafür Trainingsdaten gesammelt: insgesamt 7,5 Milliarden Sätze in den verschiedenen Sprachen.

Eine weitere Herausforderung war, eine Trainingsstrategie zu finden, mit der das Modell trotz der 9.900 Sprachkombinationen, „effizient“ trainiert werden kann („effizient“ für die Maßstäbe von Facebook, sie schreiben von „hunderten GPUs“).

Damit haben sie bereits beim Sammeln der Trainingsdaten angefangen: sie haben zuerst die Daten nach Ähnlichkeit der Sprachen sowie geografischer und kultureller Nähe in 14 Gruppen aufgeteilt. Für jede Gruppe haben sie dann die gleichen Sätze in allen Sprachen dieser Gruppe gesammelt, so dass sie Trainingsdaten für die Übersetzung aller dieser Sprachen ineinander hatten.

Für jede Gruppe wurden dann „Brückensprachen“ definiert. Für diese haben sie dann wieder Daten gesammelt, die in jeder Brückensprache vorhanden waren.

Zusätzlich haben sie auch noch den „klassischen“ Ansatz benutzt und für jede Sprache auch noch die englische Übersetzung dazu genommen.

Dadurch konnten sie die Anzahl der Sprachkombinationen von 9.900 auf 2.200 reduzieren.

Dazu kamen noch weitere Optimierungen der verwendeten Transformer-Architektur.

In der Auswertung kam das Modell bei Übersetzungen von und nach Englisch auf ähnliche Werte wie das Englisch-zentrische Vergleichsmodell. Bei Übersetzungen zwischen anderen Sprachen war es dagegen deutlich besser.

Neues Modell kann den Inhalt von Bildern verstehen

Forscher:innen von Microsoft haben ebenfalls ein Modell entwickelt, das mit 94 verschiedenen Sprachen funktioniert. Dabei handelt es sich aber nicht um ein Übersetzungsmodell, sondern um ein Modell, das Texte und Bilder einander zuordnen kann.

Auch hier ist es wieder so, dass viele bestehende Modelle Bildern eine englische Beschreibung zuordnen können, aber nicht mit anderen Sprachen funktionieren.

Das neue Modell von Microsoft funktioniert so: Die Trainingsdaten bestehen aus Bildern und den zugehörigen Beschreibungen, vor allem auf Englisch.

Das Modell hat zwei Komponenten, die als sogenannte Encoder arbeiten. Sie lesen die Daten ein und wandeln sie in eine andere Darstellung um. Einer der Encoder verarbeitet die Bilder, ein anderer die Beschreibungen.

Die Encoder werden darauf trainiert, für Bilder und die zugehörigen Beschreibungen die selbe Darstellung zu erzeugen.

Damit das auch in anderen Sprachen funktioniert, wurden die englischen Beschreibungen übersetzt und der Encoder für die Beschreibungen darauf trainiert, für die anderen Sprachen das gleiche Ergebnis zu erzeugen.

Das hat zu interessanten Ergebnissen geführt. Zum Beispiel kann das Modell dazu genutzt werden, zu einem bestimmten Bild ähnliche Bilder zu finden. Bei anderen aktuellen Modellen sind das meistens ähnlich aussehende Bilder, die aber etwas ganz anderes zeigen können. Das neue Modell findet dagegen inhaltlich ähnliche Bilder.

Außerdem scheint es teilweise auch den Inhalt von Texten zu erkennen, zum Beispiel bei Infografiken und Vorlesungsfolien.

Das Modell kann hier mit vorgegebenen Suchbegriffen ausprobiert werden: https://turing.microsoft.com/bletchley

Können wir bald mit Walen sprechen?

2017 startete an der Universität Harvard eine Initiative, die Klicklaute von Pottwalen zu übersetzen. Das Gute ist, dass sich Klicklaute leicht in Einsen und Nullen übersetzen lassen und so einfach von Computern verarbeitet werden können – im Gegensatz zu den Gesängen anderer Walarten.

Das Problem ist, dass es, anders als bei den ägyptischen Hieroglyphen, keinen Rosettastein für Pottwale gibt, auf dem die Wallaute übersetzt sind und den wir als Grundlage für weitere Forschung benutzen können.

Daher wollen die Forscher:innen als erstes ein Sprachmodell für Pottwale bauen. Dieses Modell soll, genauso wie Modelle für menschliche Sprache, voraussagen können, welches Wort in einem Satz wahrscheinlich als nächstes kommt, und so grammatikalisch korrekte Sätze bilden.

Damit wollen die Forscher:innen dann mit den Walen kommunizieren.

Zusätzlich wollen sie die Daten mit weiteren Informationen anreichern: wo die Wale waren, wer mit wem gesprochen hat und was die Reaktion darauf war.

Daraus wollen sie dann Hinweise gewinnen, was der Inhalt der Kommunikation gewesen sein könnte.

Mit genügend dieser Hinweise wird es dann vielleicht möglich die Gespräche der Wale zu übersetzen.

OpenAI löst Mathe-Textaufgaben

Forscher:innen von OpenAI haben ein System darauf trainiert Mathe-Textaufgaben zu lösen. Es ist doppelt so gut wie das reine Sprachmodell GPT-3, allerdings schlechter als eine Vergleichsgruppe von 9-12 Jahre alten Kindern.

Das System besteht aus einem Sprachmodell und einem sogenannten Verifier. Das Sprachmodell bekommt die Textaufgabe als Eingabe und soll 100 passende Antworten schreiben. Der Verifier ist darauf trainiert, die richtigen Antworten zu erkennen. Er bekommt diese Antworten vorgelegt und soll ihnen jeweils die Wahrscheinlichkeit zuordnen, dass es sich um die richtige Antwort handelt.

Nach diesem System haben sie zwei unterschiedlich große Sprachmodelle auf 7.500 Textaufgaben trainiert. Das kleinere Modell hatte 6 Milliarden Parameter, das größere 175 Milliarden Parameter.

Bei beiden haben sich durch den Einsatz des Verifiers die Antworten der Modelle deutlich verbessert. Das kleinere war mit Verifier ungefähr so gut wie das große ohne.

Aber auch das große Modell mit Verifier kam nur auf 55% richtige Antworten, während die Kindergruppe durchschnittlich 60% richtig hatte. Es ist also noch ein weiter Weg, bis Computer uns bei Textaufgaben helfen können.

Zusammengefasst

Image Scaling Attacks

Forscher der TU Braunschweig haben eine Möglichkeit entwickelt, neuronale Netze unbemerkt zu manipulieren. Dabei handelt es sich um eine Methode, die ausnutzt, dass neuronale Netze üblicherweise mit vorverarbeiteten Daten arbeiten. Zum Beispiel werden Bilder oft auf eine kleinere Größe gebracht, damit alle gleich groß sind und um Rechenleistung zu sparen.

Dabei werden bestimmte Pixel im Originalbild ausgewählt, die beibehalten werden, und die anderen Pixel werden verworfen.

Wenn man jetzt genau diese Pixel ersetzt, fällt das im großen Originalbild nicht weiter auf, aber das kleinere Bild, das ins neuronale Netz eingespeist wird, kann ganz anders aussehen.

Beispiele und eine genauere Beschreibung auf https://scaling-attacks.net/

Alphabet lässt Roboter putzen

Eine Gruppe von Forscher:innen bei Alphabet arbeitet an einem Roboter für alltägliche Aufgaben. In einer Art internem Praxistest werden über 100 Prototypen eingesetzt, um in einigen Bürogebäuden eine Reihe von Aufgaben zu übernehmen. Dazu gehört zum Beispiel die Tische in der Kantine abzuwischen und in Meetingräumen zu kontrollieren, ob alle Stühle an ihrem Platz sind.

Die Roboter werden teilweise in simulierten Umgebungen trainiert, um das Lernen zu beschleunigen.

Im Blogpost gibt es auch Beispielvideos der wischenden Roboter, sieht sehr futuristisch aus: https://x.company/blog/posts/everyday-robots

Predictive Policing

Der Guardian hat zwei Artikel über die Versuche der Polizei von Los Angeles veröffentlicht, Kriminalität vorherzusagen:

Im einen geht es um eine Software, die Social Media Profile analysiert und behauptet, damit zukünftige Kriminelle erkennen zu können: https://www.theguardian.com/us-news/2021/nov/17/los-angeles-police-surveillance-social-media-voyager

Im anderen um eine Software, die Polizeiberichte analysiert und damit versucht vorherzusagen, wann und wo etwas passieren wird: https://www.theguardian.com/us-news/2021/nov/07/lapd-predictive-policing-surveillance-reform

Beides beinhaltet große ethische Probleme und ist gleichzeitig offensichtlich nicht zuverlässig möglich.

Außerdem

« VorherigeNächste »

Hier abonnieren und keine Ausgabe mehr verpassen: