KI News #18

Hallo und herzlich willkommen zur achtzehnten Ausgabe von KI News. In dieser Ausgabe geht es unter anderem um die Vorhersage von Formeln, eine neue Trainingsmethode für große Sprachmodelle und die Folgen des Klimawandels.

Viel Spaß beim Lesen!

Vorhersage von Formeln in Google Sheets

Zur Planung meiner Urlaubsreisen benutze ich gerne Google Sheets (das Excel von Google), weil ich darin alle wichtigen Informationen übersichtlich sammeln und sie einfach mit anderen teilen kann. Manchmal verwende ich dabei auch Formeln, zum Beispiel die Summenfunktion, um die Hotelkosten auszurechnen.

Um das noch einfacher zu machen haben Forscher:innen von Google ein Modell entwickelt, das Vorschläge für Formeln macht, wenn man in eine Zelle ‚=‘ schreibt.

Für die Vorschläge benutzt das Modell die Informationen aus den benachbarten Zeilen und Spalten sowie eventuelle Titelzeilen.

Es sagt als erstes die Operatoren voraus, die wahrscheinlich benutzt werden sollen (z.B. SUMME, WENN, …) und danach die Zellen, auf die sie angewandt werden.

Das Modell basiert im Kern auf Googles Sprachmodell BERT, das die Informationen vorverarbeitet. Dessen Ausgabe wird in mehreren Zwischenschritten noch weiter verarbeitet und am Ende von einem LSTM in Text umgewandelt. LSTM steht für Long Short Term Memory und ist eine beliebte Architektur für Modelle, die mit Sprache arbeiten.

Trainiert wurde das Modell auf 46.000 Google Sheets mit Formeln, die von Google Mitarbeiter:innen erstellt oder mit Google geteilt wurden.

Im Test war in 42,5% der Fälle die vorhergesagte Formel die, die der oder die Benutzer:in tatsächlich wollte. Offenbar ist das genug um hilfreich zu sein, denn seit August wird das Modell in Google Sheets eingesetzt.

Neue Methode zum Finetuning von großen Sprachmodellen

Aktuelle Sprachmodelle sind meistens sehr große Modelle, die „vortrainiert“ wurden. Das bedeutet, dass die Modelle bereits darauf trainiert sind Text zu erzeugen, aber noch nicht für eine bestimmte Aufgabe.

Wenn das Modell für eine bestimmte Aufgabe eingesetzt werden soll, muss nochmal ein „Finetuning“ gemacht werden, das Modell also für diese Aufgabe nochmal extra trainiert werden.

Wenn das Modell dann trainiert ist, gibt es mehrere Möglichkeiten, wie man es dazu bringen kann, die Aufgabe zu erfüllen. Eine Möglichkeit ist, einfach auszunutzen, dass das Modell Sprache versteht. Man formuliert eine Antwort vor und lässt sie vom Modell vervollständigen, z.B. „Die Bewertung ‚Das Beste überhaupt!‘ ist ___“, mit der Wahl zwischen positiv und negativ.

Die neue Idee hier ist jetzt, das Modell nicht, wie bei normalem Finetuning, für eine bestimmte Aufgabe zu trainieren, sondern es darauf zu trainieren, diese Art von Anweisungen besser zu verstehen.

Dazu haben die Forscher:innen 62 Text-Datensätze in solche Anweisungen umgewandelt und verschieden große Varianten eines vortrainierten Sprachmodells damit trainiert.

Das scheint gut funktioniert zu haben, denn in der Evaluierung war das größte dieser Modelle in 21 von 25 Aufgaben besser als vorher, in 20 von 25 sogar besser als das noch deutlich größere GPT-3 Modell.

Ein interessanter Aspekt ist, dass es von der Größe des Modells abhängt, ob diese Art von Finetuning funktioniert. Modelle mit bis zu 8 Milliarden Parametern waren danach sogar schlechter als vorher, das Modell mit 68 Milliarden Parametern war deutlich besser als ohne das Training, das größte mit 137 Milliarden sogar noch besser.

So könnten die Folgen des Klimawandels aussehen

Viele Menschen sehen den Klimawandel und seine Auswirkungen als etwas an, das vor allem woanders passiert und von dem sie selbst nicht direkt betroffen sind. Ein Team von Forscher:innen von Universitäten und Instituten in Kanada und New York hat daher ein Modell entwickelt, das uns die möglichen Folgen des Klimawandels wortwörtlich näher bringen soll.

Wenn das Modell ein Bild von einem Ort bekommt, generiert es realistisch aussehende Bilder von einer Überflutung an diesem Ort.

Das funktioniert mit einem zweistufigen Prozess. Im ersten Schritt sagt ein Modell vorher, wo im Bild bei einer Überschwemmung Wasser zu sehen wäre. Das Ergebnis dieser sogenannten Segmentierung wird zusammen mit dem Originalbild an das zweite Modell weitergegeben, das dann an die markierten Bereiche Wasser „zeichnet“.

Ein Problem beim Erstellen des Modells war, Bilder von Orten vor und während einer Flut zu finden. Die Forscher:innen haben daher extra eine Webseite und eine App erstellt, um es einfacher zu machen ihnen solche Fotos zur Verfügung zu stellen. Trotzdem haben sie nur knapp 7.000 Bilder sammeln können, was für das Training eines neuronalen Netzes relativ wenig ist.

Daher haben sie noch zusätzlich mit einer Entwicklungsumgebung für Computerspiele (Unity3D) eine 1,5km² große Welt erstellt und so 20.000 weitere, simulierte, Überschwemmungsbilder für das Training erzeugen können.

Das Ziel der Forscher:innen ist ein System, in das man einfach eine Adresse eingeben kann und dann angezeigt bekommt, wie es dort überflutet aussehen würde. Das Modell ist ein erster großer Schritt auf diesem Weg.

Zusammengefasst

KI für Picasso

Eine englische Firma hat sich darauf spezialisiert nach übermalten oder anderweitig verlorenen Kunstwerken zu suchen, und dann mit verschiedenen Technologien auf realistisch wirkende Art zu zeigen, wie diese ausgesehen haben könnten.

Im verlinkten Artikel geht es um ein Bild von Picasso, das er später übermalt hat. Mit Röntgenaufnahmen hat die Firma die Konturen des Bildes erkennen können und dann mit einer ML Technik names Neural Style Transfer eine Version erstellt, die so aussieht, wie Picasso sie gemalt haben könnte.

Das Prinzip von Neural Style Transfer ist, den Stil eines Bildes mithilfe eines neuronalen Netzes auf ein anderes Bild zu übertragen. Damit kann man zum Beispiel eigene Fotos aussehen lassen als hätte Van Gogh sie gemalt, oder eben Picasso.

KI für Bestellungen

McDonald’s hat an einigen McDrives eine KI die Bestellungen aufnehmen lassen (KI News #9). Dazu hat McDonald’s extra eine Tochterfirma gegründet, McD Tech Labs, die sie jetzt an IBM verkauft haben.

Das ist Teil eines größeren Partnerschaft zwischen McDonald’s und IBM, durch die der Einsatz von KI ausgeweitet und die Kundenerfahrung „bequemer und einzigartiger“ werden soll.

KI für Investoren

Eine moderne Legende besagt, dass in einem Gespräch 93% dessen was die andere Person wahrnimmt, von Tonfall und Körpersprache bestimmt wird, und das, was wir eigentlich sagen, nur 7% ausmacht. Das ist falsch (Quelle).

Aber natürlich enthalten Tonfall und Körpersprache trotzdem Informationen. Investmentfonds fangen jetzt an, diese Informationen mit ML Technologien auszuwerten, um zusätzliche Erkenntnisse zu gewinnen.

Außerdem

« VorherigeNächste »

Hier abonnieren und keine Ausgabe mehr verpassen: