Viel Spaß beim Lesen der heutigen Ausgabe!
In einem Blogeintrag stellt Google ein neues Modell names MUM vor, was für "Multitask Unified Model" steht.
MUM basiert auf einer sogenannten Transformer Architektur, wie z.B. die Sprachmodelle BERT und GPT. Dass Transformer-basierte neuronale Netze auch in anderen Bereichen als nur Sprachverarbeitung, wie zum Beispiel in der Bildverarbeitung, zum Einsatz kommen, war auch schon in KI News #2 Thema.
Das Modell soll helfen in der Google Suche bei komplexen Fragen bessere Antworten zu liefern. Dazu soll es den Kontext von Fragen erkennen und Informationen aus mehreren Quellen kombinieren können.
Außerdem hat das Modell laut des Blogeintrags eine ganze Reihe von Fähigkeiten. Dazu gehören unter anderem das Verstehen und Generieren von Sprache sowie das Übersetzen von 75 verschiedenen Sprachen. Darüber hinaus soll es Informationen sowohl aus Texten als auch aus Bildern verstehen können.
Dazu wird ein anschauliches Beispiel gemacht: Wenn man MUM ein Foto seiner Wanderschuhe und die Frage "Kann ich damit den Fuji besteigen?" gibt, soll es diese Frage beantworten können.
Interessanterweise fängt die Beschreibung dieses Beispiels an mit "Möglicherweise können Sie". Google scheint sich also selbst nicht sicher zu sein, ob das wirklich funktionieren kann (mir persönlich erscheint das mit dem heutigen Stand der Technik auch eher zweifelhaft).
Zusätzlich soll MUM auf mehreren Aufgaben gleichzeitig trainiert worden sein, um Informationen umfassender verstehen zu können. Mit diesen Aufgaben sind wohl die oben genannten Fähigkeiten wie Übersetzen, Bildverarbeitung und Textsynthese gemeint.
Ein einzelnes Modell auf mehreren Aufgaben zu trainieren macht jedoch keinen Sinn, vor allem, wenn die Aufgaben so unterschiedlich sind wie hier. Daher vermute ich, dass das "Unified" hier bedeutet, dass es sich nicht wirklich um ein einzelnes Modell handelt, sondern um eine ganze Reihe von Modellen, die mithilfe von zusätzlicher Software zusammenarbeiten können.
Vielleicht erfahren wir ja bald mehr darüber, denn neue Funktionen basierend auf MUM sollen in den nächsten Monaten und Jahren in die Google Suche integriert werden.
Blogeintrag von Google: https://blog.google/products/search/introducing-mum (englisch)
Synthesia, eine englische Softwarefirma, hat eine Plattform entwickelt, über die man sehr einfach und schnell Videos generieren lassen kann: man muss nur einen Text eingeben. Das Video einer Person, die den Text spricht, wird dann automatisch dazu generiert.
Die Zielgruppe sind Unternehmen, die so beispielsweise Kunden in Videos persönlich ansprechen können, ohne für jeden Namen ein neues Video aufnehmen zu müssen.
Deepfakes haben natürlich ein großes Missbrauchspotenzial, daher hat Synthesia einige Vorkehrungen getroffen.
Die Texte werden alle manuell überprüft, ob sie den Richtlinien entsprechen. Diese scheinen sehr streng zu sein, denn Synthesia gibt an, dass alles entfernt wird, was nicht als "Business Content" eingestuft wird.
Man kann aus einer Reihe von vorgegebenen Sprechern wählen, oder, gegen Aufpreis, auch ein Video von sich hochladen und dann Videos von sich selbst generieren lassen. Um Missbrauch zu erschweren, muss man auch diese selbst hochgeladenen Videos erst überprüfen und genehmigen lassen, bevor man sie benutzen kann.
Synthesia bietet auf der Webseite auch eine Demo mit eingeschränkten Funktionen an. Für die Demo muss man nur einen Text und eine E-Mail Adresse eingeben und ein paar Minuten später bekommt man das entsprechende Video zugeschickt.
Um zu testen wie gut Synthesia wirklich ist habe ich die Demo mal ausprobiert. Vom Abschicken des Textes zur Überprüfung bis zum Download des Videos hat es bei mir nur drei Minuten gedauert. Das Ergebnis finde ich erstaunlich gut, auch wenn man ihm deutlich anmerkt, dass es künstlich erzeugt wurde: Demo Video mit meinem Text
Webseite: https://www.synthesia.io/
Die Fortschritte im KI Bereich in den letzten Jahren basieren hauptsächlich auf sogenanntem "Supervised Learning". Das bedeutet, dass ein ML Modell eine Menge von Datensätzen und dazugehörigen Beschreibungen ("Labels") bekommt. Das Modell lernt dann den Zusammenhang zwischen den Daten und dem jeweiligen Label.
Ein Beispiel wäre ein Modell, das darauf trainiert wird, Katzen auf Bildern zu erkennen. Es bekommt als Trainingsdaten sehr viele Bilder und für jedes Bild ein Label, das angibt, ob darauf eine Katze abgebildet ist.
Das Label zeigt dem Modell quasi, was für jedes Bild die richtige Antwort auf die Frage ist, die das Modell später beantworten können soll.
Das Problem dabei ist, dass neuronale Netze sehr viele Trainingsdaten brauchen und es sehr aufwändig ist, so viele Daten mit Labeln zu versehen.
Im Unterschied dazu brauchen Menschen keine Millionen von Beispielbildern um eine Katze zu erkennen und können in zwanzig Fahrstunden Autofahren lernen, was heutige KIs auch nach tausenden Trainingsstunden noch nicht gut schaffen.
Facebook argumentiert in einem Blogbeitrag, dass dieser Unterschied daher kommt, dass wir uns auf Vorwissen und gesunden Menschenverstand stützen, wenn wir Neues lernen. ML Modelle müssen dagegen jedes Mal wieder ganz von vorne anfangen.
Eine Lösung, um Modellen mehr Vorwissen zu geben, ist, sie zuerst auf einem breiteren Gebiet zu trainieren, auf dem man einfacher Trainingsdaten bekommen kann. Diese vortrainierten Modelle brauchen dann nicht mehr so viele Trainingsbeispiele auf ihrem speziellen Einsatzgebiet.
Als Beispiel könnte man ein Modell zuerst trainieren Tiere auf Bildern zu erkennen. Das so trainierte Modell hat dadurch bereits "Wissen" über die Erkennung von Tieren. Deshalb kann man es jetzt mit relativ wenigen zusätzlichen Daten darauf trainieren Katzen zu erkennen.
Der Nachteil bei diesem Ansatz ist, dass man weiterhin Trainingsdaten mit Labeln braucht, nur eben auf einem breiteren Gebiet.
Eine Lösung, bei der man ganz auf Labels verzichten kann, ist Self-Supervised Learning. Statt ein Label zu jedem Trainingsbeispiel zu haben, wird im Training einfach ein Teil jedes Datensatzes "verdeckt". Das kann zum Beispiel ein Wort eines Satzes oder ein Bereich eines Bilds sein.
Das Modell wird dann darauf trainiert vorherzusagen was im verdeckten Teil ist. Dadurch lernt das Modell die Struktur der Trainingsdaten und baut sozusagen ein Vorwissen darüber auf.
Da man keine Labels braucht, kann man auf diese Art Modelle mit deutlich mehr Trainingsdaten trainieren, weil man nicht an jedes einzelne Bild "Katze" oder "Nicht Katze" schreiben muss.
Nachdem das Modell dann mit diesen vielen Trainingsdaten vortrainiert wurde, braucht es wieder nur noch relativ wenige Trainingsdaten mit Labels, um auf den Bildern die Katzen zu finden.
Facebook scheint Self-Supervised Learning für eine entscheidende Technik zu halten. Im Blogeintrag wird es unter anderem als "die dunkle Materie der Künstlichen Intelligenz" und "ein Schritt auf dem Weg zu menschenähnlicher Intelligenz" bezeichnet.
Es ist sicher eine wichtige Entwicklung, aber das sind doch sehr große Worte für eine Technik, die ML Modellen im Prinzip einfach nur beibringt Lückentexte auszufüllen.
Blogeintrag von Facebook: https://ai.facebook.com/blog/self-supervised-learning-the-dark-matter-of-intelligence (englisch)