Viel Spaß beim Lesen!
Sora ist ein sogenannter Diffusion-Transformer und kann aus Texten passende Videos generieren. "Diffusion" beschreibt dabei die Art, wie das neuronale Netz die Videos generiert (s. KI News #40 für mehr Details) und "Transformer" seine Architektur.
Die Nutzereingaben ("Prompts") werden nochmal weiterverarbeitet, bevor das Video generiert wird. Sie werden nämlich von einem nicht näher bezeichneten GPT-Modell in detailliertere Beschreibungen umgewandelt.
Um Sora zu trainieren, mussten die Forscher:innen von OpenAI erstmal genügend Trainingsdaten erzeugen, also Paare aus Texten und dazu passenden Videos.
Dafür haben sie ein Modell trainiert, das Videos beschriftet.
Sie haben ein weiteres Modell trainiert, das die Videos in eine komprimierte Form bringt, die sowohl räumliche (die Gegenstände oder Personen, die in einem Bild zu sehen sind) als auch zeitliche (wie die Bilder im Video aufeinander folgen) Abhängigkeiten der Daten berücksichtigt.
Die Ausgabe dieses Modells haben sie dann in kleinere Teile aufgeteilt, die sie "Patches" nennen.
Auf diesen Patches wurde dann Sora trainiert. Sora selbst erzeugt also nicht die Videos direkt, sondern nur eine komprimierte Version, die aus Patches besteht.
Um am Ende trotzdem ein Video zu bekommen, müssen die von Sora vorhergesagten Patches also schließlich noch von einem weiteren Modell wieder in Pixel-Bilder umgewandelt werden.
Der ganze Prozess, um ein Video zu generieren, funktioniert so:
Der Prompt wird von einem GPT-Modell mit zusätzliche Details angereichert. Diese Variante des Prompts wird dann an Sora weitergegeben. Sora erzeugt daraus Patches, also eine komprimierte Version eines Videos.
Diese wandelt ein weiteres Modell schließlich in ein richtiges Video um.
Durch den Ansatz mit den Patches kann Sora Videos mit verschiedenen Auflösungen und Formaten generieren.
Außerdem kann es auch einzelne Bilder generieren, Bilder in Videos umwandeln und Videos verlängern - in die Zukunft und die Vergangenheit. Dadurch kann es zum Beispiel einen Übergang zwischen zwei existierenden Videos schaffen.
Die von Sora generierten Videos können bis zu einer Minute lang sein.
OpenAI gibt aktuell neben Leuten, die die Sicherheit des Modells prüfen sollen, nur ausgewählten Künstler:innen, Designer:innen und Filmemacher:innen Zugang zu Sora, was möglicherweise auf die angepeilte künftige Zielgruppe schließen lässt.
Die Forscher:innen bei Google hatten etwas sehr hilfreiches: Ein Programm, das geometrische Operationen ausführen und erkennen kann, ob dadurch eine bestimmte Aufgabe gelöst wurde.
Und trotzdem hatten sie auch ein Problem, denn das Programm kann trotzdem keine Aufgaben lösen, weil es unendlich viele mögliche Kombinationen von Operationen gibt, die das Programm ausführen kann. Man kann immer noch mehr Punkte, Strecken, Winkel und so weiter konnstruieren.
Woher soll das Programm also wissen, welche Schritte es ausführen muss, um zu einer Lösung zu kommen?
Die Idee der Forscher:innen war es, ein Sprachmodell zu benutzen, das diesem Geometrie-Programm sagt, was es tun soll.
Dieses Sprachmodell haben sie auf 100 Millionen Beschreibungen der Lösungen von Geometrie-Problemen trainiert. Dabei handelte es sich um Beweise von bestimmten Eigenschaften von geometrischen Situationen.
Da nicht einmal Google 100 Millionen Beweise für Geometrie-Aufgaben mal eben rumliegen hat, mussten die Forscher:innen diese erst selbst beschaffen.
Alles von Hand zu lösen wäre auch ein bisschen zu aufwändig geworden, also haben sie die Geometrie-Aufgaben und die zugehörigen Beschreibungen der Lösungen von einem Programm generieren lassen.
Dazu sind sie folgendermaßen vorgegangen:
Zuerst haben sie eine geometrische Ausgangssituation erzeugt, durch das zufällige Auswählen von geometrischen Figuren und Eigenschaften, wie z.B. Geraden, Dreiecke, Mittelpunkte usw.
Dann haben sie das Geometrie-Programm in mehreren Runden alle möglichen Aussagen über diese Ausgangssituation treffen lassen. Eine dieser Aussagen haben sie dann als zu beweisende Eigenschaft ausgewählt.
Die Schritte und Hilfskonstruktionen, die das Programm machen musste, um diese Aussage über die Ausgagssituation treffen zu können, sind die minimal nötigen Schritte für ihren Beweis.
Um daraus jetzt eine Geometrie-Aufgabe zu machen, haben sie die Teile der Ausgangssituation, die nicht in der Aussage selbst vorkamen, weggelassen.
Dadurch erhielten sie eine Aufgabe mit einer bestimmten Ausgangssituation, für die eine bestimmte Eigenschaft bewiesen werden muss.
Und dazu hatten sie jetzt auch noch die Lösung, also die Schritte, die nötig sind, um die Eigenschaft zu beweisen.
Mit diesen Daten haben sie das Sprachmodell dann trainiert.
Mit dessen Hilfe war das Geometrie-Programm dann in der Lage, 25 von 30 Test-Aufgaben zu lösen, fast so viele wie der Durchschnitt der Goldmedaillen-Gewinner der Mathe-Olympiade (25,9).
Anfang des Jahres gab es gehäuft Nachrichten über Deepfakes, hier ein Überblick:
KI Geräte
Es gibt einige neue Geräte, die für die Benutzung auf KI setzen:
Amazon Rufus Chatbot
In den USA hat Amazon einen Chatbot mit dem Name Rufus in der Smartphone App eingeführt.
Das Modell wurde laut Amazon auf dem Produktkatalog, Kundenbewertungen, Fragen und Antworten von Kunden und Informationen aus dem Internet trainiert.
Der Chatbot soll dabei helfen, die richtigen Produkte zu finden, indem Kund:innen ihn zum Beispiel fragen können, worauf sie beim Kauf von einem bestimmten Produkt achten sollten oder was sie für einen bestimmten Anlass oder eine Aktivität brauchen könnten.
KI hilft Orte auf Google Maps zu finden
KI Modelle sollen dabei helfen, die Suchanfragen besser zu verstehen und die Informationen in Google Maps zu analysieren. So soll man zum Beispiel einfach nach "Aktivitäten an einem regnerischen Tag" suchen können.
Die Ergebnisse werden in Kategorien sortiert und mit Bildern und Zusammenfassungen von Bewertungen angezeigt.
"Es gibt keine echten Fotos"
Vor einem Jahr gab es eine Kontroverse rund um Mond-Fotos, die mit dem Samsung Galaxy S23 gemacht wurden, und bei denen die Kamera-Software Details künstlich hinzugefügt hat (reddit.com).
Jetzt hat sich der Leiter von Samsung Customer Experience in einem Interview mit den Worten geäußert "Es gibt keine echten Fotos".
Er argumentiert damit, dass Digitalfotos immer nur Werte sind, die von einem Sensor registriert werden. Diese reproduzierten nur, was unsere Augen sehen, und seien daher bedeutungslos.
Sessellift mit KI
Der Hersteller Doppelmayr hat zwei Skilifte mit KI gebaut, die bereits in Österreich und der Schweiz in Betrieb sind.
Mit Kameras wird der Ausstiegsbereich der Sessellifte überwacht. Die Kamerabilder werden von einem KI-System ausgewertet, das erkennt, wenn z.B. jemand länger zum Aussteigen braucht oder gestürzt ist und dann automatisch den Lift bremsen und anhalten kann.
Der Lift in Österreich ist dadurch der weltweit erste Sessellift, der ohne Personal in der Bergstation betrieben werden kann.