In dieser Ausgabe: Googles Antwort auf GPT-4: das Gemini-Modell. Außerdem wie KI bei der Entdeckung von neuen Antibiotika geholfen hat, Neuigkeiten zum autonomen Fahren, dem EU AI Act und mehr.
Viel Spaß beim Lesen!
Anfang Dezember hat Google ein neues Sprachmodell vorgestellt, das für viel Aufsehen gesorgt hat. Der Name: Gemini, was das lateinische Wort für "Zwillinge" ist.
Eigentlich sind es sogar gleich vier Modelle, die unter dem Namen Gemini veröffentlicht wurden: Gemini Nano-1, Nano-2, Pro und Ultra. Sie unterscheiden sich laut Google vor allem durch ihre Größe. Das kleinste Modell, Nano-1, hat 1,8 Milliarden Parameter, Nano-2 hat schon 3,25 Milliarden und bei den größeren Pro und Ultra Modellen hüllt Google sich in Schweigen.
Zwei Dinge verraten sie aber: erstens, dass Gemini Ultra Googles "größtes und leistungsfähigstes KI-Modell" sein soll (blog.google), und zweitens, dass das Training des Ultra Modells auf spezielle Computer mit Googles eigenen TPUv4 Prozessoren in mehreren Rechenzentren verteilt war.
Vor kurzem wurde jetzt eine neue Version angekündigt, Gemini 1.5. Diese Version verwendet eine etwas andere Architektur, die Gerüchten zufolge auch bei GPT-4 benutzt wurde (twitter.com), und für mehr Effizienz sorgen soll, eine sogenannte "Mixture-of-Experts" Architektur.
Die Idee dabei ist, dass nicht für jede Vorhersage das komplette riesige Modell benutzt werden muss. Stattdessen wird das Modell in kleinere Bereiche (die sogenannten "Experten") aufgeteilt, die sich während des Trainings auf bestimmte Aspekte der Daten spezialisieren sollen.
Wenn das Modell eine Vorhersage machen soll, entscheidet dann ein vorgelagertes Modell anhand der Eingaben, welche Experten dafür benutzt werden sollen.
Da so bei jeder Vorhersage nur ein bestimmter Teil des Modells benutzt wird, können die Vorhersagen schneller und effizienter berechnet werden.
Abgesehen von den ganzen technischen Daten, hat ein Video, das die Fähigkeiten von Gemini zeigen sollte, besonders viel Aufmerksamkeit bekommen.
In "The capabilities of multimodal AI | Gemini Demo" (youtube.com) wird scheinbar gezeigt, wie eine Person mit dem Modell spricht und mit ihren Händen Dinge tut. Das Modell versteht dabei reibungslos was diese Person sagt und tut.
Zum Beispiel spielen sie das Hütchenspiel: die Person versteckt einen Papierball unter drei Bechern und verschiebt sie. Das Modell erkennt selbstständig, dass es den Ball finden soll und nennt anschließend den richtigen Becher.
Das hat auch mich extrem beeindruckt, als ich das Video gesehen habe. Bis ich gelesen habe, dass das Video gefaked ist und so nie stattgefunden hat (techcrunch.com).
Wie das ganze stattdessen tatsächlich ablief, beschreibt Google in einem Blogeintrag: developers.googleblog.com
Google hat außerdem den "Bard" Chatbot in "Gemini" umbenannt. Die Version mit dem "Pro" Modell kann kostenlos genutzt werden, der Zugang zum "Ultra" Modell kostet 21,99€ im Monat (gemini.google.com).
Einige Nutzer:innen haben damit die Funktion zur Bild-Generierung von Gemini 1.5 ausprobiert und wurden davon überrascht, dass der Chatbot sich mehr oder weniger weigert, Bilder von weißen Menschen zu erzeugen.
In diesem Screenshot, den jemand auf Twitter gepostet hat, weigert es sich beispielsweise einfach, ein Bild eines weißen Mannes zu generieren: twitter.com
Ein anderer Screenshot zeigt die Frage nach einer Darstellung eines historisch akkuraten britischen Königs im Mittelalter. Das Ergebnis ist... überraschend: twitter.com
Forscher:innen haben mithilfe von neuronalen Netzen eine chemische Verbindung entdeckt, die sich in ihren Versuchen als vielversprechender Kandidat für ein neues Antibiotikum gezeigt hat.
Dafür haben sie zwei neuronale Netze mit Daten über 39.000 Verbindungen trainiert.
Mit den so entstandenen Modellen haben sie dann zwei Datenbanken mit insgesamt ca. 12 Millionen chemischen Verbindungen quasi "durchsucht", um neue Antibiotika-Kandidaten zu finden.
So sind die Forscher:innen dabei vorgegangen:
Als erstes haben sie die Moleküle in den Trainingsdaten darauf untersucht, ob sie das Wachstum von Staphylococcus aureus Bakterien hemmen.
Dann haben sie die chemische Struktur der Verbindungen als Graph dargestellt, mit Atomen als Knoten und den chemischen Bindungen zwischen den Atomen als Kanten. Ähnlich wie ein Strukturdiagramm, nur eben so, dass ein neuronales Netz die Informationen verarbeiten kann.
Mithilfe dieser und weiterer Informationen über die Verbindungen haben sie dann ein neuronales Netz darauf trainiert, vorherzusagen, ob eine bestimmte Verbindung das Wachstum der S. aureus Bakterien hemmt oder nicht.
Diese Vorhersage haben sie dann für alle 12 Millionen Verbindungen durchgeführt.
Danach blieben noch 10.000 übrig, für die das Modell vorhergesagt hat, dass sie das Bakterienwachstum hemmen.
Eine ähnliche Vorgehensweise haben sie danach nochmal verwendet: Die Forscher:innen haben ein Modell trainiert, um die Zytotoxizität der Verbindungen vorherzusagen, also ob sie Zellen schädigen.
Von den 10.000 Verbindungen aus dem ersten Schritt blieben jetzt noch 3.600 übrig, die laut Vorhersage nicht zellschädigend sein sollen.
Diese wurden weiter geprüft, ob sie andere unerwünschte Strukturen enthalten, zum Beispiel PAINS.
Danach blieben noch 2.200 Verbindungen übrig.
Für diese wurde jetzt versucht, jeweils den "relevanten" Teil zu finden, also die Struktur, durch die das Modell sie als Bakterien-wachstumshemmend vorhergesagt hat.
Damit wurden dann die Strukturen herausgefiltert, die ähnlich zu bereits bekannten Antibiotika sind, da ja ein neues gefunden werden soll.
Somit blieben noch 1.200 Verbindungen übrig.
Diese haben die Forscher:innen noch weiter untersucht, gefiltert und gruppiert, bis schließlich nur noch eine Verbindung übrig war, die sie dann im Tierversuch an Mäusen getestet haben.
In diesem Versuch hat sie sich als wirksam gegen MRSA Bakterien gezeigt, die einer der bekanntesten multiresistenten Erreger sind.
Der Europäische Rat und das EU-Parlament haben sich in den Verhandlungen zur KI-Regulierung in der EU, dem sogenannten "AI Act", auf einen Kompromiss geeinigt.
Der grundsätzliche Ansatz des AI Acts ist: Je höher das Risiko, das von einer Anwendung ausgeht, desto strenger die Regeln.
Es gibt dabei vier Stufen:
1. Minimales Risiko (z.B. Spam-Filter)
2. Begrenztes Risiko (z.B. Chatbots)
3. Hohes Risiko (z.B. autonomes Fahren) und
4. Unannehmbares Risiko (z.B. ungezielte Gesichtserkennung).
Die meiner Meinung nach wichtigsten Neuerungen des Kompromisses habe ich im Folgenden zusammengefasst.
Die Definition, was genau eigentlich ein KI-System ist und somit unter den AI Act fällt, hat die EU von der OECD übernommen.
Ausgenommen von den Regeln sind allerdings Anwendungen für nationale Sicherheit, Verteidigung, Militär, Forschung und nichtgewerbliche Zwecke.
(Sollten nicht eigentlich gerade militärisch genutzte KI-Systeme besonders strengen Kriterien unterliegen, anstatt davon ausgenommen zu werden? Schließlich entscheiden sie möglicherweise über Leben und Tod.)
In "dringenden Fällen" dürfen Sicherheitsbehören außerdem auch nicht-zugelassene KI-Systeme einsetzen.
Gesichtserkennung mithilfe von Überwachungskameras wird ihnen auch erlaubt, bei "bestimmten Straftaten" und "vorhersehbaren Bedrohungen".
Der neue Entwurf enthält daneben jetzt auch Vorschriften für KI-Modelle, die für verschiedene Zwecke verwendet werden können und Basismodelle ("Foundation Models"), die für verschiedene Zwecke weitertrainiert werden können.
Bei Hochrisikosystemen muss eine Folgenabschätzung in Bezug auf Grundrechte durchgeführt werden.
Die EU-Kommission bekommt ein KI-Amt, das die fortschrittlichsten KI-Systeme überwachen soll und dabei von einem wissenschaftlichen Gremium beraten werden soll.
Ein KI-Ausschuss mit Vertretern der Mitgliedsstaaten soll die Kommission bei der Umsetzung der Regeln beraten und selbst wiederum von einem Beratungsforum beraten werden.
Die Strafen für Verstöße gegen die Regeln des AI Acts sollen bis zu 7% des weltweiten Jahresumsatzes betragen.
Seamless Communication und Emu - neue Modelle von Meta
Seamless Communication ist eigentlich eine ganze Familie von Modellen. Dazu gehören SeamlessExpressive, das die Feinheiten in der Art zu sprechen über verschiedene Sprachen hinweg besonders gut erhalten kann und SeamlessStreaming, das Simultan-Übersetzungen mit zwei Sekunden Verzögerung beherrscht.
Beide basieren auf SeamlessM4T v2, das Text und Sprache erzeugen und übersetzen kann.
Seamless bringt Teile aus den anderen drei Modellen zu einem System zusammen, mit dem man in Echtzeit in verschiedenen Sprachen miteinander kommunizieren können soll.
📖 Übersichtsseite mit Beispielen: ai.meta.com, 📖 Veröffentlichung der Forscher:innen: arxiv.org
Bei Emu gibt es zwei neue Fähigkeiten. Das ursprüngliche Emu-Modell konnte "nur" Bilder generieren. Mit Emu Video haben die Forscher:innen jetzt eine Variante entwickelt, die aus den generierten Bildern kurze, vier-sekündige, Videos machen kann: 📖 emu-video.metademolab.com
Emu Edit wiederum kann die Bilder nach den Anweisungen bearbeiten, die es von dem / der Nutzer:in bekommt: 📖 emu-edit.metademolab.com
Kleinere Sprachmodelle von Microsoft und Google
Microsoft hat mit Phi 2 ein Sprachmodell trainiert, das mit "nur" 2,7 Milliarden Parametern in einigen Bereichen genauso gut funktionieren soll, wie andere Modelle mit bis zu 67 Milliarden Parametern.
Dafür wurde unter anderem bei der Auswahl der Trainingsdaten besonders Wert auf die Qualität der Texte gelegt. 📖 microsoft.com
Auch Google hat an kleineren Sprachmodellen gearbeitet und einen Ansatz für das Training entwickelt, den sie Distilling step-by-step nennen.
Damit konnte ein Modell mit nur 770 Millionen Parametern in einem Test besser abschneiden als das 700x größere PaLM Modell (540 Milliarden Parameter).
Die Idee hinter dem Distilling step-by-step Ansatz ist im Prinzip, einem großen Sprachmodell eine Frage zu stellen und es dazu zu bringen mit einer Erklärung zu antworten. Wenn man diese Erklärungen dann nutzt, um ein kleineres Sprachmodell zu trainieren, verbessert das die Qualität der Antworten. Nicht, weil das Modell dadurch die Frage oder den Sachverhalt besser "verstehen" würde - das kann ein Sprachmodell nicht - sondern, weil eine Erklärung im Text die Wahrscheinlichkeit der richtigen Antwort erhöht und somit das Modell quasi in die richtige Richtung lenkt.