Viel Spaß beim Lesen!
2021 ist das Jahr, in dem ich den Newsletter gestartet habe. Passend dazu gab es seit dem 16. März 21 Ausgaben von KI News.
Insgesamt habe ich über 195 Meldungen und sechs bis sieben Wahlprogramme geschrieben (je nachdem, ob man die CSU extra zählt oder nicht).
Die 81 „großen“ Meldungen, die weder in der „Außerdem“-Kategorie noch Wahlprogramme waren, verteilen sich so auf die verschiedenen Forschungsbereiche:
Die beliebtesten Meldungen auf Instagram, waren mit jeweils elf Likes „OpenAI löst Mathe-Textaufgaben“ und „Erste Deepfake-Werbung in Deutschland“. Mit 307 erreichten Konten am meisten angesehen wurde der Beitrag „Roboter und autonome Autos“.
Schon seit 2016 benutzen Strafverfolger in China KI-gestützte Programme, um unter anderem Beweise und die Bedingungen für eine Verhaftung zu prüfen und einzuschätzen, wie gefährlich ein Verdächtiger für die Öffentlichkeit ist.
Gerade letzteres ist offensichtlich nicht zuverlässig möglich und sollte auf keinen Fall einer KI überlassen werden.
Die Staatsanwaltschaft von Shanghai Pudong geht jetzt noch einen Schritt weiter, und hat eine Software entwickelt, die sogar Anklage erheben können soll. Sie soll die Staatsanwälte bei ihrer Arbeit entlasten, so dass diese sich auf schwierigere Aufgaben konzentrieren können.
Die KI soll anhand einer Fallbeschreibung die acht häufigsten Vergehen in Shanghai mit 97% Genauigkeit erkennen können.
Dazu analysiert sie laut Artikel den Text auf 1.000 Merkmale "von denen die meisten zu klein oder zu abstrakt sind, um für Menschen Sinn zu ergeben". Anders gesagt: die KI kommt zu Ergebnissen, die von Menschen nicht einmal überprüft werden können, weil sie Informationen benutzt, die offenbar gar nicht im Text stehen. Das ist das Gegenteil von dem, wie ein KI System funktionieren sollte.
Trainiert wurde das System auf mehr als 17.000 Fällen von 2015 bis 2020. Für die Zukunft sind schon Erweiterungen geplant, so dass auch seltenere Vergehen erkannt werden und gegen einen Verdächtigen in mehreren Punkten Anklage erhoben werden kann.
Immerhin scheint es auch in China Bedenken gegen den Einsatz des "KI Staatsanwalts" zu geben. So wird im Artikel zum Beispiel ein Staatsanwalt aus Guangzhou zitiert, der sich kritisch äußert: „KI kann dabei helfen einen Fehler zu erkennen, aber sie kann Menschen nicht bei der Entscheidung ersetzen“.
Diffusion Models sind neuronale Netze, die lernen, aus zufälligem Rauschen Bilder zu erzeugen. Dazu wird beim Training ein Bild immer verrauschter gemacht, bis am Ende nur noch Rauschen übrig ist. Das Modell wird darauf trainiert diesen Prozess umzukehren und das Rauschen zu reduzieren.
Das lässt sich dann nutzen, um, beginnend mit zufällig erzeugtem Rauschen, neue Bilder zu generieren. Dabei wird das Modell wiederholt auf das Rauschen angewandt und verwandelt es jedes Mal ein Stück mehr in Richtung eines Bildes.
Dieses Prinzip habe ich auch in KI News #6 beschrieben.
Forscher:innen von OpenAI haben jetzt ein System namens GLIDE (Guided Language to Image Diffusion for Generation and Editing) entwickelt, das mithilfe des Diffusion Prinzips zu einem Text das passende Bild erzeugen kann.
Dazu haben sie mehrere verschiedene Modelle miteinander verbunden: für die eigentliche Bildgenerierung ein Diffusion Model mit 3,5 Milliarden Parametern, das Bilder mit einer Auflösung von 64 x 64 Pixeln erzeugen kann.
Ein weiteres Diffusion Model mit 1,5 Milliarden Parametern, das die Auflösung der Bilder auf 256 x 256 Pixel verbessern kann.
Und schließlich noch ein Transformer Modell, das benutzt wird, um die Texte so vorzuverarbeiten, dass das Diffusion Model sie benutzen kann.
Die Beispielbilder, die in der Veröffentlichung der Forscher:innen gezeigt werden, sind beeindruckend realistisch. Leider haben sie nur eine kleinere, schlechtere Version des Modells veröffentlicht, und das damit begründet, dass GLIDE sonst dazu benutzt werden könnte, überzeugende falsche Bilder herzustellen und damit Desinformation zu betreiben.
Wie viel schlechter das veröffentlichte Modell ist, lässt sich gut am folgenden Bild erkennen. Das Bild, das die Forscher:innen mit dem großen Modell für den Text „A Hedgehog using a calculator“ generiert und veröffentlicht haben, zeigt einen realistisch aussehenden kleinen Igel, der auf einem schwarzen Taschenrechner mit grauen Tasten steht.
Ein Bild, das ich mit dem selben Text von der öffentlichen Version des Modells bekommen habe, seht ihr hier:
Forscher:innen von Nvidia haben eine Methode entwickelt, mit der jeder ganz einfach Bilder bearbeiten kann. Das funktioniert so: zuerst wird das Bild von einem neuronalen Netz rekonstruiert. Das bedeutet, dass ein neuronales Netz ein Bild erzeugt, das fast genauso aussieht wie das Original.
Dazu wird hier die GAN (Generative Adversarial Networks) Architektur benutzt, im Moment die dominierende Architektur für neuronale Netze zur Bildgenerierung.
Bei EditGAN erzeugt das Modell nicht nur das rekonstruierte Bild, sondern gleichzeitig noch eine sogenannte Segmentation Mask. Dabei handelt es sich um eine Darstellung des Bildes, bei der zusammengehörende Bereiche jeweils unterschiedlich eingefärbt sind (ähnlich wie auf einer politischen Landkarte die Gebiete der Länder jeweils unterschiedliche Farben haben).
Bei einem Bild von einem Auto hätten so zum Beispiel die Räder eine andere Farbe als die Motorhaube, die wiederum anders gefärbt wäre als die Windschutzscheibe.
Diese Segmentation Mask kann man jetzt als Benutzer:in auch ohne große Photoshop-Kenntnisse sehr einfach verändern, weil sie nur aus einfarbigen Flächen besteht. Wenn man zum Beispiel gerne die Räder größer haben möchte, malt man einfach mit der entsprechenden Farbe den Rad-Bereich ein bisschen größer.
Dadurch, dass dieser Bereich der Segmentation Mask für das neuronale Netz „hier ist das Rad“ bedeutet, kann man diese Änderung vom neuronalen Netz wieder auf das rekonstruierte Originalbild anwenden lassen. Und schon hat man (einigermaßen) realistisch aussehende, größere Räder auf dem Bild.
Eine Twitter-Benutzerin berichtet, dass ihr Kind am zweiten Weihnachtsfeiertag ihren Alexa-Sprachassistenten um eine Herausforderung gebeten hat. Alexas Antwort: „Hier ist etwas, das ich im Internet gefunden habe. Nach ourcommunitynow.com: Die Herausforderung ist einfach: steck ein Handyladegerät ungefähr bis zur Hälfte in eine Steckdose und berühr dann mit einem Penny die freiliegenden Stifte“
Offenbar war das Kind klug genug das nicht zu tun, aber der Vorfall zeigt ein Problem mit der Art, wie die Daten für Alexa und andere Dienste gewonnen werden – denn der Artikel auf ourcommunitynow.comwarnt Eltern vor der sogenannten „Outlet Challenge“, die scheinbar auf TikTok populär geworden ist.
Dieser wichtige Teil der Informationen ist auf dem Weg zu Alexa aber verloren gegangen.
Auch bei Google gibt es immer wieder Probleme mit dem automatisierten Auslesen von Informationen aus dem Internet, dem sogenannten Web Scraping.
Google benutzt das, um im Kasten unter der Suchanfrage direkt eine Antwort anzuzeigen. Manchmal kommt dabei aber Unsinn heraus, ohne dass es für den oder die Suchende:n direkt ersichtlich ist.
In diesem Screenshot, den jemand auf Twitter gepostet hat, scheinen die Informationen vom Guardian zu stammen, einer angesehenen Zeitung, und daher scheinbar verlässlich zu sein. Tatsächlich sind sie nicht nur falsch, sondern auch aus einem Kommentar, den ein Leser unter dem eigentlichen Artikel geschrieben hat: 📖 Link zu Twitter
Ein weiteres Beispiel sieht man hier, wo das angezeigte Ergebnis auf die Frage „Hatte einen Anfall, was jetzt?“, die Dinge auflistet, die man laut der Quelle auf keinen Fall tun sollte, statt dem was man eigentlich tun soll: 📖 Link zu Nitter
Google bringt KI Weihnachtslieder bei
Google Arts and Culture hat in Zusammenarbeit mit David Li und vier Opernsänger:innen einem ML Modell das Singen beigebracht. Die Sänger:innen haben insgesamt 16 Stunden Gesang aufgenommen.
Damit wurde dann ein Convolutional Neural Network (CNN) trainiert. Dabei handelt es sich eigentlich um eine Architektur für neuronale Netze, die für Bildverarbeitung benutzt wird, sie funktioniert aber auch z.B. mit Sprache.
Die Ausgabe, also den Gesang, den das CNN so gelernt hat, kann sich hier jeder anhören und sogar selbst steuern:
📖 Seite bei Google Arts and Culture: https://artsandculture.google.com/experiment/blob-opera/AAHWrq360NcGbw?cp=e30