KI News #1

Hallo und herzlich willkommen zur ersten Ausgabe meines neuen Newsletters KI News. Hier werde ich alle zwei Wochen interessante Meldungen zusammenfassen, die mit Themen der künstlicher Intelligenz und maschinellem Lernen zu tun haben.

Diesmal geht es um einen neuen Codec zur Sprach-Kompression, die Einschätzung der politischen Orientierung anhand von Porträtfotos und einen Curling spielenden Roboter.

Für hilfreiche Rückmeldungen, konstruktives Feedback und Verbesserungsvorschläge an kinews@tobiasfraenzel.de bin ich dankbar.

Viel Spaß beim Lesen der heutigen Ausgabe!

Neuer Codec für Sprach-Kompression

Google hat einen neuen Sprachcodec vorgestellt, der, zur Übertragung einer natürlich klingenden Stimme, mit deutlich geringerer Bandbreite auskommen soll als aktuelle Codecs.

Ein Codec ist eine Software, die analoge Signale, wie z.B. Sprache oder Musik, digital codieren und decodieren kann. Generell haben Sprachcodecs einen Eingabe- und einen Ausgabeteil. Im Eingabeteil wird die Sprache quantisiert, dann wird sie als digitale Daten übertragen und im Ausgabeteil wird die Sprache aus den übertragenen Daten rekonstruiert. Je geringer die Bandbreite, desto schlechter funktioniert diese Rekonstruktion. Deshalb fangen bei schlechtem Handyempfang die Stimmen an blechern zu klingen.

Um dieses Problem zu überwinden, nutzt Google für die Rekonstruktion der Sprache ein Modell basierend auf einem neuronalen Netz, das auch aus sehr wenigen Daten noch natürlich klingende Sprache erzeugen kann. Dabei handelt es sich um ein recurrent generative model, basierend auf WaveRNN.

https://ai.googleblog.com/2021/02/lyra-new-very-low-bitrate-codec-for.html (englisch)

https://www.golem.de/news/lyra-google-stellt-extrem-effizienten-ki-sprach-codec-vor-2103-154601.html (Pressebericht auf deutsch)

Klassifizierung von politischer Orientierung anhand von Porträtbildern

Einem Forscher der Stanford University ist es, mithilfe eines Facial Recognition Modells, gelungen, nur anhand von Porträtbildern, die politische Orientierung eines Menschen einzuschätzen.

Die Vorgehensweise dazu bestand aus drei Schritten: Zuerst wurden die Bilder auf das Gesicht zugeschnitten und auf 224x224 Pixel skaliert. Im zweiten Schritt wurden, mithilfe eines schon trainierten Gesichtserkennungsmodells (VGGFace2), die markantesten Eigenschaften der Gesichter extrahiert (sogenannte face descriptors). Mit den face descriptors wurde dann eine logistische Regression durchgeführt, um die politische Orientierung in liberal oder konservativ zu klassifizieren.

Es wurden rund eine Million Bilder von Menschen aus den USA, Kanada und dem Vereinigten Königreich verwendet. Die Bilderquellen waren Facebook (ca. 10%) und eine nicht näher genannte Dating Website (ca. 90%).

Im Ergebnis konnten 72% der Bilder korrekt klassifiziert werden. Zum Vergleich: die menschliche Genauigkeit bei dieser Klassifizierung liegt bei ca. 55%.

Es ist bekannt, dass Eigenschaften, die auf Bildern relativ einfach zu erkennen sind, Schlüsse auf die politische Orientierung zulassen. Dazu gehören zum Beispiel Alter, Geschlecht und Ethnie einer Person. Um auszuschließen, dass die Klassifizierung vor allem auf solchen, relativ offensichtlichen, Faktoren basiert, wurden in einem Test die Bilder so ausgewählt, dass die Personen darauf in diesen Eigenschaften gleich waren. Bei Bildern, die nur Menschen mit gleichem Alter, Geschlecht und Ethnie zeigten, war die Genauigkeit etwas niedriger, es wurden jedoch immer noch 69% erreicht.

https://www.nature.com/articles/s41598-020-79310-1 (englisch)

KI Curling Roboter

Auf der Suche nach einem geeigneten Anwendungszweck, um ein KI System von der Simulation in die Realität zu holen, hat ein deutsch-südkoreanisches Team einen Curling spielenden Roboter namens Curly gebaut.

Der Roboter plant das Abspielen seiner Steine, indem er zuerst mithilfe von Bilderkennung die aktuelle Spielsituation erfasst. Diese wird dann in eine Curling Simulation gegeben, womit der beste mögliche Wurf bestimmt wird. Darauf folgt ein deep reinforcement learning (DRL) Modell, das durch die Ergebnisse der letzten Würfe Rückschlüsse auf die aktuellen Umgebungsbedingungen (z.B. Zustand der Eisdecke) zieht. Das Ergebnis der Simulation wird mithilfe der Ausgabe des Modells angepasst, um auf Änderungen in der Umwelt entsprechend zu reagieren.

Curly wurde hauptsächlich ohne die Curling-typischen Wischer getestet, ähnlich wie beim Rollstuhl-Curling. Daher wurde seine Leistung auch mit der südkoreanischen Rollstuhl-Curling-Mannschaft verglichen. Curly kam auf eine beste durchschnittliche Abweichung von 1,3m, was in einer ähnlichen Größenordnung ist wie die Teams bei den Paralympics 2018, mit 0,8m-1,3m.

Außerdem hat Curly auch Testspiele gegen eine südkoreanische Frauenmannschaft bestritten, wovon es auch Videos auf Youtube gibt: https://youtu.be/1ZQOo0H6_FA

https://robotics.sciencemag.org/content/5/46/eabb9764 (englisch)

« Vorherige Nächste »