KI News #27

Hallo und herzlich willkommen zur siebenundzwanzigsten Ausgabe von KI News. Heute habe ich ausgerechnet, wie viel CO₂ durch maschinelles Lernen bei Google verursacht wird. Außerdem gibt es ein Modell, das psychische Erkrankungen an Social Media-Beiträgen erkennen kann, ein neuronales Netz erkennt die Gefühle von Schweinen und ein anderes hilft beim Wiederherstellen von historischen Schriften.

Viel Spaß beim Lesen!

Wie viel CO₂ verursacht maschinelles Lernen bei Google?

Ein großer Kritikpunkt an neuronalen Netzen, und vor allem den immer größeren Sprachmodellen, ist der Energieaufwand beim Training und der damit verbundene CO₂-Ausstoß. Aber wie viel ist das wirklich?

Praktischerweise hat Google dazu vor kurzem Zahlen veröffentlicht: der Anteil von maschinellem Lernen am Stromverbrauch von Google liegt zwischen 10% und 15% (Training 40%, Vorhersagen 60%), gemessen jeweils in einer Woche im April 2019, 2020 und 2021 [1] (S. 7).

Um vom Anteil am Energieverbrauch zum CO₂-Ausstoß zu kommen, ist jetzt noch die Frage, wie viel CO₂ Google ausstößt.

Auf der Google-Startseite steht unten "CO₂-neutral seit 2007" [2]. Bedeutet das, dass die Frage schnell beantwortet ist, weil sie gar kein CO₂ ausstoßen?

Nein, stattdessen investiert Google in Kompensationsprojekte, um die Emissionen auszugleichen und so "neutral" zu werden [3] (S.1), [4].

Seit 2017 kauft Google außerdem so viel Strom aus erneuerbaren Energien wie sie verbrauchen [3] (S.1). Bedeutet das, dass sie keinen Strom aus fossilen Quellen benutzen?

Nein, denn wenn z.B. an einem Standort nachts nur Kohlestrom verfügbar ist, dann nehmen sie den, aber kaufen zum Ausgleich dafür an einem anderen Ort oder zu einer anderen Zeit mehr Strom aus Erneuerbaren [5] (S.1), [6] (S.1).

So stammt z.B. nur 3% des Stromverbrauchs des Rechenzentrums in Singapur aus erneuerbaren Energien, während es in Oklahoma 96% sind [7].

Noch ein Ausblick in die Zukunft:

Bis 2030 will Google an jedem Standort zu jeder Zeit nur noch Strom aus CO₂-freien Quellen einsetzen [3] (S.1), [6] (S.1), [7], [8] (S.1). Bedeutet das dann 100% Ökostrom?

Nein, denn Google zählt zu "CO₂-frei" auch Atomenergie und schließt sogar fossile Quellen, bei denen das entstehende CO₂ aufgefangen wird, bevor es in die Atmosphäre gelangt, nicht aus [3] (S.3), [8] (S.1).

Die Berechnung der tatsächlichen CO₂-Emissionen ist dadurch, dass diese je nach Standort des Rechenzentrums und Tageszeit unterschiedlich sind, und man auch noch den Einfluss der Kompensationen und des zusätzlich gekauften Ökostroms beachten müsste, sehr schwierig.

So schwierig, dass sogar Google selbst daran zu scheitern scheint. Denn in ihrer Veröffentlichung benutzen sie zur Berechnung des eigenen CO₂-Ausstoßes keine genauen Zahlen, sondern nehmen einfach die Angabe des durchschnittlichen CO₂-Ausstoßes pro kWh für Strom in den USA von Carbonfund.org [1] (S. 3). Diese Zahl wiederum kommt von Daten der US-Umweltschutzbehörde EPA von 2018 [9], [10], mittlerweile sind die Daten aber auch für 2020 verfügbar.

Da Google selbst diese Zahlen offenbar als geeignete Näherung für den eigenen CO₂-Ausstoß betrachtet, benutze ich sie hier auch, verwende aber die aktuelleren von 2020.

Demnach lag der Treibhausgasausstoß pro Megawattstunde in den USA bei 0,371 tCO₂e [11] (der geschätzte Wert für den Strommix in Deutschland war 2020 0,366 tCO₂e / MWh [12]).

"tCO₂e" steht dabei für "Tonnen CO₂ Äquivalent" und bedeutet, dass man andere klimaschädliche Gase, die ausgestoßen werden, auf die Klimawirkung von CO₂ umrechnet, um sie besser vergleichen zu können.

Google gibt den eigenen Energieverbrauch für 2020 mit 15,4 TWh an [1] (S. 6). Der Anteil von ML daran liegt also zwischen 1,54 TWh (10%) und 2,31 TWh (15%).

Eine TWh sind eine Million MWh, das bedeutet, die Emissionen von maschinellem Lernen bei Google liegen bei (gerundet) 570.000 - 860.000 tCO₂e (Training 230.000 - 340.000 tCO₂e, Vorhersagen 340.000 - 510.000 tCO₂e).

Zum Vergleich: Die Stadt Tübingen mit 90.000 Einwohnern [13] hatte 2017 Emissionen von 470.000 tCO₂e [14] (S.5), in ganz Deutschland waren es 2020 729 Millionen tCO₂e [15].

[13] und [14] abgerufen am 17.3.2022, alle anderen Quellen abgerufen am 12.3.

Modell kann psychische Erkrankungen an Social Media-Beiträgen erkennen

Forscher:innen des Dartmouth College haben ein Modell entwickelt, das Social Media-Beiträge analysieren und daran Depressionen, Angststörungen und Bipolare Störungen erkennen kann.

Dafür betrachten sie nicht den Inhalt der Beiträge direkt, sondern die Emotionen, die man darin erkennen kann, und die Übergänge zwischen verschiedenen Emotionen.

Dadurch konnten sie den Einfluss reduzieren, den es haben kann, dass jemand über verschiedene Themen schreibt. Dieser Einfluss kann dafür sorgen, dass Modelle, die die Inhalte der Beiträge analysieren, für verschiedene Themen unterschiedlich gut funktionieren.

Die Daten, die sie fürs Training benutzt haben, sind Reddit-Posts von 2011-2019. Um herauszufinden, welche Beiträge von Benutzer:innen geschrieben wurden, die eine der betrachteten Erkrankungen haben, haben sie nach Sätzen wie "I am diagnosed with bipolar/depression/anxiety" und Varianten davon gesucht.

Von den so identifizierten Benutzer:innen haben sie dann aber nur die Posts behalten, die vorher geschrieben wurden, weil eine Diagnose das eigene Verhalten beeinflussen kann und sie diesen Einfluss ausschließen wollten.

Auf Reddit gibt es verschiedene Bereiche, zu verschiedenen Themen, die sogenannten Subreddits. Als Kontrollgruppe wurden aus den Subreddits, die von den als erkrankt erkannten Benutzer:innen am meisten benutzt wurden, zufällige Nutzer:innen ausgewählt. Daraus haben sie dann die wieder herrausgefiltert, die in Subreddits über psychische Probleme gepostet haben.

Zur Klassifizierung der Emotionen haben die Forscher:innen Daten von Twitter genutzt, um vortrainierten BERT Sprachmodellen die Erkennung von jeweils einer von vier Emotionen beizubringen: Freude, Traurigkeit, Wut und Angst (zufällig sind das vier der fünf Emotionen aus dem Pixar-Film Alles steht Kopf, nur Ekel fehlt).

Zum Test, wie gut die Modelle auf den Reddit-Daten funktionieren, haben sie dann von Hand die Emotionen für 200 Kommentare untersucht und mit den Vorhersagen der Modelle verglichen.

Um die Übergänge zwischen den Emotionen zu finden, haben sie die Beiträge der Benutzer in 30 Minuten-Fenster eingeteilt und die darin gefundenen Emotionen gespeichert. Dadurch konnte jedes dieser Fenster einen von 17 möglichen Zuständen haben: alle möglichen Kombinationen der vier Emotionen, von "in dem Zeitfenster wurde keine der Emotionen in den Posts gefunden" bis zu "alle Emotionen wurden gefunden" und zusätzlich "keine Posts in diesem Zeitraum".

Durch die Betrachtung der Übergänge zwischen diesen Zuständen konnte das Modell dann mit Genauigkeiten von 83,2% (Depression), 85,3% (Angststörung) und 86,6% (Bipolare Störung) die Erkrankung der Benutzer:innen vorhersagen.

Zusammengefasst

Mehr Schichten für Transformer

Neuronale Netze bestehen aus sogenannten "Knoten", auch "Neuronen" genannt. Diese sind in Schichten nebeneinander (Breite) und mehrere Schichten wiederum hintereinander angeordnet (Tiefe). Durch die Verbindungen zwischen den Schichten ergibt sich ein Netz aus Neuronen, daher der Begriff "neuronales Netz".

Es gibt die Faustregel, dass die gleiche Anzahl von Neuronen in einer tieferen Anordnung (mehr Schichten) bessere Ergebnisse liefert als in einer breiteren (mehr Neuronen pro Schicht). Allerdings führen mehr Schichten oft zu Problemen beim Training, daher kann man neuronale Netze nicht einfach immer tiefer machen.

Forscher:innen von Microsoft haben jetzt eine neue Variante der Transformer-Architektur entwickelt, die deutlich mehr Schichten erlaubt.

In Tests hat sich gezeigt, dass ihr Modell, mit "nur" 3,2 Milliarden Parametern in 200 Schichten, besser war als ein bestehendes Modell mit 12 Milliarden Parametern in 48 Schichten.

Was passiert, wenn man ein neuronales Netz auf 1 Milliarde Instagram-Bildern trainiert?

Forscher:innen von Meta haben ihre Verbindung zu Instagram genutzt, um diese Frage zu beantworten.

Normalerweise werden Bilder aufwändig vorverarbeitet und mit Beschreibungen versehen, bevor sie zum Training genutzt werden. Trotzdem haben die resultierenden Modelle oft Probleme, zum Beispiel mit Fairness.

Die Meta-Forscher:innen haben jetzt einen anderen Ansatz gewählt und getestet, was passiert, wenn man sich den Aufwand spart und einfach zufällige Bilder von Instagram für das Training benutzt. Dafür haben sie eine Milliarde Bilder aus der ganzen Welt genommen, außer aus der EU, weil wir besseren Datenschutz haben.

Auf diesen Bildern haben sie dann mit selbstüberwachtem Lernen ein Convolutional Neural Network mit 10 Milliarden Parametern trainiert, mithilfe von 496 Nvidia A100 Grafikkarten. Beim selbstüberwachten Lernen lernt das Modell Informationen über die Bilder in den Trainingsdaten, und kann dann für verschiedene Aufgaben benutzt werden, die mit Bildern zu tun haben.

Das so entstandene Modell haben sie ausführlich getestet (in 50 verschiedenen Tests) und dabei herausgefunden, dass es fairer ist als andere Modelle (z.B. bessere Objekterkennung in Bildern aus nicht-westlichen Ländern). Außerdem kann es beispielsweise den Ort der Aufnahme und zum Bild passende Wörter in mehreren Sprachen vorhersagen.

 
Neuronales Netz erkennt Gefühle von Schweinen an ihren Rufen
Das "SoundWel" Projekt, das von der EU finanziert wird, hat das Ziel, ein Tool zu entwickeln, mit dem man an den Geräuschen von Schweinen im Stall erkennen kann, wie gut es ihnen geht.
Als wichtigen Beitrag zu diesem Ziel haben Forscher:innen von verschiedenen Universitäten in Europa und den USA 38.000 Laute von Schweinen gesammelt. Davon haben sie die 7414 ausgewählt, die am wenigsten Störgeräusche hatten. Dadurch hatten sie einen Datensatz mit den Geräuschen von 411 Schweinen in 19 verschiedenen Situationen.
Diese haben sie in Spektrogramme umgewandelt, also Darstellungen der verschiedenen Tonfrequenzen, und darauf dann ein neuronales Netz trainiert.
In Tests konnte das neuronale Netz zu 91% richtig klassifizieren, ob die Situation positiv oder negativ war und sogar die konkrete Situation zu 81,5% richtig erkennen.
 
Ithaca: Modell hilft beim Wiederherstellen von historischen Schriften
Forscher:innen der Universitäten in Venedig, Oxford und Athen haben mit Deepmind zusammengearbeitet, um ein Modell zu entwickeln, das Historiker:innen dabei helfen kann, beschädigte historische Schriften zu interpretieren.
Das neuronale Netz, das sie so entwickelt und "Ithaca" genannt haben, kann fehlende Teile von Texten vorhersagen und Ursprungsort sowie Entstehungszeit einschätzen.
Ithaca ist eine Variante eines Sprachmodells, das auf griechischen Inschriften trainiert wurde. Damit es mit fehlenden Buchstaben zurecht kommt, kann es Buchstaben- und Wortfolgen parallel auswerten.
Um Historiker:innen die Interpretation der Vorhersagen zu erleichtern, zeigt das Modell an, welcher Teil der Schrift wie stark Einfluss auf die Vorhersage hatte.
Durch die Hilfe von Ithaca erhöht sich die Genauigkeit beim Vervollständigen von Texten von 25% auf 72%. Außerdem kommt Ithaca beim Ursprungsort auf 71% Genauigkeit und kann die Entstehungszeit auf einen 30-Jahre-Zeitraum eingrenzen.

Außerdem

« VorherigeNächste »

Hier abonnieren und keine Ausgabe mehr verpassen: