Viel Spaß beim Lesen!
Ein großer Kritikpunkt an neuronalen Netzen, und vor allem den immer größeren Sprachmodellen, ist der Energieaufwand beim Training und der damit verbundene CO₂-Ausstoß. Aber wie viel ist das wirklich?
Praktischerweise hat Google dazu vor kurzem Zahlen veröffentlicht: der Anteil von maschinellem Lernen am Stromverbrauch von Google liegt zwischen 10% und 15% (Training 40%, Vorhersagen 60%), gemessen jeweils in einer Woche im April 2019, 2020 und 2021 [1] (S. 7).
Um vom Anteil am Energieverbrauch zum CO₂-Ausstoß zu kommen, ist jetzt noch die Frage, wie viel CO₂ Google ausstößt.
Auf der Google-Startseite steht unten "CO₂-neutral seit 2007" [2]. Bedeutet das, dass die Frage schnell beantwortet ist, weil sie gar kein CO₂ ausstoßen?
Nein, stattdessen investiert Google in Kompensationsprojekte, um die Emissionen auszugleichen und so "neutral" zu werden [3] (S.1), [4].
Seit 2017 kauft Google außerdem so viel Strom aus erneuerbaren Energien wie sie verbrauchen [3] (S.1). Bedeutet das, dass sie keinen Strom aus fossilen Quellen benutzen?
Nein, denn wenn z.B. an einem Standort nachts nur Kohlestrom verfügbar ist, dann nehmen sie den, aber kaufen zum Ausgleich dafür an einem anderen Ort oder zu einer anderen Zeit mehr Strom aus Erneuerbaren [5] (S.1), [6] (S.1).
So stammt z.B. nur 3% des Stromverbrauchs des Rechenzentrums in Singapur aus erneuerbaren Energien, während es in Oklahoma 96% sind [7].
Noch ein Ausblick in die Zukunft:
Bis 2030 will Google an jedem Standort zu jeder Zeit nur noch Strom aus CO₂-freien Quellen einsetzen [3] (S.1), [6] (S.1), [7], [8] (S.1). Bedeutet das dann 100% Ökostrom?
Nein, denn Google zählt zu "CO₂-frei" auch Atomenergie und schließt sogar fossile Quellen, bei denen das entstehende CO₂ aufgefangen wird, bevor es in die Atmosphäre gelangt, nicht aus [3] (S.3), [8] (S.1).
Die Berechnung der tatsächlichen CO₂-Emissionen ist dadurch, dass diese je nach Standort des Rechenzentrums und Tageszeit unterschiedlich sind, und man auch noch den Einfluss der Kompensationen und des zusätzlich gekauften Ökostroms beachten müsste, sehr schwierig.
So schwierig, dass sogar Google selbst daran zu scheitern scheint. Denn in ihrer Veröffentlichung benutzen sie zur Berechnung des eigenen CO₂-Ausstoßes keine genauen Zahlen, sondern nehmen einfach die Angabe des durchschnittlichen CO₂-Ausstoßes pro kWh für Strom in den USA von Carbonfund.org [1] (S. 3). Diese Zahl wiederum kommt von Daten der US-Umweltschutzbehörde EPA von 2018 [9], [10], mittlerweile sind die Daten aber auch für 2020 verfügbar.
Da Google selbst diese Zahlen offenbar als geeignete Näherung für den eigenen CO₂-Ausstoß betrachtet, benutze ich sie hier auch, verwende aber die aktuelleren von 2020.
Demnach lag der Treibhausgasausstoß pro Megawattstunde in den USA bei 0,371 tCO₂e [11] (der geschätzte Wert für den Strommix in Deutschland war 2020 0,366 tCO₂e / MWh [12]).
"tCO₂e" steht dabei für "Tonnen CO₂ Äquivalent" und bedeutet, dass man andere klimaschädliche Gase, die ausgestoßen werden, auf die Klimawirkung von CO₂ umrechnet, um sie besser vergleichen zu können.
Google gibt den eigenen Energieverbrauch für 2020 mit 15,4 TWh an [1] (S. 6). Der Anteil von ML daran liegt also zwischen 1,54 TWh (10%) und 2,31 TWh (15%).
Eine TWh sind eine Million MWh, das bedeutet, die Emissionen von maschinellem Lernen bei Google liegen bei (gerundet) 570.000 - 860.000 tCO₂e (Training 230.000 - 340.000 tCO₂e, Vorhersagen 340.000 - 510.000 tCO₂e).
Zum Vergleich: Die Stadt Tübingen mit 90.000 Einwohnern [13] hatte 2017 Emissionen von 470.000 tCO₂e [14] (S.5), in ganz Deutschland waren es 2020 729 Millionen tCO₂e [15].
Forscher:innen des Dartmouth College haben ein Modell entwickelt, das Social Media-Beiträge analysieren und daran Depressionen, Angststörungen und Bipolare Störungen erkennen kann.
Dafür betrachten sie nicht den Inhalt der Beiträge direkt, sondern die Emotionen, die man darin erkennen kann, und die Übergänge zwischen verschiedenen Emotionen.
Dadurch konnten sie den Einfluss reduzieren, den es haben kann, dass jemand über verschiedene Themen schreibt. Dieser Einfluss kann dafür sorgen, dass Modelle, die die Inhalte der Beiträge analysieren, für verschiedene Themen unterschiedlich gut funktionieren.
Die Daten, die sie fürs Training benutzt haben, sind Reddit-Posts von 2011-2019. Um herauszufinden, welche Beiträge von Benutzer:innen geschrieben wurden, die eine der betrachteten Erkrankungen haben, haben sie nach Sätzen wie "I am diagnosed with bipolar/depression/anxiety" und Varianten davon gesucht.
Von den so identifizierten Benutzer:innen haben sie dann aber nur die Posts behalten, die vorher geschrieben wurden, weil eine Diagnose das eigene Verhalten beeinflussen kann und sie diesen Einfluss ausschließen wollten.
Auf Reddit gibt es verschiedene Bereiche, zu verschiedenen Themen, die sogenannten Subreddits. Als Kontrollgruppe wurden aus den Subreddits, die von den als erkrankt erkannten Benutzer:innen am meisten benutzt wurden, zufällige Nutzer:innen ausgewählt. Daraus haben sie dann die wieder herrausgefiltert, die in Subreddits über psychische Probleme gepostet haben.
Zur Klassifizierung der Emotionen haben die Forscher:innen Daten von Twitter genutzt, um vortrainierten BERT Sprachmodellen die Erkennung von jeweils einer von vier Emotionen beizubringen: Freude, Traurigkeit, Wut und Angst (zufällig sind das vier der fünf Emotionen aus dem Pixar-Film Alles steht Kopf, nur Ekel fehlt).
Zum Test, wie gut die Modelle auf den Reddit-Daten funktionieren, haben sie dann von Hand die Emotionen für 200 Kommentare untersucht und mit den Vorhersagen der Modelle verglichen.
Um die Übergänge zwischen den Emotionen zu finden, haben sie die Beiträge der Benutzer in 30 Minuten-Fenster eingeteilt und die darin gefundenen Emotionen gespeichert. Dadurch konnte jedes dieser Fenster einen von 17 möglichen Zuständen haben: alle möglichen Kombinationen der vier Emotionen, von "in dem Zeitfenster wurde keine der Emotionen in den Posts gefunden" bis zu "alle Emotionen wurden gefunden" und zusätzlich "keine Posts in diesem Zeitraum".
Durch die Betrachtung der Übergänge zwischen diesen Zuständen konnte das Modell dann mit Genauigkeiten von 83,2% (Depression), 85,3% (Angststörung) und 86,6% (Bipolare Störung) die Erkrankung der Benutzer:innen vorhersagen.
Neuronale Netze bestehen aus sogenannten "Knoten", auch "Neuronen" genannt. Diese sind in Schichten nebeneinander (Breite) und mehrere Schichten wiederum hintereinander angeordnet (Tiefe). Durch die Verbindungen zwischen den Schichten ergibt sich ein Netz aus Neuronen, daher der Begriff "neuronales Netz".
Es gibt die Faustregel, dass die gleiche Anzahl von Neuronen in einer tieferen Anordnung (mehr Schichten) bessere Ergebnisse liefert als in einer breiteren (mehr Neuronen pro Schicht). Allerdings führen mehr Schichten oft zu Problemen beim Training, daher kann man neuronale Netze nicht einfach immer tiefer machen.
Forscher:innen von Microsoft haben jetzt eine neue Variante der Transformer-Architektur entwickelt, die deutlich mehr Schichten erlaubt.
In Tests hat sich gezeigt, dass ihr Modell, mit "nur" 3,2 Milliarden Parametern in 200 Schichten, besser war als ein bestehendes Modell mit 12 Milliarden Parametern in 48 Schichten.
Was passiert, wenn man ein neuronales Netz auf 1 Milliarde Instagram-Bildern trainiert?
Forscher:innen von Meta haben ihre Verbindung zu Instagram genutzt, um diese Frage zu beantworten.
Normalerweise werden Bilder aufwändig vorverarbeitet und mit Beschreibungen versehen, bevor sie zum Training genutzt werden. Trotzdem haben die resultierenden Modelle oft Probleme, zum Beispiel mit Fairness.
Die Meta-Forscher:innen haben jetzt einen anderen Ansatz gewählt und getestet, was passiert, wenn man sich den Aufwand spart und einfach zufällige Bilder von Instagram für das Training benutzt. Dafür haben sie eine Milliarde Bilder aus der ganzen Welt genommen, außer aus der EU, weil wir besseren Datenschutz haben.
Auf diesen Bildern haben sie dann mit selbstüberwachtem Lernen ein Convolutional Neural Network mit 10 Milliarden Parametern trainiert, mithilfe von 496 Nvidia A100 Grafikkarten. Beim selbstüberwachten Lernen lernt das Modell Informationen über die Bilder in den Trainingsdaten, und kann dann für verschiedene Aufgaben benutzt werden, die mit Bildern zu tun haben.
Das so entstandene Modell haben sie ausführlich getestet (in 50 verschiedenen Tests) und dabei herausgefunden, dass es fairer ist als andere Modelle (z.B. bessere Objekterkennung in Bildern aus nicht-westlichen Ländern). Außerdem kann es beispielsweise den Ort der Aufnahme und zum Bild passende Wörter in mehreren Sprachen vorhersagen.