Viel Spaß beim Lesen!
Tesla hat vor kurzem auf dem AI Day die aktuellen KI-Entwicklungen der Firma vorgestellt. Es ging dabei um die Technik für das „Autopilot“ System, einen neuen Computerchip und einen menschenähnlichen Roboter.
Der "Autopilot"
Alle Tesla-Autos haben mehrere integrierte Kameras, deren Bilder für den „Autopilot“ benutzt werden. Die Kamerabilder werden in einem mehrstufigen Verfahren vorverarbeitet und dann mithilfe eines Transformer Modells vereinigt, so dass ein einziges 3D-Abbild der Umgebung entsteht.
Wie ein Transformer Modell in der Bildverarbeitung eingesetzt werden kann habe ich auch in der KI News Ausgabe #2 beschrieben.
Dieses dreidimensionale Bild der Umgebung nennt Tesla Vektorraum. Tesla vergleicht die Architektur hier mit dem visuellen Cortex eines Tieres, der ebenfalls aus den Bildern der Augen ein dreidimesionales Bild der Umgebung erzeugt.
Auf diesem 3D-Bild werden dann die neuronalen Netze angewandt, die erkennen, was sich in der Umgebung um das Auto herum befindet.
Dadurch entsteht eine neue Schwierigkeit. Neuronale Netze brauchen Labels in den Trainingsdaten, die ihnen zeigen was sie lernen müssen. Für neuronale Netze, die auf dreidimensionalen Daten angewandt werden, braucht es auch dreidimensionale Labels. Schon zweidimensionale Daten zu labeln ist aber bei großen Datenmengen oft zu aufwändig um es von Menschen machen zu lassen.
Um dieses Problem zu lösen hat Tesla ein neues System entwickelt, mit dem die Daten von mehreren Autofahrten an der gleichen Stelle zusammengeführt werden können. Dadurch wird die Datenqualität so verbessert, dass es möglich wird die Bilder von einer Software labeln zu lassen.
Zusätzlich benutzt Tesla auch Simulationen um die Modelle zu trainieren. Damit lassen sich zum Beispiel Situationen trainieren, die nur sehr selten auftreten.
Auch Vorfälle, bei denen erkannt wurde, dass der „Autopilot“ einen Fehler gemacht hat, können virtuell rekonstruiert werden, um die Software so zu verbessern, dass sich der Fehler nicht wiederholt.
Der Chip
Außerdem hat Tesla einen speziellen Chip für das Training der Modelle entwickelt. Daraus wollen sie einen Hochleistungsrechner bauen, der 1,1 Exaflops Rechenleistung bieten soll.
Das ist ungefähr doppelt so viel wie der aktuell stärkste Supercomputer der Welt, der nur auf 0,54 Exaflops kommt.
Der Roboter
Die überraschendste Ankündigung war aber der Tesla Bot. Dabei handelt es sich um einen geplanten menschenähnlichen Roboter. Der Bot soll 1,73 m groß und 57 kg schwer werden. Er soll 20 kg tragen und knapp 70 kg hochheben können und eine Geschwindigkeit von 8 km/h erreichen. Außerdem soll er einen Bildschirm am Kopf haben, um Informationen anzuzeigen.
Der Roboter soll die Autopilot-Technik aus den Autos zur Orientierung nutzen. Es soll also quasi der gleiche Computer sein wie in den Autos, nur eben auf Beinen statt auf Rädern.
Bei der Vorstellung des Roboters hat Elon Musk ein Beispiel zum Einsatz des Roboters gebracht, das auf die Pläne von Tesla für den Roboter hindeuten könnte. Er sagte, wenn man zu dem Roboter sagt „‚Bitte nimm diese Schraube und befestige sie mit diesem Schraubenschlüssel an einem Auto‘, dann sollte er das tun können.“
Wenn das Projekt erfolgreich wird, wird man in den Fabriken von Tesla also in Zukunft möglicherweise mehr Roboter als Arbeiter sehen.
Es war tatsächlich kein einsamer Informatiker, sondern die amerikanische Internetapotheke Medzino, die getestet hat, wie gut KI-generierte Anmachsprüche ankommen.
Dazu haben sie sich einige Anmachsprüche und Chatnachrichten vom bekannten Sprachmodell GPT-3 generieren lassen.
Damit haben sie dann eine Umfrage unter 724 amerikanischen Singles gemacht und sie gebeten die Sprüche zu bewerten bzw. den effektivsten auszuwählen.
Wer gehofft hat, dass GPT-3 seine 175 Milliarden Parameter nutzt um clevere Anmachsprüche zu generieren wird leider enttäuscht, einen Preis für Kreativität gewinnt GPT-3 nicht.
Der am besten bewertete Spruch war „Willst du eine Tasse Kaffee trinken?“ (funktioniert bei 57% der Frauen und 61% der Männer), dicht gefolgt von „Willst du was trinken gehen?“ (42% bzw. 56%).
Abgeschlagen auf dem letzten Platz war „Du siehst aus wie jemand, dem es gefallen könnte, mit mir eine Tasse Kaffee zu trinken.“ (17% bzw. 32%).
Während bei den Anmachsprüchen Männer und Frauen ähnliche Präferenzen gezeigt haben, gibt es bei den Chatnachrichten deutlichere Unterschiede.
Bei den Frauen liegt die Frage nach ihren liebsten Reisezielen ganz vorne (56%, Männer 55%), bei den Männern die etwas direktere Frage „Ich würde dich gerne besser kennenlernen, sollen wir mal was trinken gehen?“ (57%, Frauen 43%).
Den größten Abstand gibt es interessanterweise bei der Nachricht „Hey, ich hab dein Profil gesehen und finde dich süß. Würdest du dich mal treffen wollen?“, die bei Frauen mit 21% nicht so gut ankommt, bei Männern mit 44% dagegen schon.
Da die Befragten nicht wussten, dass die Nachrichten nicht von Menschen geschrieben worden waren und es auch sonst keinen Unterschied zu von Menschen geschriebenen Nachrichten gab, kann man wohl davon ausgehen, dass der Einsatz von GPT-3 hier keinen tieferen Sinn hatte, sondern nur zu höherer Aufmerksamkeit führen sollte.
Ich habe darüber geschrieben, ihr habt’s gelesen, es funktioniert also 😄
Forscher der Google-Tochter Deepmind haben einen Algorithmus entwickelt, mit dem neuronale Netze die Anzahl der Berechnungsschritte an die Schwierigkeit des Problems anpassen können.
Diesen Algorithmus haben sie in einem Paper mit dem Titel „PonderNet: Learning to Ponder“ veröffentlicht.
Ponder heißt auf Deutsch „überlegen“ oder „nachdenken“, was natürlich nicht das ist, was hier passiert. Daher wurden der Name PonderNet und der Titel des Papers teilweise als irreführend kritisiert.
Aber was ist dann eigentlich das Neue bei PonderNet?
Beim Training von neuronalen Netzen wird eine sogenannte „Verlustfunktion“ verwendet, um zu berechnen, wie gut eine Vorhersage des Netzes ist.
Das Ziel des Trainings ist es, die Parameter des Netzes so anzupassen, dass der Verlustwert bei den Vorhersagen so klein wie möglich ist. Die Verlustfunktion wird also dazu benutzt, die Parameter eines neuronalen Netzes zu optimieren.
Die Idee der Deepmind-Forscher war, in diese Verlustfunktion eine Variable für die Wahrscheinlichkeit aufzunehmen, mit der die Berechnung fortgesetzt werden soll. Dadurch kann beim Training des Netzes nicht nur das Ergebnis sondern auch die Anzahl der durchgeführten Berechnungsschritte optimiert werden.
Anders ausgedrückt kann man sagen, dass durch PonderNet bei schwierigen Problemen automatisch größere neuronale Netze verwendet werden, die aufwändiger zu trainieren sind, aber eben auch kompliziertere Lösungen finden können. Bei einfacheren Problemen dagegen verkleinert sich das Netz automatisch, um das Training zu beschleunigen.