Viel Spaß beim Lesen der heutigen Ausgabe!
Ein Team von Google Research hat eine neue Methode entwickelt den Hintergrund von Porträtfotos auszutauschen und gleichzeitig die Belichtung an den neuen Hintergrund anzupassen.
Dazu wird eine Architektur aus mehreren neuronalen Netzen benutzt, die als Eingabedaten das Porträtfoto und den neuen Hintergrund bekommt. Der Hintergrund muss dabei zusätzliche Daten zur Beleuchtung enthalten, ein sogenanntes "HDR lighting environment".
Um das gewünschte Ergebnis zu erhalten, werden drei Schritte durchgeführt:
1. Ein Convolutional Neural Network (CNN) erkennt die Person und die "Alpha Matte". Alpha Matte ist der Bildausschnitt, der die Person enthält.
2. Das "Relighting Module" wird auf das Porträtbild angewendet. Es besteht aus zwei neuronalen Netzen mit derselben U-Net Architektur. Es erkennt die Geometrie und Albedo (wie stark eine Oberfläche reflektiert) und bestimmt damit die Beleuchtung für jedes Pixel:
2a. Das Geometrie-Netz erkennt die Richtung, in die Licht reflektiert wird.
2b. Das Albedo-Netz erkennt wie stark etwas reflektiert.
3. In Schritt drei wird das Bild "neu beleuchtet", die Person wird mithilfe der Alpha Matte ausgeschnitten und mit dem neuen Hintergrund zusammengesetzt:
3a. Aus dem neuen Hintergrund werden "Light Maps" berechnet, die die Helligkeit von Oberflächen darstellen. Diese werden mithilfe der in Schritt zwei erkannten Eigenschaften auf die abgebildete Person angewendet (ebenfalls mithilfe von U-Nets). Dadurch wird die Beleuchtung der Person an den neuen Hintergrund angepasst.
3b. Als letztes wird die Person ausgeschnitten und mit dem neuen Hintergrund zusammengesetzt. Dazu wird wieder ein U-Net verwendet, wieder mit derselben Architektur wie auch schon bei den Geometrie- und Albedo-Netzen
In der dritten Ausgabe des Newsletters habe ich geschrieben, dass man von KI erzeugte Fake-Bilder oft an den Reflexionen in den Augen erkennt. Tatsächlich werden die Reflexionen in den Augen auch hier explizit als eine der Schwächen des Systems genannt.
Webseite zum Paper: https://augmentedperception.github.io/total_relighting/
Carbon Robotics, ein Startup aus Seattle, hat einen sehr beeindruckenden Roboter gebaut: 4,3t schwer, zwölf Kameras und acht 150W Laser, die alle 50ms ausgelöst werden können.
Zum Glück handelt es sich dabei nicht um eine Art Kriegsroboter, sondern um ein autonomes landwirtschaftliches Gerät. Das Gefährt sieht ähnlich aus wie ein futuristischer Mähdrescher und soll zur umweltschonenden Unkrautvernichtung eingesetzt werden.
Das funktioniert so: Dem Fahrzeug werden die Koordinaten des Feldes, auf dem es fahren soll, und die Bereiche zum Wenden am Ende der Bahnen eingestellt. Per GPS bestimmt es die eigene Position und bleibt innerhalb der festgelegten Bereiche.
Mittels Kameras vorne und hinten und eines Bilderkennungs-Algorithmus erkennt es automatisch die Furchen im Feld, in denen es fahren kann. Zusätzlich nutzt es auch Lidar Sensoren um Kollisionen mit Hindernissen zu vermeiden.
Ist es auf dem Feld, kommen die zwölf nach unten gerichteten Kameras zum Einsatz. Mit ihnen werden Bilder von den Pflanzen gemacht, die auf dem Feld wachsen. Diese Bilder werden dann von zwei verschiedenen Klassifizierungs-Modellen, eins für Nutzpflanzen, eins für Unkraut, eingestuft. Sagt die Bilderkennung "Unkraut", visiert einer der Laser die Pflanze an und verbrennt sie mit einem kurzen Lichtimpuls. Für die Bilderkennung ist ein extra Hochleistungsrechner mit acht NVIDIA Grafikkarten an Bord.
Die Vorteile dieser laserbasierten Unkrautvernichtung sind laut Hersteller, dass keine Herbizide eingesetzt werden müssen und somit kein Schaden an Boden und Nutzpflanzen entsteht, dass keine manuelle Arbeit nötig ist, höhere Erträge, sowie dass der Einsatz in der Biolandwirtschaft möglich ist.
Trotz der genannten Vorteile ist es unwahrscheinlich, dass wir diese Geräte bald in Deutschland sehen, denn nach Herstellerangaben lohnt sich der Einsatz erst für Felder mit mindestens 80ha Größe. Laut Statista ist jedoch in Deutschland die gesamte landwirtschaftliche Fläche pro Betrieb im Durchschnitt nur gut 60ha groß. Vielleicht gibt es ja in ein paar Jahren ein kleineres Modell, das dann auch zur Größe der Äcker hier passt.
Pressemitteilung: https://www.businesswire.com/news/home/20210413005415/en/Carbon-Robotics-Disrupts-Farming-Industry-with-Autonomous-Weeders (englisch)
Webseite: https://carbonrobotics.com/ (englisch)
Youtube Video: https://www.youtube.com/watch?v=vSPhhw-2ShI
Verbundwerkstoffe sind Werkstoffe, die aus mehreren miteinander verbundenen Materialien bestehen. Durch diese Verbindung bekommen sie neue Eigenschaften, zum Beispiel können sie bei gleicher Stabilität leichter sein. Deshalb werden sie beispielsweise für Verpackungen oder im Flugzeugbau verwendet.
Wie sich ein Verbundwerkstoff bei Belastung verhält ist allerdings, wegen der unterschiedlichen Eigenschaften der Materialien, aufwändig zu berechnen.
Forscher am MIT haben ein Modell entwickelt, das die Materialbelastung in Verbundwerkstoffen voraussagen soll, wodurch diese aufwändigen physikalischen Berechnungen ersetzt werden könnten.
Diese Berechnungen sind heute so aufwändig, dass sie sogar den Versuchsaufbau der Forscher stark eingeschränkt haben. Um die Komplexität so weit wie möglich zu reduzieren haben sie nur (simulierte) zweidimensionale Stoffe aus nur zwei Materialien untersucht, von denen eins weich und eins spröde war.
Die Simulation der Stoffe war außerdem auf 8x8 Pixel beschränkt und immer achsensymmetrisch.
Diese Einschränkungen waren notwendig, weil die Forscher als erstes Trainingsdaten erzeugen mussten, wofür sie die aufwändigen Berechnungen für jedes Trainingsbeispiel neu durchführen mussten. Als Trainingsdaten wählten die Forscher zufällig 2000 verschiedene Kombinationen der weichen und spröden Materialien.
Dann kam der Teil, dem die Einschränkungen geschuldet sind: für jeden der 2000 verschiedenen Stoffe mussten die Spannungs- und Dehnungsfelder bei Belastung berechnet werden. Diese berechneten Felder wurden dann wieder in grafische Darstellungen umgewandelt.
Mit den zufällig ausgewählten Verbundwerkstoffen und den dazugehörigen Bilder der Felder bei Belastung wurde dann ein GAN (generative adversarial network) trainiert. Ein GAN ist eine Architektur aus zwei neuronalen Netzen, die so trainiert werden, dass sie Daten erzeugen, die den Trainingsdaten sehr ähnlich sind. In diesem Fall erzeugt das GAN aus dem 8x8 Bild eines Verbundwerkstoffs eine überzeugende Darstellung der erwarteten Spannungs- und Dehnungsfelder bei Belastung.
Wichtig zu bedenken ist allerdings, dass, obwohl die Ergebnisse überzeugend aussehen, das neuronale Netz keine Ahnung von der zugrundeliegenden Physik hat. Es erzeugt einfach nur Bilder, die den Mustern entsprechen, die es aus den Trainingsdaten gelernt hat.
Nachdem der erste Versuch gut funktioniert hat, haben die Forscher noch weitere Möglichkeiten untersucht, darunter Stoffe aus nicht-quadratischen Komponenten, andere Belastungen, und "high-resolution" 32x32 Eingabebilder. Am Ende freuen sie sich über die daraus folgende "breite Anwendbarkeit" ihres Modells.
Diese Schlussfolgerung kann ich nicht ganz nachvollziehen, denn 8x8 Pixel große, symmetrische 2D Verbundstoffe bestehend aus Materialien aus geometrischen Formen wirken auf mich nicht besonders praxisnah. Allerdings kenne ich mich mit Materialwissenschaft und Werkstofftechnik auch nicht besonders gut aus, daher übersehe ich vielleicht etwas.
(Die Pressemitteilung des MIT zum Thema geht sogar noch weiter und spricht von "New AI tool calculates materials’ stress and strain based on photos", was eine schwierige Behauptung ist, da das GAN nur Bilder erzeugt, aber keine Berechnung der Belastung durchführt.
Außerdem beginnt sie direkt mit "Isaac Newton may have met his match.". Ebenfalls eine schwierige Aussage, zu behaupten, ein Bildverarbeitungsalgorithmus sei vergleichbar mit einem der wichtigsten Physiker der Geschichte.)
Meiner Meinung nach könnte solch ein Modell, wenn es noch weiterentwickelt wird, am ehesten bei der Entwicklung von neuen Materialien zum Einsatz kommen, wenn schnell viele verschiedene Möglichkeiten ausprobiert werden sollen. Aber es kann die echte Berechnung der Materialeigenschaften am Ende doch nicht ersetzen.
Paper: https://advances.sciencemag.org/content/7/15/eabd7416 (englisch)
Pressemitteilung: https://news.mit.edu/2021/ai-materials-stress-strain-0422 (englisch)
Lyft verkauft "Autonomes Fahren"-Bereich
Die Fahrdienstleister Lyft und Uber haben beide in den letzten Jahren an Technologien zum Autonomen Fahren gearbeitet. Da beide Unternehmen große Verluste machen (2020 Lyft: $1,8 Mrd. Verlust bei $2,4 Mrd. Umsatz / Uber: $6,8 Mrd. Verlust bei $11,1 Mrd. Umsatz), scheint das aktuelle Geschäftsmodell nicht zu funktionieren. Die Entwicklung selbstfahrender Autos wäre daher eine Möglichkeit langfristig die Kosten zu senken, indem die Fahrer eingespart werden.
Jetzt verkauft allerdings Lyft den "Autonomes Fahren"-Bereich an Toyota. Bedeuted das, dass ihr Vertrauen in die Autohersteller gewachsen ist, ein selbstfahrendes Auto auf den Markt zu bringen? Oder haben sie im Gegenteil erkannt, dass es noch lange dauern wird, bis die Technik einsatzbereit ist und wollen daher die Entwicklungskosten sparen um die Zwischenzeit zu überleben?
Selbstfahrende Taxis in München
Die Intel-Tochterfirma Mobileye will 2022 einen Dienst für selbstfahrende Taxis ohne Sicherheitsfahrer in München starten. Dort werden die Autos bereits seit Sommer 2020 mit Fahrer an Bord getestet. Das Projekt steht noch unter dem Vorbehalt, dass es durch ein Bundesgesetz (ist bereits im Gesetzgebungsprozess) und den Freistaat Bayern erlaubt wird.
Mitteilung des Bundesverkehrsministeriums zum geplanten Gesetz
Tesla Unfall doch mit Fahrer
Ende April war ein tödlicher Tesla-Unfall in den Schlagzeilen, weil die Polizei am Unfallort niemanden auf dem Fahrersitz gefunden hat. Das hat zu einigen Diskussionen geführt, über die Sicherheit des Autopilot Systems und auch die Frage, ob Tesla seine Kunden mit Namen wie "Autopilot" und "Full Self Driving" nicht in falscher Sicherheit wiegt, da es sich tatsächlich nur um Assistenzsysteme handelt.
Außerdem hat das amerikanische Magazin Consumer Reports in Tests auf abegesperrten Strecken herausgefunden, dass der Tesla Autopilot das Auto unter Umständen auch dann fährt, wenn niemand auf dem Fahrersitz sitzt.
Tesla hat nach einer vorläufigen Untersuchung mitgeteilt, dass der Autopilot auf der betreffenden Straße gar nicht eingeschaltet werden kann, und somit auch nicht den Unfall verursacht haben kann.
Dieser Einschätzung hat sich nach einer eigenen Untersuchung auch die amerikanische Verkehrssicherheitsbehörde NTSB angeschlossen. Zusätzlich schreibt das NTSB, dass auf Bildern einer Überwachungskamera zu sehen ist, wie sich der Eigentümer des Autos auf den Fahrersitz setzt.
Artikel über den Unfall (Reuters) (englisch)
Artikel mit Aussage von Consumer Reports (Reuters) (englisch)
Bericht des NTSB (pdf) (englisch)
Der Londoner Softwareentwickler Cal Paterson argumentiert in einem Blogeintrag, dass maschinenlesbare Daten vorgezogen werden vor Daten, die durch maschinelles Lernen gewonnen werden.
Diesen Standpunkt verdeutlicht er am Beispiel von Google. Obwohl Google sehr viel KI Forschung betreibt (diese Ausgabe eingerechnet kamen Nachrichten von Google bisher in 60% meiner Newsletter vor), werden für die Google Suche immer mehr Metadaten benötigt.
Wenn du schonmal eine Webseite veröffentlicht hast, kennst du sicher einige davon, zum Beispiel Canonical URL, Sitemap.xml, OpenGraph, Schema.org oder Microformat. Wenn dir das nichts sagt, kennst du vielleicht die Infoboxen von Wikipedia, die neben den Suchergebnissen angezeigt werden. Oder du hast schonmal die Produktsuche von Google Shopping benutzt, für das die Händler die Produktdaten in einem maschinenlesbaren Format bereitstellen müssen.
All diese Daten könnte Google auch durch Analyse der entsprechenden Webseiten mithilfe von ML Modellen bekommen. Aber das wäre aufwändiger, und wahrscheinlich auch fehleranfälliger, als sich die Daten in einem maschinenlesbaren Format geben zu lassen.
In diesem Verhalten hat Cal ein Muster erkannt: Um eine neue Technik einzuführen wird zuerst KI benutzt um die nötigen Daten zu bekommen. Wenn sie sich etabliert hat und der Mehrwert offensichtlich ist, kommt der Übergang zur Benutzung von Metadaten.
Blogeintrag: https://calpaterson.com/metadata.html (englisch)
Google Paper: https://research.google/pubs/pub334/ (englisch)