Viel Spaß beim Lesen!
Blutvergiftungen sind sehr gefährlich, wenn sie unbehandelt bleiben, und gleichzeitig schwierig zu diagnostizieren.
Um die Behandlung von Blutvergiftungen zu verbessern, hat das Duke University Hospital in North Carolina verschiedene Möglichkeiten getestet; zum Beispiel Handlungsempfehlungen beim Umgang damit oder Meldungen in der elektronischen Patientenakte, die auf Risikopatient:innen hinweisen sollen.
Das Problem mit den Meldungen war aber, dass sie sehr viele Fehlalarme ausgelöst haben. Und weil es so viele Fehlalarme gab, haben sich die Behandelnden daran gewöhnt, die Meldungen zu ignorieren.
Daher hatten diese Maßnahmen nur geringen Erfolg.
Zwei beteiligte Ärzte haben deshalb vorgeschlagen, eine Software zu entwickeln, die maschinelles Lernen benutzt, um genauere Ergebnisse zu bekommen und weniger Fehlalarme auszulösen.
Bei internen Untersuchungen hat sich gezeigt, dass es in der Notaufnahme das größte Verbesserungspotential beim Umgang mit Blutvergiftungen gab, daher konzentrierten sie sich darauf.
Das erste Jahr des Projekts verbrachten sie hauptsächlich damit, Daten von Patient:innen zu sammeln und zu bereinigen.
So kamen sie auf mehr als 40.000 Datensätze aus den Jahren 2014 und 2015, mit verschiedenen Werten wie den Vitaldaten während des Krankenhausaufenthalts, Laborergebnissen, und Patientendaten wie Alter, Vorerkrankungen und Medikationsgeschichte.
Mit diesen Daten konnten sie schließlich ein neuronales Netz (mit LSTM-Architektur) trainieren, das aus der zeitlichen Entwicklung der Daten eine Wahrscheinlichkeit vorhersagen konnte, dass ein/e Patient:in eine Blutvergiftung entwickelt.
In Tests konnten sie damit durchschnittlich vier Stunden vorher erkennen, dass jemand eine Blutvergiftung entwickeln würde, bevor es tatsächlich passiert ist. Mit einem Fehlalarm auf zwei richtige Alarme konnte außerdem die Anzahl der Fehlalarme deutlich reduziert werden.
Um das Modell einfach benutzbar zu machen, haben sie es in eine iPad App verpackt, die die vorhergesagten Risiken für die Patient:innen mit Farben kennzeichnet.
Technisch war das Projekt also erfolgreich, aber in der Testphase haben sich Herausforderungen im praktischen Einsatz gezeigt.
Beispielsweise wurde die App von einem speziellen Notfall-Team von Pfleger:innen überwacht, um zu verhindern, dass die Meldungen der App einfach ignoriert werden, wie beim vorherigen System.
Bei einem Alarm mussten diese die zuständigen Ärzt:innen anrufen und sie darüber informieren. Dadurch, dass jetzt quasi die Pfleger:innen eine Diagnose hatten, die sie den Ärzt:innen mitteilten, statt andersherum, veränderte sich die bestehende Hierarchie zwischen Ärzt:innen und Pfleger:innen.
Ein Pfleger berichtet, dass er das Gefühl hatte, dass dadurch manche Ärzt:innen ihre medizinische Urteilsfähigkeit in Frage gestellt sahen.
Eine weitere Schwierigkeit war, dass das neuronale Netz nur einen Risikowert anzeigt, aber keine Begründung dafür liefern kann. Die Ärzt:innen wollten bei einem Alarm aber gerne wissen, was sie eventuell übersehen oder falsch interpretiert hatten.
Dazu kam noch, dass Blutvergiftungen zwar für die Klinikleitung eine hohe Priorität hatten, das Personal in der Notaufnahme aber vor allem damit beschäftigt war, Patient:innen mit Knochenbrüchen oder psychischen Notfällen zu stabilisieren, und gar keinen Verbesserungsbedarf beim Umgang mit Blutvergiftungen sah.
Die Pfleger:innen entwickelten während der Testphase verschiedene Strategien, um die Akzeptanz ihrer Anrufe bei den Ärzt:innen zu erhöhen. Zum Beispiel nicht gegen Schichtende anzurufen oder den Status von mehreren Patient:innen in einem Telefonat zu besprechen statt jeden einzeln.
Weitere Strategien waren unter anderem am Anfang eines Anrufs erstmal "Wie geht's?" zu fragen und dann das weitere Gespräch an die Antwort anzupassen oder nicht einfach die Vorhersage der App mitzuteilen, sondern nach der Meinung der Ärzt:innen dazu zu fragen.
Außerdem begannen die Pfleger:innen vor Gesprächen die Patientengeschichte anzuschauen, um bei Nachfragen noch zusätzlichen Kontext geben zu können.
Nach der dreijährigen Entwicklungszeit und einer Pilotphase von bis Mitte 2019 wird die App heute unter dem Namen "Sepsis Watch" in der Klinik der Duke University eingesetzt.
Wenn man einem aktuellen Sprachmodell eine Frage stellt, dann kann es oft die richtige Antwort dafür vorhersagen. Oft ist die Vorhersage aber auch kompletter Unsinn.
Um das zu verbessern, haben Forscher:innen von Deepmind ein System entwickelt, das Quellen für seine Antworten zitiert.
Das neue System besteht aus drei Teilen: Ein Teil, der die Frage googlet, einer der aus den Ergebnissen eine Reihe von möglichen Antworten generiert, und einer, der die beste Antwort auswählt.
Der Generierungsteil basiert auf Gopher, einem "normalen" Sprachmodell von Deepmind mit 280 Milliarden Parametern, das von den Forscher:innen speziell für die neue Aufgabe mit Supervised Learning weiter trainiert wurde.
Der Antwort-Auswählen-Teil basiert auf einer kleineren Version von Gopher (7 Milliarden Parameter), die sie mit Reinforcement Learning für die Aufgabe trainiert haben.
Um passende Trainingsdaten zu bekommen, haben sie zuerst vom Basis-Gopher-Modell Antworten zu Fragen generieren lassen und diese dann von Menschen bewerten lassen.
Für den Generierungsteil waren das 5.000 Fragen, bei denen die generierte Antwort danach bewertet wurde, ob sie einerseits für die Frage plausibel ist und andererseits auch von der Quelle unterstützt wird. Dadurch konnte das Modell lernen, wie es Antworten generiert, die zur Frage passen und von der Quelle unterstützt werden.
Für den Antwort-Auswählen-Teil haben sie das Modell für jede Frage jeweils zwei Antworten generieren lassen, und Menschen dann die bessere auswählen lassen. Dadurch konnte das Modell anhand von 33.242 Frage-Antwort-Paaren lernen, bessere und schlechtere Antworten zu unterscheiden.
Um das System zu testen, haben die Forscher:innen die generierten Antworten wieder von Menschen bewerten lassen. Bei Fragen nach Fakten bescheinigten diese den Antworten zu 80% eine hohe Qualität, bei Fragen nach Erklärungen zu 67%.
Wenn das Modell zusätzlich die Möglichkeit hatte Fragen nicht zu beantworten, wenn es die eigene Antwort selbst nicht gut fand, dann verbesserte sich das sogar noch zu 90% bzw. 80%.
Obwohl das System also gut funktioniert, ist so nicht garantiert, dass die Antwort auch wirklich von der Quelle belegt wird, und auch die Vertrauenswürdigkeit der Quelle wird nicht geprüft.
Außerdem bleibt noch offen, wie man mit fiktionalen, satirischen oder metaphorischen Inhalten umgehen soll. Zum Beispiel antwortet es auf die Frage "Was verleiht Red Bull?" mit "Flügel" und zitiert dazu die Red-Bull-Webseite.
Ich erwarte, dass es in diesem Bereich in nächster Zeit noch einiges an Entwicklungen geben wird, um diese Punkte anzugehen, denn auch andere Forscher:innen bei Google (LaMDA, WT5) und OpenAI (WebGPT) arbeiten an ähnlichen Systemen.
Andrej Karpathy, "Senior Director of AI" bei Tesla, hat ein altes neuronales Netz von Yann LeCun, dem heutigen KI-Forschungsleiter von Meta AI, nachprogrammiert. In LeCuns Veröffentlichung von 1989 wird vermutlich das erste neuronale Netz beschrieben, das für einen realen Anwendungsfall (Handschrifterkennung) auf die selbe Weise trainiert wurde, wie es heute noch bei neuronalen Netzen gemacht wird, mit der sogenannten Backpropagation.
Damit kam Karpathy auch zu ähnlichen Ergebnissen wie die Forscher:innen 1989.
Dann hat er ausprobiert, was passiert, wenn er Erkenntnisse aus der aktuellen Forschung darauf anwendet, um das Modell zu optimieren.
(Für die Nerds: andere Loss-Funktion, Adam Optimizer, Data Augmentation, Dropout und ReLU-Aktivierungsfunktion)
Damit konnte er die Anzahl der Fehler im Test um 60% reduzieren, allerdings vervierfachte sich auch die Trainingszeit. 1989 dauerte das Training noch drei Tage auf einem Großrechner, da hätte das einen deutlichen Unterschied gemacht. Heute sind es auf einem MacBook Air nur noch 90s, da fällt das nicht mehr so stark ins Gewicht.
Daraus schließt er für die neuronalen Netze im Jahr 2055: sie funktionieren im Prinzip gleich, sind nur viel größer (10 Millionen Mal), genauso wie die Trainingsdatensätze. Neuronale Netze, die heute spezielle Rechner und Tage an Training brauchen, wird man auf dem Laptop trainieren können. Und, dass die heutigen Modelle genauso wie damals noch nicht komplett optimiert sind und kleine Änderungen die Fehler halbieren könnten.
MIT trainiert Roboter in einer Simulation
Forscher:innen des MIT haben einem vierbeinigen Roboter in einer Simulation mithilfe von Reinforcement Learning beigebracht zu laufen, sich verschiedenen Untergründen und Bodenbeschaffenheiten anzupassen, sich schnell zu drehen und schnell zu rennen.
Das so trainierte Modell haben sie dann auf einen echten Roboter übertragen, der dadurch die trainierten Fähigkeiten auch in der echten Welt anwenden konnte. Damit konnten sie einen neuen Geschwindigkeitsrekord von ca. 14 km/h für diesen Robotertyp aufstellen.
Forscher:innen von Meta AI haben schon letzten Sommer etwas ganz ähnliches gemacht (mein Bericht dazu). Der Unterschied scheint aber zu sein, dass das System von Meta auf zwei Module setzte, eins für die Steuerung und eins für die Erkennung der Umgebung, während das des MIT nur aus einem besteht, das beides kann.