KI News #60
Hallo und herzlich willkommen zur sechzigsten Ausgabe von KI News. Wie letztes Mal versprochen, mit einem Überblick über die Neuigkeiten von Google aus den letzten Monaten. Außerdem hat Apple eine Reihe von KI-Ankündigungen gemacht, bei OpenAI und xAI sind Dinge passiert und Meta beschreibt die KI Infrastruktur für Llama 3.
Es gibt einen neuen Fall, wo jemand ChatGPT als Informationsquelle benutzt hat und damit sehr öffentlich auf die Nase gefallen ist.
Zu guter Letzt gibt es ein Update zum autonomen Fahren (Waymo hatte ein Hup-Problem und Cruise ist auf dem Weg zurück in den Normalbetrieb) - und noch mehr.
Viel Spaß beim Lesen!
Inhalt
Nobelpreise für KI-Forscher
Sowohl der Physik- als auch der Chemie-Nobelpreis gingen in diesem Jahr an KI-Forscher.
Der Nobelpreis für Physik wurde je zur Hälfte an John Hopfield und Geoffrey Hinton verliehen, für ihre Beiträge zur Entwicklung von künstlichen neuronalen Netzen. Diese sind die Grundlage für quasi alles, worüber ich in diesem Newsletter schreibe: 📖 nobelprize.org
Der Nobelpreis für Chemie wurde an drei Personen vergeben: zur Hälfte an David Baker und zu je einem Viertel an Demis Hassabis und John Jumper. Alle drei haben Methoden entwickelt, um die Struktur von Proteinen mithilfe von Computern vorherzusagen.
Demis Hassabis und John Jumper haben dafür ein KI-Modell entwickelt (zusammen mit vielen weiteren Forscher:innen) und bekommen den Nobelpreis explizit für die zweite Version davon, AlphaFold2 (nature.com): 📖 nobelprize.org
Neuigkeiten von Google
- Neue KI-Features in der Google Suche
- In der Google Suche wird bei manchen Suchbegriffen jetzt eine KI-generierte Antwort ("AI Overview") über den eigentlichen Ergebnissen eingeblendet.
- Die Antworten enthalten auch Links zu den Quellen, damit man sie überprüfen oder weitere Informationen finden kann.
- Das Problem dabei: im Internet steht wirklich viel Scheiß. Deshalb kann man auch zum größten Unsinn eine Quelle finden.
Zum Beispiel hat jemand das Problem gegooglet, dass der Käse von der Pizza rutscht. Eine im AI Overview vergeschlagene Lösung: ungiftigen Klebstoff in die Soße mischen, damit sie klebriger wird. Quelle: irgendein Quatsch-Post auf Reddit. (x.com)
Jemand anderes wollte wissen, was er oder sie tun soll, weil der Blinker des Autos kein Geräusch mehr macht. Einer der KI-Vorschläge: die Blinker-Flüssigkeit austauschen. (x.com)
Weitere Beispiele hat Watson.ch gesammelt: watson.ch
- Google sagt, die fragwürdigen Ergebnisse gäbe es nur bei einigen ungewöhnlichen Suchanfragen und dass sie nicht dem Erlebnis der meisten Nutzer:innen entsprechen würden: theverge.com
- Obwohl das Thema jetzt wieder besonders viel Aufmerksamkeit bekommt, ist das Problem an sich nicht neu.
Auch die ohne KI erstellten Antworten von Google sind teilweise falsch (KI News #22) und sie konnten auch bisher schon unbeabsichtigt KI-Halluzinationen beinhalten (KI News #53).
- 📖 blog.google
- 📖 theverge.com
- CO₂ Emissionen
- Die CO₂ Emissionen von Google im Jahr 2023 sind gegenüber 2022 um 13% gestiegen, seit 2019 sogar um 48%.
- Der Strombedarf der Google-Rechenzentren ist von 2022 zu 2023 um 17% (3,5 TWh) gestiegen, laut Google war das einer der Haupt-Treiber der gestiegenen Emissionen.
- Möglicherweise im Zusammenhang mit diesem Anstieg ist der Hinweis "CO₂-neutral seit 2007", der früher unten auf der Google-Startseite zu sehen war (Screenshot z.B. hier webzweipunktnull.de) ersetzt worden durch einen neuen Slogan ohne konkrete Aussage: "Drei Jahrzehnte Klimaschutz: Jede Entscheidung zählt).
- Google Environmental Report 📖 gstatic.com
- Neue Modelle
- Med-Gemini
- Med-Gemini ist eine Familie von Modellen, die bei medizinischen Anwendungsfällen hilfreich sein soll, z.B. Schreiben von radiologischen Berichten oder Zusammenfassen von Gesundheitsinformationen.
- 📖 research.google
- AlphaProteo
- Eine Modellfamilie, die Forscher:innen dabei helfen kann, Proteine zu finden, die an bestimmte andere Proteine binden.
- 📖 deepmind.google
- Bessere Vorschläge bei Youtube Musik
- Google hat einen Blogpost veröffentlicht, der beschreibt, wie die Vorschläge von Youtube Musik durch den Einsatz von Transformer Modellen verbessert wurden.
- 📖 research.google
- AlphaProof und AlphaGeometry 2
- Beides sind Modelle, die mathematische Probleme lösen können.
- Für das Training von AlphaProof haben die Forscher:innen ein Gemini-Sprachmodell darauf trainiert, Aufgabenstellungen von natürlicher Sprache in formale Beschreibungen zu übersetzen.
Für diese Problem-Beschreibungen hat AlphaProof dann mögliche Lösungen generiert. Die möglichen Lösungen wurden dann automatisch auf Korrektheit geprüft. Mit dem Ergebnis der Prüfung wurde AlphaProof dann mithilfe von Reinforcement Learning trainiert.
- AlphaGeometry 2 ist eine verbesserte Version des AlphaGeometry Modells, das im Januar vorgestellt wurde (KI News #57).
Es soll schneller sein und komplexere Probleme lösen können als die erste Version.
- deepmind.google
- Veo
- Veo ist ein Diffusion-Modell, das Videos in Full-HD-Qualität generieren kann.
- Als Eingabe kann Veo einen einfachen Text, ein Bild oder auch ein bestehendes Video verarbeiten.
- deepmind.google
- Gemini 1.5 Flash und Gemini 1.5 Pro
- Die Pro Variante mit einer Kontextlänge von 2 Millionen Tokens und die kleinere, aber besonders schnelle, Flash Variante des Gemini Sprachmodells sind veröffentlicht worden.
- developers.googleblog.com
- deepmind.google
- Video to Audio
- Forscher:innen von Deepmind haben ein Diffusion-Modell entwickelt, das zu einem Video passendes Audio generieren kann, z.B. Hintergrundmusik oder Geräusche.
- Um das Ergebnis zu beeinflussen, können Nutzer:innen beschreiben, wie die Audiospur klingen soll und aber auch wie sie nicht klingen soll.
- deepmind.google
- JEST - eine neue Trainingstechnik
- Die Abkürzung JEST steht für Joint Example Selection (und das T vielleicht für Training?).
- Die Idee ist, dass es für ein Modell einfacher ist, von manchen Trainingsdaten zu lernen, wenn sie mit anderen Daten zusammen gruppiert werden.
- Die Forscher:innen schreiben, dass durch den Einsatz von JEST nur noch ein Zehntel der Rechenleistung für das Training nötig war.
- arxiv.org
- decrypt.co
Apple Intelligence, Siri und ChatGPT Integration
- Apple Intelligence, das KI System von Apple:
- Writing Tools: Texte umformulieren (Rewrite), Formulierungen verbessern (Proofread), Zusammenfassen (Summarize).
- Mail: wichtigste E-Mails zuerst anzeigen (Priority Messages), Zusammenfassungen als Vorschau statt der ersten Zeilen der Mail, Vorschläge für Antworten (Smart Reply).
- Benachrichtigungen: Zusammenfassungen und wichtigste zuerst anzeigen, ähnlich wie bei E-Mails. Außerdem ein neuer "Nicht Stören"-Modus, bei dem nur als dringend eingeschätzte Benachrichtigungen angezeigt werden.
- In den Notizen und Telefon Apps können Sprachaufnahmen gemacht, in Texte umgewandelt und zusammengefasst werden.
- Mit Image Playground können iPhone-Nutzer:innen Bilder auf Basis von Fotos und einer Beschreibung oder einem Thema generieren und mit Genmoji können sie eigene Emojis erstellen lassen.
- Um Fotos und Videos in der Galerie wieder zu finden, kann man einfach beschreiben nach was man sucht und bekommt passende Fotos oder Video-Stellen vorgeschlagen.
- Außerdem kann das "Clean Up" Tool Objekte aus dem Hintergrund von Fotos entfernen.
- Die meisten Funktionen von Apple Intelligence sollen auf dem iPhone selbst laufen. Wenn ein größeres KI-Modell nötig ist, dann soll das zwar in der Cloud laufen, aber nur auf speziellen Servern, die die Daten besonders schützen sollen. Wie genau, das beschreibt Apple hier: security.apple.com
- Neue Funktionen in Siri und Integration von ChatGPT
- Siri soll Informationen in E-Mails und anderen Nachrichten analysieren und darauf basierend Fragen beantworten oder Aktionen ausführen können.
- Auf Wunsch der Nutzer:innen kann Siri Eingaben an ChatGPT weitergeben und die Antworten anzeigen.
- Auch in die Writing Tools wird ChatGPT integriert, so dass man generierte Texte direkt einfügen kann.
- 📖 apple.com
- Wie funktioniert das Ganze?
- Apple veröffentlicht, im Gegensatz zu zum Beispiel OpenAI oder Google, sehr viel mehr Informationen über seine KI-Modelle.
- Für Apple Intelligence werden zwei Modelle direkt auf dem iPhone ausgeführt: ein Sprachmodell mit 2,6 Milliarden Parametern und ein Bild-Modell.
- Ein "Orchestration" Service entscheidet, ob eine Aufgabe von den Modellen auf dem iPhone oder in der Cloud ausgeführt wird.
- Damit auf dem iPhone nicht für jede Aufgabe ein spezialisiertes Sprachmodell geladen werden muss, nutzt Apple sogenannte "Adapter" - kleinere neuronale Netze, die auf die jeweilige Aufgabe angepasst sind und die Ausgabe des Sprachmodells entsprechend verarbeiten.
- 📖 machinelearning.apple.com
- 📖 arxiv.org
- Ein interessanter Blogeintrag darüber, wie sich Apples Ansatz bei KI von Google oder Microsoft unterscheidet: 📖 ben-evans.com
Neuigkeiten von OpenAI
- OpenAI hat eine neue Modell-Familie namens o1 entwickelt, die zahlende Kund:innen nutzen können. Dabei handelt es sich um Sprachmodelle, die in ihren Antworten mehrere Zwischenschritte nutzen (die sogenannte "Chain-of-Thought" Technik), um komplexe Probleme besser lösen zu können: 📖 openai.com
- In einer neuen Finanzierungsrunde hat OpenAI 6,6 Milliarden US-Dollar von Investoren bekommen. Das Unternehmen wurde dabei mit 150 Milliarden Dollar bewertet: 📖 openai.com. Zusätzlich hat sich OpenAI Kredite in Höhe von 4 Milliarden US-Dollar gesichtert: 📖 openai.com.
Außerdem gibt es Gerüchte über eine mögliche Restrukturierung: 📖 reuters.com
- Mehrere hochranginge Mitarbeiter haben OpenAI verlassen:
- Mitgründer John Schulman arbeitet in Zukunft für Konkurrent Anthropic:
- Technikchefin Mira Murati verlässt OpenAI um "ihre eigenen Erkundungen zu machen":
- Ankündigung auf X: 📖 x.com
- Forschungsleiter Bob McGrew verlässt OpenAI und sagt "es ist Zeit eine Pause zu machen":
- Ankündigung auf X: 📖 x.com
- Barret Zoph, Leiter des "Post-Training"-Bereichs verlässt OpenAI, weil es sich "wie der richtige Punkt anfühlt um neue Möglichkeiten außerhalb von OpenAI zu erkunden".
- Ankündigung auf X: 📖 x.com
- Reaktion von Sam Altman auf die drei Ankündigungen auf X: 📖 x.com
- Dafür hat OpenAI einen neuen "Vice President of Global Policy", Chris Lehane, der vorher unter anderem für AirBnB und die US-Regierung unter Präsident Clinton gearbeitet hat: 📖 nytimes.com
- OpenAI sagt, dass sie Accounts gesperrt haben, die ChatGPT genutzt haben, um Inhalte für eine iranische Beeinflussungskampagne zu generieren: 📖 openai.com
- Zahlende OpenAI Kund:innen können jetzt GPT-4o fine-tunen, das heißt mit eigenen Daten weitertrainieren: 📖 openai.com
Neuigkeiten von xAI
- xAI, Elon Musks KI-Unternehmen, hat im Mai 6 Milliarden Dollar von Investoren bekommen: 📖 techcrunch.com, 📖 x.ai
- xAI hat zwei neue Modelle entwickelt, Grok-2 und Grok-2 mini, die jetzt zahlenden Nutzer:innen von X zur Verfügung stehen.
Außerdem kooperieren sie mit Black Forest Labs, um das FLUX.1 Modell (KI News #59) auf X zu testen.
📖 x.ai
- Elon Musk wird wegen der Gründung von xAI von Tesla Aktionären verklagt, die Tesla weniger als Autohersteller und mehr als KI-Unternehmen sehen und xAI somit als direkte Konkurrenz: 📖 theverge.com
Metas KI Infrastruktur
- Neue Herausforderungen durch die neuen KI Modelle:
- Für Generative AI Modelle ist viel mehr Rechenleistung nötig und damit auch viel mehr Grafikkarten als bei bisherigen Modellen.
- Mehr Grafikkarten bedeuten eine höhere Wahrscheinlichkeit, dass eine davon kaputt geht. Dadurch werden Ausfallsicherheit und schnelle Fehlerbehebung wichtiger.
- Der aktuelle Trainingsstand muss bei einem Ausfall gesichert sein und dafür effizient gespeichert werden.
- Die vielen Grafikkarten müssen auf robuste und schnelle Weise miteinander verbunden werden.
- Die Probleme, die bei Meta am häufigsten auftreten sind:
- Grafikkarten, die nicht erkannt werden
- Grafikkarten-Treiber hängt
- Fehler im Speicher der Grafikkarten
- Kaputte Netzwerkkabel
- Beim Training von Llama 3, das 54 Tage lang ging, sind insgesamt 419 Probleme aufgetreten.
- Auch interessant: sie waren sich nicht sicher, welche Netzwerktechnologie besser funktionieren würde, RoCE oder InfiniBand, also haben sie einfach zwei Cluster gebaut, eins mit RoCE und eins mit InfiniBand, jeweils mit 24.000 Grafikkarten.
- Die Llama 3 und 3.1 Modelle wurden aber noch auf einem RoCE Cluster mit 16.000 Grafikkarten trainiert. In diesem Cluster waren immer ca. 3000 Grafikkarten zu kleineren Clustern verbunden, die dann wiederum zu einem großen Cluster zusammengeschlossen wurden.
- 📖 engineering.fb.com
- 📖 youtube.com
KI Fehler und Halluzinationen
Als "Halluzinationen" werden meistens Ausgaben von Sprachmodellen bezeichnet, die keinen Sinn ergeben oder falsch sind.
Bei einem Chatbot wie ChatGPT kann das noch harmlos sein - kann aber trotzdem schon unangenehme Folgen haben, wie bei dem Anwalt, der von ChatGPT erfundene Fälle in einem Gerichtsverfahren eingebracht hat (📖 apnews.com) oder bei den falschen Zitaten, die vor kurzem im Trailer des Films "Megalopolis" gezeigt wurden (📖 deadline.com).
Bei einigen anderen Fällen ist es noch wichtiger, dass die Informationen, die von dem KI Modell kommen, stimmen, zum Beispiel beim Projekt "AKIRA", bei dem KI Richter:innen in Baden-Württemberg helfen soll Akten zu strukturieren und zusammenzufassen (📖 justiz-bw.de).
Ist es also möglich, für solche Anwendungen in der Justiz, Sprachmodelle ohne Halluzinationen zu entwickeln?
Dazu haben Forscher:innen der Universität Stanford drei kommerzielle Programme untersucht, die für rechtliche Anwendungsfälle angeboten werden.
Ergebnis: Zwei der Programme halluzinierten bei jeder sechsten Anfrage, das andere sogar bei jeder dritten. Zählt man auch die unvollständigen Antworten als fehlerhaft, dann waren sogar beim besten der drei untersuchten Programme mehr als ein Drittel falsch (35%), beim schlechtesten sogar 80%.
Die Schlussfolgerung der Forscher:innen: als Hilfe, um einen guten Ausgangspunkt für eine eigene Recherche zu bekommen, können KI-Anwendungen hilfreich sein, aber man sollte sich nicht auf sie verlassen: 📖 arxiv.org
Das zeigen auch andere Fälle, bei denen Menschen irrtümlich als Kriminelle identifiziert wurden (bbc.com) oder fälschlicherweise beschuldigt wurden KI-Tools zu verwenden, ironischerweise von einem KI-Tool (gizmodo.com).
Autonomes Fahren, Oktober Update
- Waymo
- hat im August die Marke von 100.000 bezahlten Fahrten pro Woche erreicht: 📖 x.com
- bietet auch Fahrten an den und vom Flughafen von Phoenix, Arizona, an: 📖 x.com
- hat die Anwohner eines Parkplatzes in San Francisco mit nächtlichen Hupkonzerten wach gehalten, das Problem aber in der Zwischenzeit gelöst: 📖 climatejustice.social, 📖 techcrunch.com
- hat in einem Blogeintrag das zukünftige Waymo Auto beschrieben: 📖 waymo.com
- Cruise:
- hat seine selbstfahrenden Autos zurückgerufen, um ein Problem mit unerwartetem Bremsen zu lösen: 📖 techcrunch.com
- hat angekündigt, dass die selbstfahrenden Autos ab 2025 über die Uber App gebucht werden können: 📖 theverge.com
- Tesla:
- hat auf einer lang erwarteten Veranstaltung mit dem Titel "We, Robot" Protoypen von selbstfahrenden Fahrzeugen gezeigt. Zum einen das "Cybercab", das aussieht wie eine Mischung aus Model Y und Cybertruck und zum anderen den "Robovan", ein autonomer Kleinbus.
- Die Produktion des Cybercab soll "vor 2027" starten.
- Außerdem wurde angekündigt, dass Model 3 und Model Y künftig auch autonom fahren können sollen. Wie üblich ab nächstem Jahr :)
- Liveblog des Events: 📖 theverge.com
- Livestream: 📖 youtube.com
- Die amerikanische Verkehrssicherheitsbehörde NHTSA hat wegen mehreren Unfällen eine Untersuchung des Tesla "Full Self Driving" Systems gestartet: 📖 techcrunch.com, static.nhtsa.gov (PDF)
- Weitere
Außerdem
- Windows Recall: Microsoft will ein neues Feature einführen, das regemäßig Screenshots von allem macht, was auf dem Bildschirm zu sehen ist. Mit diesen Screenshots soll dann eine KI Fragen zu allem beantworten können, was man irgendwann mal gemacht hat. 📖 blogs.windows.com
- Stable Fast 3D: ein neues Modell von Stability AI, das aus einem Bild eine 3D Darstellung machen kann. 📖 stability.ai
- Stability AI hat außerdem angekündigt, dass James Cameron (der Regisseur von Titanic und Avatar) dem Verwaltungsrat beitreten wird: 📖 stability.ai
- Meta und Spotify haben ein gemeinsames Statement veröffentlicht, in dem sie komplexe und inkonsistente Regulierungen in der EU kritisieren: 📖 about.fb.com, newsroom.spotify.com
- Torchat: Ein Framework um Pytorch LLMs lokal auszuführen: 📖 github.com
- Das Startup Perceptive hat einen Roboter gebaut, der in einem ersten Test selbstständig eine Zahnbehandlung durchgeführt hat: 📖 newatlas.com
- Vergleich von "Reinforcement Learning from Human Feedback", das z.B. beim Training von ChatGPT verwendet wurde, mit "normalem" Reinforcement Learning, das z.B. beim Training von AlphaGo verwendet wurde, durch Andrej Karpathy: 📖 x.com
- Ein Doktorand der Stanford University hat einen ausführlichen Blogpost zum Thema Machine Unlearning geschrieben, also zur Frage, wie man bestimmte Informationen aus KI Modellen wieder entfernen kann: 📖 ai.stanford.edu
- Händler auf Amazons Marketplace Handelsplattform können sich Produktbeschreibungen und Werbeanzeigen mithilfe von KI erzeugen lassen: 📖 tagesschau.de
- Amazons kostenpflichtige neue Alexa-Version namens "Remarkable" wird laut Reuters ein KI-Modell von Anthropic benutzen: 📖 reuters.com
- Forscher:innen des MIT haben ein neuronales Netz entwickelt, das die "Phononendispersionsrelation" von verschiedenen Materialien vorhersagen kann. Das hilft dabei, die Übertragung von Wärme in einem Material zu berechnen (falls ich es richtig verstanden habe): 📖 eecs.mit.edu
- Meta hat Version 3.2 des Llama Sprachmodells veröffentlicht: 📖 ai.meta.com
- Mistral hat ein Modell namens Pixtral 12B veröffentlicht, das auch Bilder verarbeiten kann (📖 mistral.ai) und zwei neue relativ kleine Sprachmodelle, Ministral 3B und 8B (📖 mistral.ai).
- Ein noch kleineres Modell hat AMD veröffentlicht, AMD-135M: 📖 community.amd.com
- Das deutsche KI-Startup Aleph Alpha gibt dagegen die Entwicklung von eigenen Sprachmodellen auf: 📖 the-decoder.de
- Nvidia hat im zweiten Quartal 2024 die Hälfte seines Umsatzes nur vier Kunden zu verdanken, die jeweils mehrere Milliarden US-Dollar ausgegeben haben: 📖 fortune.com
- Das neue Unternehmen des OpenAI Mitgründers Ilya Sutskever "Safe Superintelligence" hat eine Milliarde US-Dollar von Investoren bekommen: 📖 reuters.com
- In Nevada entscheidet in Zukunft Google mit, wer etwas bekommt. Eine KI-Software soll nämlich Empfehlungen für Entscheidungen beim Arbeitslosengeld aussprechen: 📖 gizmodo.com
- Kanadische Forscher:innen haben ein KI-gestütztes Programm entwickelt, das vorhersagen kann, ob sich der Zustand eines Patienten verschlechtern wird, so dass frühzeitig Maßnahmen ergriffen werden können, was zu einem Rückgang der Todesfälle geführt hat: 📖 cmaj.ca
« VorherigeNächste »