KI News #62

Hallo und herzlich willkommen zur zweiundsechzigsten Ausgabe von KI News. Heute geht es um die DeepSeek-Überraschung, was da eigentlich passiert ist und was darauf folgen könnte.

Viel Spaß beim Lesen!

Inhalt

Was ist eigentlich passiert?


Das chinesische Startup DeepSeek hat seit Ende Dezember zwei neue Modelle veröffentlicht, die für viel Aufsehen gesorgt haben:

Zusammen mit den Modellen hat DeepSeek auch viele Informationen zu Training und Entwicklung veröffentlicht. Zudem sind die Modelle als open-source verfügbar, so dass im Prinzip jeder sie herunterladen und selbst ausführen kann.

Vor allem das Reasoning-Modell R1 Modell hat kurz nach seiner Veröffentlichung im Januar einige Aufmerksamkeit bekommen und in der Reaktion unter anderem zu einem Kurseinbruch der Nvidia Aktie geführt

Was ist der Unterschied zwischen einem Sprachmodell und einem Reasoning-Modell?



Einfach gesagt soll ein Sprachmodell die menschliche Sprache abbilden und somit vorhersagen können. Deshalb werden Sprachmodelle mit großen Mengen von Texten trainiert, um so die statistischen Wahrscheinlichkeiten von Wörtern (bzw. Tokens) daraus zu lernen.
Bekannte Beispiele sind die "GPT" Modelle von OpenAI, die angefangene Texte vervollständigen können.

Ein Reasoning-Modell (wie die "o" Modelle von OpenAI) dagegen soll menschliche Logik abbilden und eigene Schlussfolgerungen ziehen können.
Da sich logische Argumente in Sprache ausdrücken lassen, sind aktuelle Reasoning-Modelle einfach weiterentwickelte Sprachmodelle.

Der Unterschied ist, dass diese nicht nur eine einfache Text-Fortsetzung generieren und an den/die Nutzer:in zurück geben, wie es ein Sprachmodell macht.
Stattdessen werden Reasoning-Modelle dazu gebracht, eine Art Zwischentext zu generieren, in dem sie verschiedene logische Schritte betrachten und auch den bereits generierten Text immer wieder überprüfen.

Basierend auf diesem Zwischentext, der jetzt verschiedene Schritte, Argumente und Überprüfungen enthalten sollte, generiert das Modell dann erst die abschließende Antwort, die dem/der Nutzer:in gezeigt wird.

Warum die heftige Reaktion?

In der Veröffentlichung zu R1 schreibt DeepSeek, dass das Modell in verschiedenen Tests ähnlich gut abschneidet wie das o1 Modell von OpenAI.

Angesichts der US-Sanktionen, die den Export der leistungsfähigsten Nvidia-Chips (GPUs) nach China beschränken, wurde das als Hinweis gesehen, dass DeepSeek ein Durchbruch gelungen sein könnte, der das Training von leistungsstarken Modellen sehr viel effizienter macht.

Dazu kommt, dass das R1 Modell auf dem V3 Modell basiert. Zu V3 schreibt DeepSeek, dass das Modell auf "nur" 2.048 Nvidia H800 GPUs trainiert wurde. Bei einem angenommenen Mietpreis von 2$ pro Stunde für eine H800 GPU habe das Training von V3 ca 5,6 Millionen US-Dollar gekostet, was für aktuelle KI-Modelle sehr wenig ist.

Daher entstand der Eindruck, DeepSeek habe für $5,6 Millionen ein Modell entwickelt, das ähnlich leistungsfähig ist wie o1 und dabei mutmaßlich mehrere Größenordnungen weniger kostet.

Diese Annahme ist allerdings nicht ganz richtig, denn der Betrag deckt nur das eigentliche Training des V3 Sprachmodells ab, aber:

  1. Schon vor dem Training ist sehr viel Vorbereitungsaufwand notwendig
  2. Das R1 Modell ist eine Weiterentwicklung von V3, in die vermutlich viel Arbeit geflossen ist
Man kann also davon ausgehen, dass die gesamte Entwicklung von R1 deutlich mehr gekostet hat als die genannten $5,6 Millionen, aber wahrscheinlich trotzdem deutlich weniger als die Entwicklung anderer führender KI-Modelle der US-amerikanischen Konkurrenz.

Zum Vergleich: Meta hat das Llama 3 Modell letztes Jahr auf zwei Clustern mit jeweils 24.000 GPUs trainiert und angekündigt, bis Ende 2024 insgesamt 350.000 Nvidia H100 GPUs zu kaufen.

Gegenüber diesen Milliarden-Investitionen, die genauso auch OpenAI und andere US-Unternehmen getätigt haben, scheinen die Kosten von DeepSeek extrem gering.

Darauf, dass DeepSeek tatsächlich weniger Kosten für die Entwicklung der Modelle hatte, weisen die Preise hin, die DeepSeek für die Benutzung der eigenen Modelle verlangt - denn die sind sehr viel geringer als die Preise der Konkurrenz.

Wenn es einem chinesischen Startup also gelingen kann, innerhalb kurzer Zeit und zu einem Bruchteil der Kosten ein KI-Modell zu entwickeln, das ähnlich gute Ergebnisse liefert wie die aktuell führenden Modelle, dann wirft das einige Fragen auf:

Gab es einen Durchbruch beim Training?

Die Forscher:innen von DeepSeek beschreiben mehrere Innovationen, die das Training von V3 effizienter gemacht haben:

Auch die Weiterentwicklung des V3 Sprachmodells zum R1 Reasoning-Modell hat DeepSeek auf eine relativ effiziente Weise geschafft, denn sie haben stark auf sogenanntes "Reinforcement Learning" gesetzt.

Das hat den Vorteil, dass es vollständig automatisch passieren kann, ohne dass das Modell auf menschliche (und damit langsame und teure) Rückmeldungen angewiesen ist.

Beim Reinforcement Learning werden die Antworten des Modells automatisiert geprüft und bewertet, so dass das Modell lernen kann, was eine gute Antwort ist.

Die Kriterien dafür hat DeepSeek sehr einfach gewählt, wodurch sie wiederum auch einfach (und damit ressourcenschonend) überprüfbar waren:

Beides sind Kriterien, die sich mit einfachen Mitteln, wenig Aufwand und somit kostengünstig und schnell prüfen lassen.

Das ist nicht der eine große Durchbruch, aber mehrere kleine Verbesserungen zusammen genommen können eben auch einen großen Unterschied machen.

Rechnen sich die großen KI Investitionen jetzt noch?

Erst vor kurzem haben OpenAI und andere im Rahmen eines Projekts namens "Stargate" angekündigt, in den nächsten Jahren viele Milliarden US-Dollar in KI-Infrastruktur zu investieren.

Auch der französische Präsident Macron hat erst vor kurzem Investitionen von mehr als 100 Milliarden Euro angekündigt, die EU-Kommission sogar von 200 Milliarden Euro.

Lohnt sich das angesichts der neuen Entwicklungen überhaupt noch?

Diese Frage ist schwierig zu beantworten, weil sie von so vielen Faktoren abhängig ist.

Haben die USA die Technologieführerschaft verloren?

Für diese Frage macht die Veröffentlichung von R1, meiner Meinung nach, aus mehreren Gründen keinen großen Unterschied.

Allerdings hat DeepSeek gezeigt, dass der Vorsprung, den die neuesten Modelle vor Nachahmern haben, im Moment wohl auch von anderen schneller und günstiger aufholbar ist, als bisher angenommen.

Beispielsweise sagt OpenAI, es gäbe Hinweise, dass DeepSeek für das Training der Modelle die Ausgaben von OpenAIs Modellen verwendet hat.

Diese Technik nennt sich "Distillation" und ist laut einem Bericht der Financial Times eine weit verbreitete Praxis, um günstig kleinere Modelle zu trainieren, die ähnlich leistungsfähig sind wie deutlich größere, teurere Modelle.

Um Handlungsfähigkeit zu zeigen und den eigenen Technologievorsprung zu betonen, hat OpenAI nur wenige Tage nach der Veröffentlichung von R1 gleich zwei weiterentwickelte Varianten des eigenen Reasoning-Modells o3 zugänglich gemacht.

Das eine Modell namens "o3-mini" soll das bisher kostengünstigste sein und ist sogar in der kostenlosen Variante von ChatGPT verfügbar.

Die zweite Variante "deep research" setzt auf die größere Version des o3 Modells und verbindet es mit einer Suchfunktion. So soll es selbstständig Antworten auf komplexe Fragen finden können.

Die Nutzung solcher Zusatzfunktionen könnte es schwerer machen, ein Modell mithilfe von Distillation nachzubauen, weil z.B. die Internetsuche im Hintergrund abläuft und man dadurch nicht mehr alle Eingabedaten sehen kann, die ein Modell nutzt, um zu einer Antwort zu kommen.

Fazit und Quellen

Ich denke, die Leistung des DeepSeek-Teams ist beachtlich und es ist noch nicht genau absehbar, welche Auswirkungen ihre Arbeit haben wird.

Gerade dadurch, dass sie ihre Entwicklungen veröffentlicht haben, im Gegensatz zu vielen anderen KI-Unternehmen, kann deren Einfluss deutlich größer werden.

Denn so können die Verbesserungen von allen anderen übernommen, angepasst und noch weiter verbessert werden.

Ob dadurch das Training von KI-Modellen in Zukunft deutlich günstiger wird und die Nachfrage nach Nvidia GPUs einbricht, oder ob durch eventuell sinkende Preise die Nachfrage nach KI noch stärker steigen wird und man somit insgesamt sogar mehr Rechenleistung braucht, kann im Moment noch niemand sicher sagen.

Sicher scheint aktuell fast nichts zu sein, außer dass die KI-Forschung weltweit mit Hochdruck weiter vorangetrieben wird.

« Vorherige

Hier abonnieren und keine Ausgabe mehr verpassen: