DeepSeek AI: Die günstige Revolution im KI-Markt?

Die Welt der künstlichen Intelligenz wird von großen Namen wie OpenAI oder Google dominiert – doch mit DeepSeek ist ein neuer Herausforderer aufgetaucht, der die Branche nachhaltig verändert. Besonders überraschend: DeepSeek erreicht starke Leistungen bei deutlich geringeren Kosten.

Inhaltsverzeichnis

Was ist DeepSeek?

DeepSeek ist ein Open-Source-Sprachmodell, das von DeepSeek entwickelt wurde, einem chinesischen Start-up, das 2023 von Liang Wenfeng gegründet wurde, der auch Mitbegründer des quantitativen Hedgefonds High-Flyer ist.

Das Unternehmen soll aus der KI-Forschungsabteilung von High-Flyer hervorgegangen sein, um sich auf die Entwicklung großer Sprachmodelle zu konzentrieren, die allgemeine künstliche Intelligenz (AGI) erreichen – ein Meilenstein, bei dem KI mit menschlichem Intellekt mithalten kann, worauf auch OpenAI und andere führende KI-Unternehmen hinarbeiten.

Doch im Gegensatz zu vielen dieser Unternehmen sind alle Modelle von DeepSeek Open Source, was bedeutet, dass ihre Gewichte und Trainingsmethoden der Öffentlichkeit frei zur Verfügung stehen, um sie zu prüfen, zu nutzen und darauf aufzubauen.

R1 ist das neueste von mehreren KI-Modellen, die DeepSeek veröffentlicht hat. Sein erstes Produkt war das Programmierwerkzeug DeepSeek Coder, gefolgt von der V2-Modellreihe, die wegen ihrer starken Leistung und niedrigen Kosten Aufmerksamkeit erregte und einen Preiskampf auf dem chinesischen Markt für KI-Modelle auslöste.

Auch sein V3-Modell– die Grundlage, auf der R1 aufbaut – stieß auf einiges Interesse, doch seine Einschränkungen bei sensiblen Themen im Zusammenhang mit der chinesischen Regierung warfen Fragen hinsichtlich seiner Eignung als echter Branchenkonkurrent auf.

Dann stellte das Unternehmen sein neues Modell R1 vor und behauptete, es erreiche die Leistung der weltweit führenden KI-Modelle, während es sich auf vergleichsweise bescheidene Hardware stütze.

Was kann DeepSeek?

Laut DeepSeek zeichnet sich R1 bei einer Vielzahl von textbasierten Aufgaben sowohl auf Englisch als auch auf Chinesisch aus, darunter:

Kreatives Schreiben
Beantwortung allgemeiner Fragen
Bearbeitung
Zusammenfassung

Genauer gesagt gibt das Unternehmen an, dass das Modell besonders gut bei „schlussfolgerungsintensiven“ Aufgaben abschneidet, bei denen es um „klar definierte Probleme mit eindeutigen Lösungen“ geht. Nämlich:

Code generieren und debuggen
Mathematische Berechnungen durchführen
Komplexe wissenschaftliche Konzepte erklären

Da es sich zudem um ein Open-Source-Modell handelt, ermöglicht R1 den Nutzern, frei auf seine Funktionen zuzugreifen, diese zu modifizieren und darauf aufzubauen sowie sie in proprietäre Systeme zu integrieren.

Vorteile von DeepSeek AI

Geringe Kosten: Deutlich günstiger als viele Konkurrenzmodelle
Hohe Leistung: Konkurrenzfähig mit führenden KI-Systemen
Offener Ansatz: Mehr Flexibilität für Entwickler
Starke Logikfähigkeiten: Besonders bei komplexen Aufgaben

Nachteile und Kritik

Trotz aller Vorteile gibt es auch Herausforderungen:

Sicherheitsrisiken: Höhere Anfälligkeit für Bias oder Fehlinformationen ()
Noch jung: Weniger ausgereift als etablierte Anbieter
Eingeschränkte Inhalte: Teilweise Einschränkungen bei sensiblen Themen

Wie funktioniert DeepSeek?

Wie andere KI-Modelle wurde DeepSeek-R1 auf einem riesigen Datenkorpus trainiert und stützt sich auf Algorithmen, um Muster zu erkennen und alle Arten von Aufgaben der natürlichen Sprachverarbeitung auszuführen.

Seine inneren Abläufe heben es jedoch von anderen ab – insbesondere seine „Mixture of Experts“ (MoE)-Architektur und der Einsatz von verstärkendem Lernen und Fine-Tuning –, die es dem Modell ermöglichen, effizienter zu arbeiten und dabei konsistent genaue und klare Ergebnisse zu liefern.

Mixture-of-Experts-Architektur

DeepSeek-R1 erreicht seine Recheneffizienz durch den Einsatz einer Mixture-of-Experts-Architektur, die auf dem DeepSeek-V3-Basismodell aufbaut, welches die Grundlage für das domänenübergreifende Sprachverständnis von R1 legte.

Im Wesentlichen verwenden MoE-Modelle mehrere kleinere Modelle (sogenannte „Experten“), die nur bei Bedarf aktiv sind, wodurch die Leistung optimiert und die Rechenkosten gesenkt werden.

Obwohl sie in der Regel kleiner und kostengünstiger sind als Transformer-basierte Modelle, können Modelle, die MoE nutzen, genauso gut, wenn nicht sogar besser abschneiden, was sie zu einer attraktiven Option in der KI-Entwicklung macht.

R1 verfügt konkret über 671 Milliarden Parameter über mehrere Expertennetzwerke hinweg, aber nur 37 Milliarden dieser Parameter werden in einem einzigen „Forward Pass“ benötigt – das ist der Moment, in dem eine Eingabe durch das Modell geleitet wird, um eine Ausgabe zu generieren.

Verstärkendes Lernen und überwachtes Fine-Tuning

Ein besonderer Aspekt des Trainingsprozesses von DeepSeek-R1 ist der Einsatz von verstärktem Lernen, einer Technik, die dazu beiträgt, seine Schlussfolgerungsfähigkeiten zu verbessern. Das Modell durchläuft zudem ein überwachtes Fine-Tuning, bei dem es durch Training mit einem beschrifteten Datensatz lernt, eine bestimmte Aufgabe gut zu bewältigen.

Dadurch lernt das Modell schließlich, seine Antworten zu überprüfen, eventuelle Fehler zu korrigieren und einer „Chain-of-Thought“-Logik (CoT) zu folgen, bei der es komplexe Probleme systematisch in kleinere, besser handhabbare Schritte zerlegt.

DeepSeek erläutert diesen gesamten Trainingsprozess in einem Artikel und gibt damit Einblicke in Trainingsmethoden, die normalerweise von den Tech-Unternehmen, mit denen es konkurriert, streng geheim gehalten werden.

Alles beginnt mit einer „Cold-Start“-Phase, in der das zugrunde liegende V3-Modell anhand einer kleinen Menge sorgfältig ausgearbeiteter CoT-Beispiele feinabgestimmt wird, um Klarheit und Lesbarkeit zu verbessern.

Von dort aus durchläuft das Modell mehrere iterative Phasen des verstärkenden Lernens und der Verfeinerung, in denen genaue und korrekt formatierte Antworten durch ein Belohnungssystem gefördert werden.

Zusätzlich zu den auf Argumentation und Logik ausgerichteten Daten wird das Modell mit Daten aus anderen Bereichen trainiert, um seine Fähigkeiten beim Schreiben, bei Rollenspielen und bei allgemeineren Aufgaben zu verbessern.

Während der abschließenden Phase des verstärkenden Lernens wird die „Hilfreichkeit und Harmlosigkeit“ des Modells bewertet, um Ungenauigkeiten, Voreingenommenheiten und schädliche Inhalte zu beseitigen.

Anwendungsfälle für DeepSeek

DeepSeek-R1 hat sich in der Industrie noch nicht weit verbreitet, aber angesichts seiner Fähigkeiten könnte es auf vielfältige Weise eingesetzt werden, darunter:

Softwareentwicklung: R1 könnte Entwickler unterstützen, indem es Code-Schnipsel generiert, bestehenden Code debuggt und Erklärungen für komplexe Programmierkonzepte liefert.
Mathematik: Die Fähigkeit von R1, komplexe mathematische Probleme zu lösen und zu erklären, könnte zur Unterstützung von Forschung und Lehre in mathematischen Bereichen genutzt werden.
Erstellung, Bearbeitung und Zusammenfassung von Inhalten: R1 ist gut darin, hochwertige schriftliche Inhalte zu generieren sowie bestehende Inhalte zu bearbeiten und zusammenzufassen, was in Branchen vom Marketing bis zum Recht nützlich sein könnte.
Kundenservice: R1 könnte zur Unterstützung eines Kundenservice-Chatbots eingesetzt werden, wo es Gespräche mit Nutzern führen und deren Fragen anstelle eines menschlichen Mitarbeiters beantworten kann.
Datenanalyse: R1 kann große Datensätze analysieren, aussagekräftige Erkenntnisse gewinnen und auf dieser Grundlage umfassende Berichte erstellen, die Unternehmen dabei helfen könnten, fundiertere Entscheidungen zu treffen.
Bildung: R1 könnte als eine Art digitaler Tutor eingesetzt werden, der komplexe Themen in klare Erklärungen aufschlüsselt, Fragen beantwortet und personalisierten Unterricht in verschiedenen Fächern anbietet.

Einschränkungen von DeepSeek

DeepSeek-R1 weist ähnliche Einschränkungen auf wie jedes andere Sprachmodell. Es kann Fehler machen, verzerrte Ergebnisse liefernund schwer zu verstehen sein – auch wenn es technisch gesehen Open Source ist.

DeepSeek sagt außerdem, dass das Modell dazu neigt, „Sprachen zu vermischen“, besonders wenn die Eingabeaufforderungen in anderen Sprachen als Chinesisch und Englisch erfolgen. Zum Beispiel könnte R1 in seiner Argumentation und Antwort Englisch verwenden, selbst wenn die Eingabeaufforderung in einer völlig anderen Sprache vorliegt.

Außerdem hat das Modell Schwierigkeiten mit Few-Shot-Prompts, bei denen nur wenige Beispiele zur Steuerung der Antwort gegeben werden. Stattdessen wird empfohlen, einfachere Zero-Shot-Prompts zu verwenden – also die gewünschte Ausgabe direkt ohne Beispiele anzugeben –, um bessere Ergebnisse zu erzielen.

Wie unterscheidet sich DeepSeek von anderen Modellen?

DeepSeek hat sein R1-Modell mit einigen der fortschrittlichsten Sprachmodelle der Branche verglichen – nämlich den Modellen GPT-4o und o1 von OpenAI, Llama 3.1 von Meta, Claude 3.5. Sonnet von Anthropic und Qwen2.5 von Alibaba.

So schneidet R1 im Vergleich ab:

Fähigkeiten

DeepSeek-R1 kommt in verschiedenen Branchen-Benchmarks fast an alle Fähigkeiten dieser anderen Modelle heran. Es schnitt besonders gut in den Bereichen Programmierung und Mathematik ab und schlug seine Konkurrenten in fast jedem Test.

Es überrascht nicht, dass es auch bei allen chinesischen Prüfungen besser abschnitt als die amerikanischen Modelle und in zwei der drei Tests sogar besser schnitt als Qwen2.5. Die größte Schwäche von R1 schien seine Englischkenntnisse zu sein, dennoch schnitt es in Bereichen wie diskretem Denken und dem Umgang mit langen Kontexten besser ab als andere.

R1 ist außerdem darauf ausgelegt, seine Argumentation zu erklären, was bedeutet, dass es den Denkprozess hinter den von ihm generierten Antworten artikulieren kann – eine Funktion, die es von anderen fortschrittlichen KI-Modellen unterscheidet, denen es typischerweise an diesem Maß an Transparenz und Erklärbarkeit mangelt.

Kosten

Der größte Vorteil von DeepSeek-R1 gegenüber anderen KI-Modellen seiner Klasse ist, dass seine Entwicklung und sein Betrieb offenbar wesentlich kostengünstiger sind.

Das liegt vor allem daran, dass R1 Berichten zufolge mit nur ein paar tausend H800-Chips trainiert wurde – einer günstigeren und weniger leistungsstarken Version von Nvidias 40.000-Dollar-H100-GPU, in die viele führende KI-Entwickler Milliarden von Dollar investieren und Hamsterkäufe tätigen.

R1 ist zudem ein viel kompakteres Modell, das weniger Rechenleistung benötigt, dennoch so trainiert wurde, dass es die Leistung viel größerer Modelle erreichen oder sogar übertreffen kann.

Zugänglichkeit

DeepSeek-R1, Llama 3.1 und Qwen2.5 sind alle bis zu einem gewissen Grad Open Source und frei zugänglich, während GPT-4o und Claude 3.5 Sonnet dies nicht sind.

Nutzer haben bei den Open-Source-Modellen mehr Flexibilität, da sie diese modifizieren, integrieren und darauf aufbauen können, ohne sich mit den gleichen Lizenz- oder Abonnement-Hürden auseinandersetzen zu müssen, die bei geschlossenen Modellen auftreten.

Herkunft

Abgesehen von Qwen2.5, das ebenfalls von einem chinesischen Unternehmen entwickelt wurde, stammen alle Modelle, die bei ihrer Veröffentlichung mit R1 vergleichbar waren, aus den Vereinigten Staaten.

Und als Produkt aus China unterliegt DeepSeek-R1 einer Überprüfung durch die staatliche Internetaufsichtsbehörde, um sicherzustellen, dass seine Antworten die sogenannten „sozialistischen Kernwerte“ verkörpern.

Nutzer haben bemerkt, dass das Modell beispielsweise keine Fragen zum Massaker auf dem Tiananmen-Platz oder zu den Uiguren-Internierungslagern beantwortet. Und wie die chinesische Regierung erkennt es Taiwan nicht als souveränen Staat an.

Auch von amerikanischen Unternehmen entwickelte Modelle vermeiden es, bestimmte Fragen zu beantworten, doch geschieht dies meist im Interesse der Sicherheit und Fairness und nicht aus Gründen der Zensur.

Wie wirkt sich DeepSeek auf die KI-Branche aus?

Die Ankündigung von DeepSeek, ein KI-Modell entwickelt zu haben, das mit OpenAI und Meta mithalten kann – und das mit einer relativ geringen Anzahl veralteter Chips –, stieß neben Bewunderung auch auf Skepsis und Panik.

Viele spekulieren, dass DeepSeek tatsächlich einen Vorrat an illegalen Nvidia H100-GPUs anstelle der H800-Modelle verwendet hat, die in China aufgrund von US-Exportkontrollen verboten sind.

Und OpenAI scheint überzeugt zu sein, dass das Unternehmen sein Modell zum Trainieren von R1 verwendet hat, was gegen die Nutzungsbedingungen von OpenAI verstößt. Andere, noch abwegigere Behauptungen besagen, dass DeepSeek Teil eines ausgeklügelten Komplotts der chinesischen Regierung ist, um die amerikanische Tech-Branche zu zerstören.

Wenn R1 jedoch tatsächlich das geschafft hat, was DeepSeek behauptet, wird dies massive Auswirkungen auf die gesamte KI-Branche haben – insbesondere in den Vereinigten Staaten, wo die Investitionen in KI am höchsten sind.

KI gilt seit langem als eine der stromhungrigsten und kostenintensivsten Technologien – so sehr, dass große Akteure Kernkraftunternehmen aufkaufen und Partnerschaften mit Regierungen eingehen, um den für ihre Modelle benötigten Strom zu sichern.

Die Aussicht, dass ein ähnliches Modell zu einem Bruchteil des Preises (und auf weniger leistungsfähigen Chips) entwickelt wird, verändert das Verständnis der Branche darüber, wie viel Geld tatsächlich benötigt wird.

Für die Zukunft glauben die größten Befürworter der KI, dass künstliche Intelligenz (und schließlich AGI und Superintelligenz) die Welt verändern wird und den Weg für tiefgreifende Fortschritte im Gesundheitswesen, in der Bildung, bei wissenschaftlichen Entdeckungen und vielem mehr ebnen wird. Wenn diese Fortschritte zu geringeren Kosten erzielt werden können, eröffnet das völlig neue Möglichkeiten – und Bedrohungen.

FAQ zu DeepSeek

1. Was ist DeepSeek?

DeepSeek ist ein KI-Startup (gegründet 2023), das leistungsstarke Large Language Models (LLMs) entwickelt. Bekannt geworden ist es durch DeepSeek-V3 (allgemeines Modell) und DeepSeek-R1 (spezialisiertes Reasoning-Modell).

Die Modelle nutzen eine Mixture-of-Experts (MoE)-Architektur: 671 Milliarden Parameter insgesamt, aber nur ca. 37 Milliarden werden pro Token aktiviert – das macht sie sehr schnell und kostengünstig.
DeepSeek-Modelle sind teilweise open-weight (MIT-Lizenz) und können lokal oder über API genutzt werden.

2. Welche Modelle gibt es aktuell?

DeepSeek-V3 / V3.2 → Allgemeines Modell (General-Purpose). Gut für Chat, Coding, Content-Erstellung, Übersetzungen und Alltagsaufgaben. Schnell und effizient.
DeepSeek-R1 (und Updates wie R1-0528) → Reasoning-Modell. Speziell für komplexes logisches Denken, Mathematik, schwieriges Coding und Multi-Step-Probleme. Zeigt oft den Denkprozess Schritt für Schritt (ähnlich wie OpenAI o1/o3).
Weitere Varianten: V3.1 (Hybrid), DeepSeek-Coder, distilled Modelle (kleinere Versionen basierend auf Llama oder Qwen).

V3 ist der Standard für die meisten Nutzer, R1 für harte Denkaufgaben.

3. Wie greife ich auf DeepSeek zu?

Kostenloser Chat: Über chat.deepseek.com oder die DeepSeek-App (iOS/Android). Sehr großzügige Limits.
API: Über platform.deepseek.com – extrem günstig für Entwickler.
Lokal: Open-Weight-Modelle können mit Tools wie Ollama, LM Studio oder Hugging Face heruntergeladen und lokal ausgeführt werden.
Drittanbieter: Verfügbar auf Plattformen wie Groq, Together.ai, Fireworks etc.

4. Was kann DeepSeek besonders gut?

Coding & Mathematik — Oft auf oder über GPT-4.5-Niveau, besonders bei Algorithmen und Wettbewerbs-Programmierung.
Reasoning — R1 liefert transparente Chain-of-Thought-Antworten.
Effizienz — Sehr schnell und günstig bei hoher Qualität.
Mehrsprachig — Stark im Chinesischen, aber auch gut in Deutsch/Englisch.
Tool-Use & Agenten — Neuere Versionen (V3.2) sind besser für autonome Workflows.

5. DeepSeek vs. Gemini, Grok, ChatGPT – Kurzer Vergleich

Bereich	DeepSeek (V3/R1)	Gemini 3.x	Grok 4	ChatGPT (GPT-5/o-Serie)
Preis	Extrem günstig (bester Wert)	Mittel (Google One AI Premium)	Mittel (SuperGrok/X Premium)	Teurer
Reasoning/Math	Sehr stark (R1 top)	Sehr gut	Stark	Stark
Coding	Hervorragend	Gut	Sehr gut	Sehr gut
Alltags-Chat	Gut	Gut (Google-Integration)	Gut (uncensored)	Am natürlichsten
Multimodal	Begrenzt (meist Text + Code)	Sehr stark (Bild/Video)	Gut (Bilder)	Stark
Zensur/Freiheit	Weniger restriktiv als Google/OpenAI	Eher vorsichtig	Am offensten	Mittel
Geschwindigkeit	Sehr schnell	Schnell	Schnell	Mittel bis schnell

Fazit: DeepSeek gewinnt bei Preis-Leistung und technischen Aufgaben. Viele Entwickler nutzen es parallel zu den großen Playern. Gemini ist stark bei Google-Integration, Grok bei offenen/ungefilterten Antworten.

6. Kostet DeepSeek Geld?

Chat-Web/App: Meist kostenlos mit sehr hohen Limits.
API (Stand 2026, ungefähre Preise pro 1 Million Tokens):
DeepSeek-V3.2: ca. 0,28 $ Input / 0,42 $ Output (mit Cache-Hit noch viel günstiger).
DeepSeek-R1: ca. 0,55 $ Input / 2,19 $ Output.

Das ist oft 10–50x günstiger als GPT-4o oder Claude. Perfekt für Entwickler und hohe Volumen.

7. Vorteile & Nachteile

Vorteile:

Unschlagbares Preis-Leistungs-Verhältnis
Stark bei Coding und Reasoning
Open-Weight-Modelle → volle Kontrolle und lokale Nutzung möglich
Schnell und effizient (MoE-Technik)

Nachteile:

Weniger multimodal als Gemini oder GPT (hauptsächlich Text)
Manchmal schwächer bei kreativem Schreiben oder langen, nuancierten Gesprächen
Chinesisches Unternehmen → Datenschutz-Bedenken bei sensiblen Daten (wie bei allen Cloud-KIs)
Kann noch halluzinieren (wie alle LLMs)

8. Tipps für bessere Ergebnisse

Bei schwierigen Aufgaben R1 wählen oder explizit „Denke Schritt für Schritt“ sagen.
Für normale Aufgaben reicht V3/V3.2 – schneller und günstiger.
Lade Dateien hoch (Code, PDFs, Texte) – DeepSeek handhabt Kontext gut.
Für lokale Nutzung: Starte mit quantisierten Versionen (z. B. 4-Bit), um Hardware zu schonen.

Mehr Inspiration für dich: