Kann DeepSeek Bilder erstellen?

Hier ist eine Frage, die mir immer wieder gestellt wird: Kann DeepSeek Bilder erstellen? Meine Antwort wird dich vielleicht überraschen, denn sie unterscheidet sich von den langweiligen offiziellen Verlautbarungen und Medienberichten, ist aber sicherlich nützlich.

Erstellt DeepSeek tatsächlich Bilder?

Ja, aber es ist komplizierter als nur „Ja“. Kann DeepSeek also Bilder erstellen? Das kann es über das Janus-Pro-Modell, das keine tatsächliche Website oder Chatbot ist. Hier ist der Haken: Du kannst nicht einfach „Erstelle mir ein Bild“ in den normalen DeepSeek-Chat eingeben.

  • Wenn du mit dem ursprünglichen Chatbot arbeitest, dann passiert die Bildmagie durch Janus-Pro.
  • Janus Pro ist DeepSeeks multimodaler Durchbruch, der Anfang 2025 eingeführt wurde.
  • Ich sehe es als ein komplettes visuelles Intelligenzsystem. Es kann sowohl Bilder verstehen als auch sofort von Grund auf neu erstellen. Stell es dir wie DeepSeeks kreativen Cousin vor, der endlich gelernt hat zu malen.
  • Du kannst auch Bilder mit der ganzen Power von DeepSeek-Prompts und den besten Bildgenerierungsmodellen wie DALLE/GPT Image, Stable Diffusion und sogar Flux.ai direkt auf writingmate.ai erstellen.

Janus hat nämlich eine Dual-Pathway-Architektur. Es nutzt separate neuronale Pfade für visuelles Verstehen und auch für visuelle Generierung. Technisch gesehen sind sie in einem einheitlichen System zusammengefasst, und du kannst ihm ein Bild zur Analyse zuführen oder ihm Text geben, um etwas völlig Neues zu erstellen.

Auch seine technischen Spezifikationen sind beeindruckend: So packt beispielsweise seine größte Version, Janus-Pro-7B, jetzt bis zu 7 Milliarden Parameter in ein überraschend kompaktes Paket. GPT und Gemini, nehmt euch in Acht!

Hier sind einige wichtige Funktionen von Janus-Pro für die DeepSeek-Bildgenerierung oder -Vision:

  • Text-zu-Bild-Generierung aus detaillierten Eingaben
  • Bildanalyse und Bildunterschriften für hochgeladene Fotos
  • OCR-Funktionalität zum Lesen von Text in Bildern
  • Stilübertragung, auch Bildbearbeitungsaufgaben
  • Multimodales Denken, das Text und visuelle Eingaben kombiniert

Diese Leistungsangaben sind gewagt. Das Team von DeepSeek sagt, dass Janus-Pro-7B in bestimmten Benchmarks mit DALL-E 3 mithalten und es sogar übertreffen kann.

Und das ist bemerkenswert für ein Open-Source-Modell mit geringem Budget, das man selbst herunterladen und ausführen kann. Sie haben alle Modellgewichte auf Hugging Face verfügbar gemacht, um ihr Engagement für die KI-Entwicklung und die KI-Community zu bekunden.

Aber! Hier wird es knifflig. Die normale DeepSeek-Chat-Oberfläche zeigt dir keine Bilder direkt an.

  • Du wirst keinen einfachen „Bild generieren”-Button finden, wie du vielleicht erwarten würdest.
  • DeepSeek hat sich darauf konzentriert, die Technologie als Open Source zur Verfügung zu stellen, und nicht darauf, sofort eine verbraucherfreundliche Bildschnittstelle zu entwickeln. Dafür gibt es eine App, wie manche sagen (

Für viele tägliche R1-Nutzer stellt dies ein praktisches Problem dar. Auf den ersten Blick scheinen Sie zwei Hauptoptionen zu haben:

Option 1: Janus-Pro selbst ausführen

  • Laden Sie das Modell von GitHub oder Hugging Face herunter
  • Dann nimm dir Zeit und richte die ganze technische Umgebung ein (Docker wird dringend empfohlen!)
  • Du brauchst ordentliche Hardware (GPU wird für eine bessere Geschwindigkeit empfohlen)
  • Die Nutzung ist kostenlos, erfordert aber technische Kenntnisse

Option 2: Verwende Plattformen von Drittanbietern

  • Dienste wie WritingMate.ai integrieren mehrere KI-Modelle
  • Erhalte DeepSeeks Argumentation + professionelle Bilderzeugung
  • Keine technische Einrichtung erforderlich
  • Zugriff auf mehrere Bildmodelle zum Vergleich und Verwendung der Bilderzeugung mit den meisten Modellen

Die Auflösung ist während der Verarbeitung jetzt auf etwa 384 x 384 Pixel begrenzt, was leider bedeutet, dass feine Details verloren gehen können. Verwende Bilder mit großem Text oder ohne viele solcher feinen Details oder wechsle einfach das Modell. DeepSeek ist noch nicht ganz auf dem Niveau kommerzieller Dienste, aber für eine Open-Source-Lösung ist es selbst im Jahr 2025 ein beeindruckender Fortschritt.

Das eröffnet völlig neue kreative Arbeitsabläufe, was mich sehr begeistert. Du könntest DeepSeek deine Fotos analysieren lassen, dann Verbesserungsvorschläge machen lassen und erst danach Janus-Pro verwenden, um Variationen zu generieren. Oder du beginnst mit einer Textidee, lässt DeepSeek das Konzept verfeinern und visualisierst es dann mithilfe des Bildmodells.

Welche DeepSeek-Modelle funktionieren mit Bildern?

Hier wird es verwirrend. Und hier kommt meine zweite Antwort. Noch mal: Kann Deepseek r1 Bilder generieren? In seinem ursprünglichen Chatbot kann es das nicht. DeepSeek R1 ist nur für Text gedacht. Das Gleiche gilt für DeepSeek V3.

Nur Janus-Pro kann mit Bildern umgehen, oder das Plugin zur Bilderzeugung auf Writingmate, wenn du DeepSeek benutzt. Die normalen Modelle auf dem Chatbot von DeepSeek konzentrieren sich auf Text und Schlussfolgerungen. Wenn Leute also nach der Bilderzeugung fragen, denken sie oft an das falsche Modell.

Wie man DeepSeek tatsächlich für Bilder nutzt

Es gibt zwei Hauptmethoden, die ich hier kurz zusammenfassen werde:

Methode 1: Janus-Pro selbst ausführen

Du kannst Janus-Pro von Hugging Face herunterladen. Es ist Open Source und kostenlos. Aber du brauchst:

  • Technische Kenntnisse
  • Gute Hardware (GPU empfohlen)
  • Zeit für die Einrichtung

Methode 2: DeepSeek als Prompt-Ersteller nutzen

Wenn du DeepSeek schon für Text oder Code nutzt, warum dann nicht das Beste daraus machen? Verbessere deine Prompts, erstelle neue mit DeepSeek oder verbessere deine Prompts sogar mit einem Klick, wenn du DeepSeek oder ein anderes Modell auf Writingmate nutzt. Das ist cleverer … für die meisten Leute!

  • Bitte DeepSeek, detaillierte Bildbeschreibungen zu schreiben. Gib diese dann an andere KI-Bildgeneratoren weiter.
  • Zum Beispiel: „DeepSeek, beschreibe eine futuristische Stadtlandschaft für einen KI-Bildgenerator.“
  • DeepSeek liefert dir dann einige beeindruckende Beschreibungen. Kopiere diese in DALL-E, Midjourney oder Flux, entweder in den jeweiligen Chtbots oder in dem All-in-One-Tool Writingmate.

Bildanalyse: Was DeepSeek tatsächlich sehen kann

Kann DeepSeek Bilder analysieren? Oh ja, und das sogar ziemlich gut. Kann DeepSeek Bilder lesen? Klar, seine Sehfähigkeiten machen das, ähnlich wie bei ChatGPT. Du kannst also Fotos hochladen und DeepSeek bitten:

  • Beschreibe, was auf dem Bild zu sehen ist
  • Lies Text aus Bildern
  • Objekte identifizieren
  • Diagramme erklären

Aber hier kommen die Grenzen. Wie viele Bilder kannst du auf Deepseek hochladen? Kostenlose Nutzer bekommen 1 Bild pro Sitzung (max. 5 MB). Bezahlte Nutzer können mehrere Bilder mit einer Größe von jeweils bis zu 50 MB hochladen. Mit Writingmate hast du mehr Freiheit, was die Grenzen angeht, denn schon mit dem 9-Dollar-Monatsabo entfallen viele dieser nervigen Einschränkungen.

Wenn wir über DeepSeek reden, ist die Qualität nicht so perfekt. Bilder werden mit etwa 384 x 384 Pixeln verarbeitet, was ziemlich niedrig ist. Daher können feine Details verloren gehen. Meine Idee ist es, DeepSeek mit anderen Modellen zu kombinieren und zu mischen, da jedes Modell seine besten Anwendungsfälle hat.

Beispiele aus der Praxis

Ich habe DeepSeek mit verschiedenen Arten von Bildern getestet, um zu sehen, wie es Bilder liest:

Straßenschilder: Die meisten Texte konnten korrekt gelesen werden…

Diagramme: Einfachere Diagramme werden gut erklärt und es werden passende Formulierungen dafür gefunden.

Fotos: Die Beschreibungen sind in Ordnung, aber manchmal werden Details übersehen. Für den Preis ist das Ergebnis gut, könnte aber besser sein.

Screenshots: Der Text konnte gelesen werden, aber das Verständnis des Layouts war nur grundlegend, außerdem werden einige hochauflösende Screenshots oft nicht gut gelesen.

Praktische Anwendungsfälle

So nutzen Leute DeepSeek tatsächlich (gefunden auf Reddit + in Offline-Kommunikation):

Studenten laden meistens verwirrende Diagramme aus Lehrbüchern hoch und fragen „Was ist das?“ DeepSeek liest Diagramme, erklärt auch wissenschaftliche Diagramme und kann unübersichtliche Vorlesungsfolien in Notizen umwandeln, die man zum Lernen nutzen kann.

Ein Bekannter von mir, der Medizin studiert, lädt Anatomiebilder hoch und erhält Erklärungen, die viel verständlicher sind als die im Lehrbuch. Er nutzt auch den KI-Agenten für Medizinstudenten, den wir auf Writingmate.ai haben, und kombiniert ihn mit DeepSeek auf demselben Chatbot.

Berufstätige nutzen es anders. Ingenieure zeigen ihm technische Zeichnungen, um Probleme zu erkennen. Marketingleute füttern es mit Screenshots von Tabellenkalkulationen und fragen nach Ideen für Präsentationen. Ein mir bekannter Buchhalter scannt Quittungen und Rechnungen – DeepSeek extrahiert die wichtigen Zahlen schneller als manuell.

Künstler und Designer haben einen coolen Trick gefunden: Sie chatten mit DeepSeek über ihre Ideen und kopieren diese Beschreibungen dann in Bildgeneratoren wie DALL-E. Das funktioniert viel besser, als selbst Prompts zu schreiben.

Einige laden Kunstwerke hoch und bitten DeepSeek, den Stil zu erklären, um diese Infos dann für ihre eigenen Projekte zu nutzen. Auch Autoren machen das: Sie beschreiben DeepSeek eine Szene, erhalten einen detaillierten Prompt und erstellen dann Konzeptkunst auf WritingMate.ai.

Geografische und technische Einschränkungen

Auf Twitter werde ich oft gefragt: „Kann ich DeepSeek in den USA nutzen?“ Ja, aber mit einigen Einschränkungen. DeepSeek funktioniert in den USA für normale Nutzer. Es hat sogar Platz 1 im App Store erreicht.

Aber… einige Regierungsbehörden haben es aus Datenschutzgründen verboten. Einerseits werden die Daten an chinesische Server weitergeleitet, was manche Leute beunruhigt. Und es gibt bekannte Probleme mit der Zensur, die für viele aber auch kein großes Problem darstellen.

Andererseits funktioniert DeepSeek in vielen Regionen, in denen GPT nicht funktioniert. Und Writingmate ist der Ort, an dem Hunderte von Top-KI-Modellen zusammenkommen und von fast überall auf der Welt aus genutzt werden können.

Was den Datenschutz bei Deepseek angeht: Für den privaten Gebrauch ist es völlig in Ordnung. Man sollte sich nur bewusst sein, wohin die Daten gehen. Und man sollte vorsichtig sein, wenn man es für geschäftliche Zwecke oder sogar für einige behördliche Aufgaben nutzt. Vielleicht sollte man ihm nicht zu viele Informationen geben.

Meine DeepSeek-Tipps für bessere Ergebnisse

Hier ist eine kurze Liste mit Tipps, die ich nutze und die auch für dich nützlich sein könnten. Sie funktionieren auch für andere Modelle, sind aber besonders nützlich in DeepSeek.

Für die Bildanalyse

Stell zuerst sicher, dass du klare, hochwertige Bilder verwendest. Außerdem:

  • Stell konkrete Fragen
  • Probier verschiedene Blickwinkel aus, wenn etwas fehlt
  • Halte die Bilder unter den Größenbeschränkungen

Für die Bilderstellung (über Eingabeaufforderungen)

Du kannst den Chatbot einfach bitten, sehr detailliert zu sein. Zu den Must-haves gehören auch:

  • Fordere mehrere Varianten an
  • Gib Stilvorlieben an
  • Füge technische Details hinzu

Für allgemeine Aufgaben

Ich empfehle dir, das R1-Modell für komplexe Schlussfolgerungen auszuprobieren. Es ist vergleichbar mit den Schlussfolgerungen der OpenAI-Modelle oder den Fähigkeiten von Llama 4. Ich hab auch einen Artikel dazu geschrieben:

  • Teile große Aufgaben in kleinere Schritte auf
  • Gib Kontext und Beispiele
  • Bitte um Erklärungen zum Denken