Künstliche Intelligenz

DeepSeek V4 vs Qwen3 Max Thinking: welches Modell 2026 nutzen?

|
11. November 2025
|
9 Min. Lesezeit
DeepSeek V4 vs Qwen3 Max Thinking: welches Modell 2026 nutzen? - Featured Image

Get weekly AI tool reviews

We test tools so you don't have to. No spam.

Kurzfassung: Die alte Version war überholt. DeepSeek V4 ist veröffentlicht, und Qwen3-Max-Thinking ist kein Benchmark-Gerücht mehr. Geprüft am 10. Mai 2026: DeepSeek V4 Flash ist der beste erste Test für günstige API-Arbeit mit 1M Kontext. DeepSeek V4 Pro ist die stärkere DeepSeek-Option, aber der Rabatt läuft nur bis zum 31. Mai 2026. Qwen3-Max-Thinking passt besser, wenn du bereits in Alibaba Cloud Model Studio arbeitest, Qwens Tool-Use-Stack brauchst oder Qwens offizielles Reasoning-Benchmark-Profil nutzen willst.

DeepSeek V4 vs Qwen3-Max-Thinking
Updated 10. Mai 2026
  • DeepSeek-V4 Preview ging am 24. April 2026 mit V4 Pro und V4 Flash live
  • DeepSeek V4 unterstützt 1M Kontext, OpenAI-Format API, Anthropic-Format API und offene Gewichte
  • DeepSeek V4 Flash ist mit $0.14 Cache-Miss Input und $0.28 Output pro 1M Tokens gelistet
  • DeepSeek V4 Pro hat bis zum 31. Mai 2026 75% Rabatt: $0.435 Cache-Miss Input und $0.87 Output pro 1M Tokens
  • Alibaba Cloud listet qwen3-max-2026-01-23 als Thinking-Mode-Snapshot von Qwen3-Max
  • Qwen3-Max unterstützt 262,144 Kontext, 81,920 maximale Chain-of-Thought-Tokens und 32,768 maximale Output-Tokens
  • Alibaba Cloud Global Pricing für qwen3-max startet bei $0.359 Input und $1.434 Output pro 1M Tokens bis 32K Tokens
  • Qwens offizieller Blog meldet 85.9 auf LiveCodeBench v6, 75.3 auf SWE Verified und 49.8 auf HLE with tools

Das war früher ein DeepSeek-V3-vs-Qwen-Post. Dieser Rahmen ist jetzt falsch. DeepSeek V4 ist live, und der nützliche Vergleich lautet DeepSeek V4 Flash/Pro gegen Qwen3-Max-Thinking.

Diese Aktualisierung nutzt offizielle DeepSeek API Docs, DeepSeeks V4 Release Note, Qwens offiziellen Qwen3-Max-Thinking-Blog und Alibaba Cloud Model Studio Docs. Alte Drittanbieter-Benchmark-Roundups sind hier nicht die Quelle der Wahrheit.

DeepSeek V4 Kontext
1M
Qwen3-Max Kontext
262K
V4 Flash Output
$0.28
pro 1M Tokens
Qwen LCB v6
85.9
offizieller Claim

Kurze Antwort

Die Modellwahl in normaler Sprache.

Wähle DeepSeek V4 Flash, wenn Kosten und 1M Kontext am wichtigsten sind. Wähle DeepSeek V4 Pro, wenn du das stärkere DeepSeek-Modell für schwierigeres Reasoning, agentisches Coding oder Weltwissen brauchst und mit dem temporären Rabattpreis leben kannst. Wähle Qwen3-Max-Thinking, wenn du in Alibaba Cloud Model Studio baust, Qwens Tool-Use-Pfad brauchst oder Qwens offizielles Reasoning-Profil gegen GPT-5.2-Thinking, Claude Opus 4.5, Gemini 3 Pro und DeepSeek V3.2 relevant ist.

Schnelle Empfehlung

BedarfWahlWarum
Günstiger Long-Context-API-DefaultDeepSeek V4 FlashNiedrigster offizieller Listenpreis und 1M Kontext
Schwierigeres Reasoning oder Coding in DeepSeekDeepSeek V4 ProDeepSeek positioniert es als V4-Flaggschiff
Alibaba Cloud / Model Studio WorkflowQwen3-Max-ThinkingNative Qwen/Alibaba-Unterstützung, Tool Calling und Model-Studio-Preise
Experimente mit offenen GewichtenDeepSeek V4DeepSeek verlinkt offene Gewichte aus der Release Note
Qwen Reasoning Benchmark-ProfilQwen3-Max-ThinkingQwen meldet starke LiveCodeBench-, HLE-with-tools- und Arena-Hard-v2-Werte

Aktueller Stand

Was jetzt wirklich live ist.

Release- und API-Status

PunktDeepSeek V4Qwen3-Max-Thinking
StatusDeepSeek-V4 Preview seit 24. April 2026 liveQwen3-Max-Thinking von Qwen am 25. Januar 2026 angekündigt
API-Modellnamendeepseek-v4-flash, deepseek-v4-proqwen3-max und qwen3-max-2026-01-23 in Alibaba Cloud Docs
Kontext1M262,144 Tokens
Maximaler Output384K laut DeepSeek32,768 Output-Tokens im Thinking-Modus
Tool UseTool Calls unterstütztAlibaba Docs listen Tool-Calling-Unterstützung
GewichteOffene Gewichte von DeepSeek verlinktAPI-Verfügbarkeit heißt nicht automatisch offene Gewichte wie bei DeepSeek

Source: DeepSeek API Docs, Qwen Blog, Alibaba Cloud Model Studio Docs

DeepSeek, Qwen, Claude oder GPT? Finde in 60 Sekunden das passende Modell.

Über 50 Umsetzungen · 60 % schneller · 2–4 Wochen

Der alte Artikel war nach dem 24. April falsch

Jeder Pre-Release-Text zu DeepSeek V4 ist jetzt veraltet. DeepSeeks eigene Release Note sagt, dass V4 Preview live, open-sourced und über die API verfügbar ist.

Preise

DeepSeek ist günstiger, aber der Pro-Rabatt hat ein Ablaufdatum.

DeepSeek und Alibaba bepreisen anders. DeepSeek trennt Cache-Hit und Cache-Miss Input. Alibaba Cloud listet Qwen3-Max nach Deployment-Modus und Request-Größe. Die Tabelle nutzt DeepSeeks offizielle Preise und Alibaba Clouds Global Pricing, weil das der relevante öffentliche Modus außerhalb Chinas ist.

Offizieller Preisstand, geprüft am 10. Mai 2026

ModellInput-PreisOutput-PreisNotizen
DeepSeek V4 Flash$0.0028 Cache-Hit / $0.14 Cache-Miss pro 1M Tokens$0.28 pro 1M Tokens1M Kontext
DeepSeek V4 Pro$0.003625 Cache-Hit / $0.435 Cache-Miss pro 1M Tokens$0.87 pro 1M Tokens75% Rabatt bis 31. Mai 2026; Listenpreis Output $3.48
Qwen3-Max Global, <=32K Input$0.359 pro 1M Tokens$1.434 pro 1M TokensAlibaba Cloud Global Tier Pricing
Qwen3-Max Global, 32K-128K Input$0.574 pro 1M Tokens$2.294 pro 1M TokensHöherer Tier für längere Requests
Qwen3-Max Global, 128K-252K Input$1.004 pro 1M Tokens$4.014 pro 1M TokensHöchster gelisteter Global Tier

Source: DeepSeek Models & Pricing; Alibaba Cloud Model Studio pricing

Praktisch heißt das: DeepSeek V4 Flash ist der günstigere Default. Qwen3-Max ist kein Billigmodell, sobald Inputs länger werden. Es kann trotzdem richtig sein, wenn Qwens Ökosystem, Tool-Pfad, Sprachprofil oder Benchmarks wichtiger sind als reine Kosten.

Benchmarks

Anbieter-Claims, kein unabhängiger Beweis.

Qwen veröffentlicht für Qwen3-Max-Thinking mehr Benchmark-Details in Textform als DeepSeek für V4. DeepSeek macht starke V4-Claims, aber viele Detailtabellen liegen als Bilder vor. Der faire Vergleich ist deshalb nicht: "Wer gewinnt jeden Benchmark?" Sondern: Was behauptet jeder Anbieter offiziell, und worauf können wir uns stützen?

Offizielle Benchmark- und Capability-Claims

BereichDeepSeek V4Qwen3-Max-Thinking
Agentisches CodingDeepSeek sagt, V4 Pro sei Open-Source-SOTA in agentischen Coding-BenchmarksQwen meldet 75.3 auf SWE Verified
Competitive CodingDeepSeek sagt, V4 Pro schlage aktuelle offene Modelle im CodingQwen meldet 85.9 auf LiveCodeBench v6
Science / ReasoningDeepSeek sagt, V4 Pro schlage aktuelle offene Modelle in Math, STEM und CodingQwen meldet 87.4 auf GPQA und 98.0 auf HMMT Feb 25
Agentic SearchDeepSeek fokussiert Agenten-Integration und 1M KontextQwen meldet 49.8 auf HLE with tools
Kostenbewusstes RoutingV4 Flash ist der klare erste TestQwen gewinnt, wenn Alibaba/Qwen-Stack wichtiger ist als Rohkosten

Source: DeepSeek V4 Release Note; offizieller Qwen3-Max-Thinking Blog

Provider-Benchmarks nicht überlesen

Das sind Claims der Anbieter. Sie helfen bei der Richtung, ersetzen aber keinen Test mit deinen Prompts, deinem Code, deinen Latenzgrenzen und deinem Kostenprofil.

Welches Modell solltest du wählen?

Das Modell muss zur Aufgabe passen.

Entscheidungstabelle

WorkloadErster TestWarum
Long-Context-DokumentverarbeitungDeepSeek V4 Flash1M Kontext und günstiger Output
Agenten-Worker mit hohem VolumenDeepSeek V4 FlashGünstiger als Qwen nach offiziellen Listenpreisen
Schwere Open-Weight-Reasoning-ExperimenteDeepSeek V4 ProDeepSeek V4 Flaggschiff mit verlinkten Gewichten
Alibaba Cloud ProduktionsstackQwen3-Max-ThinkingNative Model Studio Unterstützung und Preis-Dokumente
Tool-Use-Reasoning in QwenQwen3-Max-ThinkingQwen beschreibt adaptive Tool Use und Model Studio listet Tool Calling
Kostenstabilität nach dem 31. MaiVorher neu prüfenDeepSeek V4 Pro Rabatt ist temporär; V4 Flash wirkt in den Docs stabiler

Wenn ich für die meisten Teams einen Default wählen müsste, würde ich mit DeepSeek V4 Flash anfangen. Es ist günstig genug für breite Tests, unterstützt langen Kontext und hält die Migration einfach. Qwen3-Max-Thinking würde ich testen, wenn die App ohnehin auf Alibaba Cloud läuft oder Qwens konkrete Benchmark-Stärken zum Workload passen.

Geprüfte offizielle Quellen

Keine alten V3-only-Benchmark-Mirrors.

Fazit

DeepSeek ist der Kosten-Default. Qwen ist die Ökosystem-Wahl.

Die alte Überschrift war zu breit. Chinesische Modelle schlagen GPT nicht automatisch überall, und ein seriöser Post sollte nicht so tun, als würde ein Benchmark den Markt entscheiden. Das nützliche Update ist enger: DeepSeek V4 ist live und sollte zuerst getestet werden, wenn du günstige 1M-Kontext-API-Arbeit brauchst. Qwen3-Max-Thinking passt besser, wenn Deployment, Tools oder Evaluation bereits im Alibaba/Qwen-Ökosystem liegen.

Für DeepSeek-only-Details lies den DeepSeek V4 Release- und Preisguide. Für die breitere Modellwahl nutze den AI Model Picker. Wenn monatliche Kosten zählen, rechne deinen Use Case im KI-Kostenrechner durch.

Brauchst du Hilfe bei der Modellwahl?

Vergleiche KI-Modelle nach Use Case, Kosten, Kontextlänge und Workflow-Fit.

AI Model Picker öffnen