Kurzfassung: Die alte Version war überholt. DeepSeek V4 ist veröffentlicht, und Qwen3-Max-Thinking ist kein Benchmark-Gerücht mehr. Geprüft am 10. Mai 2026: DeepSeek V4 Flash ist der beste erste Test für günstige API-Arbeit mit 1M Kontext. DeepSeek V4 Pro ist die stärkere DeepSeek-Option, aber der Rabatt läuft nur bis zum 31. Mai 2026. Qwen3-Max-Thinking passt besser, wenn du bereits in Alibaba Cloud Model Studio arbeitest, Qwens Tool-Use-Stack brauchst oder Qwens offizielles Reasoning-Benchmark-Profil nutzen willst.
- DeepSeek-V4 Preview ging am 24. April 2026 mit V4 Pro und V4 Flash live
- DeepSeek V4 unterstützt 1M Kontext, OpenAI-Format API, Anthropic-Format API und offene Gewichte
- DeepSeek V4 Flash ist mit $0.14 Cache-Miss Input und $0.28 Output pro 1M Tokens gelistet
- DeepSeek V4 Pro hat bis zum 31. Mai 2026 75% Rabatt: $0.435 Cache-Miss Input und $0.87 Output pro 1M Tokens
- Alibaba Cloud listet qwen3-max-2026-01-23 als Thinking-Mode-Snapshot von Qwen3-Max
- Qwen3-Max unterstützt 262,144 Kontext, 81,920 maximale Chain-of-Thought-Tokens und 32,768 maximale Output-Tokens
- Alibaba Cloud Global Pricing für qwen3-max startet bei $0.359 Input und $1.434 Output pro 1M Tokens bis 32K Tokens
- Qwens offizieller Blog meldet 85.9 auf LiveCodeBench v6, 75.3 auf SWE Verified und 49.8 auf HLE with tools
Das war früher ein DeepSeek-V3-vs-Qwen-Post. Dieser Rahmen ist jetzt falsch. DeepSeek V4 ist live, und der nützliche Vergleich lautet DeepSeek V4 Flash/Pro gegen Qwen3-Max-Thinking.
Diese Aktualisierung nutzt offizielle DeepSeek API Docs, DeepSeeks V4 Release Note, Qwens offiziellen Qwen3-Max-Thinking-Blog und Alibaba Cloud Model Studio Docs. Alte Drittanbieter-Benchmark-Roundups sind hier nicht die Quelle der Wahrheit.
Kurze Antwort
Die Modellwahl in normaler Sprache.
Wähle DeepSeek V4 Flash, wenn Kosten und 1M Kontext am wichtigsten sind. Wähle DeepSeek V4 Pro, wenn du das stärkere DeepSeek-Modell für schwierigeres Reasoning, agentisches Coding oder Weltwissen brauchst und mit dem temporären Rabattpreis leben kannst. Wähle Qwen3-Max-Thinking, wenn du in Alibaba Cloud Model Studio baust, Qwens Tool-Use-Pfad brauchst oder Qwens offizielles Reasoning-Profil gegen GPT-5.2-Thinking, Claude Opus 4.5, Gemini 3 Pro und DeepSeek V3.2 relevant ist.
Schnelle Empfehlung
| Bedarf | Wahl | Warum |
|---|---|---|
| Günstiger Long-Context-API-Default | DeepSeek V4 Flash | Niedrigster offizieller Listenpreis und 1M Kontext |
| Schwierigeres Reasoning oder Coding in DeepSeek | DeepSeek V4 Pro | DeepSeek positioniert es als V4-Flaggschiff |
| Alibaba Cloud / Model Studio Workflow | Qwen3-Max-Thinking | Native Qwen/Alibaba-Unterstützung, Tool Calling und Model-Studio-Preise |
| Experimente mit offenen Gewichten | DeepSeek V4 | DeepSeek verlinkt offene Gewichte aus der Release Note |
| Qwen Reasoning Benchmark-Profil | Qwen3-Max-Thinking | Qwen meldet starke LiveCodeBench-, HLE-with-tools- und Arena-Hard-v2-Werte |
Aktueller Stand
Was jetzt wirklich live ist.
Release- und API-Status
| Punkt | DeepSeek V4 | Qwen3-Max-Thinking |
|---|---|---|
| Status | DeepSeek-V4 Preview seit 24. April 2026 live | Qwen3-Max-Thinking von Qwen am 25. Januar 2026 angekündigt |
| API-Modellnamen | deepseek-v4-flash, deepseek-v4-pro | qwen3-max und qwen3-max-2026-01-23 in Alibaba Cloud Docs |
| Kontext | 1M | 262,144 Tokens |
| Maximaler Output | 384K laut DeepSeek | 32,768 Output-Tokens im Thinking-Modus |
| Tool Use | Tool Calls unterstützt | Alibaba Docs listen Tool-Calling-Unterstützung |
| Gewichte | Offene Gewichte von DeepSeek verlinkt | API-Verfügbarkeit heißt nicht automatisch offene Gewichte wie bei DeepSeek |
Source: DeepSeek API Docs, Qwen Blog, Alibaba Cloud Model Studio Docs
DeepSeek, Qwen, Claude oder GPT? Finde in 60 Sekunden das passende Modell.
Über 50 Umsetzungen · 60 % schneller · 2–4 Wochen
Der alte Artikel war nach dem 24. April falsch
Jeder Pre-Release-Text zu DeepSeek V4 ist jetzt veraltet. DeepSeeks eigene Release Note sagt, dass V4 Preview live, open-sourced und über die API verfügbar ist.
Preise
DeepSeek ist günstiger, aber der Pro-Rabatt hat ein Ablaufdatum.
DeepSeek und Alibaba bepreisen anders. DeepSeek trennt Cache-Hit und Cache-Miss Input. Alibaba Cloud listet Qwen3-Max nach Deployment-Modus und Request-Größe. Die Tabelle nutzt DeepSeeks offizielle Preise und Alibaba Clouds Global Pricing, weil das der relevante öffentliche Modus außerhalb Chinas ist.
Offizieller Preisstand, geprüft am 10. Mai 2026
| Modell | Input-Preis | Output-Preis | Notizen |
|---|---|---|---|
| DeepSeek V4 Flash | $0.0028 Cache-Hit / $0.14 Cache-Miss pro 1M Tokens | $0.28 pro 1M Tokens | 1M Kontext |
| DeepSeek V4 Pro | $0.003625 Cache-Hit / $0.435 Cache-Miss pro 1M Tokens | $0.87 pro 1M Tokens | 75% Rabatt bis 31. Mai 2026; Listenpreis Output $3.48 |
| Qwen3-Max Global, <=32K Input | $0.359 pro 1M Tokens | $1.434 pro 1M Tokens | Alibaba Cloud Global Tier Pricing |
| Qwen3-Max Global, 32K-128K Input | $0.574 pro 1M Tokens | $2.294 pro 1M Tokens | Höherer Tier für längere Requests |
| Qwen3-Max Global, 128K-252K Input | $1.004 pro 1M Tokens | $4.014 pro 1M Tokens | Höchster gelisteter Global Tier |
Source: DeepSeek Models & Pricing; Alibaba Cloud Model Studio pricing
Praktisch heißt das: DeepSeek V4 Flash ist der günstigere Default. Qwen3-Max ist kein Billigmodell, sobald Inputs länger werden. Es kann trotzdem richtig sein, wenn Qwens Ökosystem, Tool-Pfad, Sprachprofil oder Benchmarks wichtiger sind als reine Kosten.
Benchmarks
Anbieter-Claims, kein unabhängiger Beweis.
Qwen veröffentlicht für Qwen3-Max-Thinking mehr Benchmark-Details in Textform als DeepSeek für V4. DeepSeek macht starke V4-Claims, aber viele Detailtabellen liegen als Bilder vor. Der faire Vergleich ist deshalb nicht: "Wer gewinnt jeden Benchmark?" Sondern: Was behauptet jeder Anbieter offiziell, und worauf können wir uns stützen?
Offizielle Benchmark- und Capability-Claims
| Bereich | DeepSeek V4 | Qwen3-Max-Thinking |
|---|---|---|
| Agentisches Coding | DeepSeek sagt, V4 Pro sei Open-Source-SOTA in agentischen Coding-Benchmarks | Qwen meldet 75.3 auf SWE Verified |
| Competitive Coding | DeepSeek sagt, V4 Pro schlage aktuelle offene Modelle im Coding | Qwen meldet 85.9 auf LiveCodeBench v6 |
| Science / Reasoning | DeepSeek sagt, V4 Pro schlage aktuelle offene Modelle in Math, STEM und Coding | Qwen meldet 87.4 auf GPQA und 98.0 auf HMMT Feb 25 |
| Agentic Search | DeepSeek fokussiert Agenten-Integration und 1M Kontext | Qwen meldet 49.8 auf HLE with tools |
| Kostenbewusstes Routing | V4 Flash ist der klare erste Test | Qwen gewinnt, wenn Alibaba/Qwen-Stack wichtiger ist als Rohkosten |
Source: DeepSeek V4 Release Note; offizieller Qwen3-Max-Thinking Blog
Provider-Benchmarks nicht überlesen
Das sind Claims der Anbieter. Sie helfen bei der Richtung, ersetzen aber keinen Test mit deinen Prompts, deinem Code, deinen Latenzgrenzen und deinem Kostenprofil.
Welches Modell solltest du wählen?
Das Modell muss zur Aufgabe passen.
Entscheidungstabelle
| Workload | Erster Test | Warum |
|---|---|---|
| Long-Context-Dokumentverarbeitung | DeepSeek V4 Flash | 1M Kontext und günstiger Output |
| Agenten-Worker mit hohem Volumen | DeepSeek V4 Flash | Günstiger als Qwen nach offiziellen Listenpreisen |
| Schwere Open-Weight-Reasoning-Experimente | DeepSeek V4 Pro | DeepSeek V4 Flaggschiff mit verlinkten Gewichten |
| Alibaba Cloud Produktionsstack | Qwen3-Max-Thinking | Native Model Studio Unterstützung und Preis-Dokumente |
| Tool-Use-Reasoning in Qwen | Qwen3-Max-Thinking | Qwen beschreibt adaptive Tool Use und Model Studio listet Tool Calling |
| Kostenstabilität nach dem 31. Mai | Vorher neu prüfen | DeepSeek V4 Pro Rabatt ist temporär; V4 Flash wirkt in den Docs stabiler |
Wenn ich für die meisten Teams einen Default wählen müsste, würde ich mit DeepSeek V4 Flash anfangen. Es ist günstig genug für breite Tests, unterstützt langen Kontext und hält die Migration einfach. Qwen3-Max-Thinking würde ich testen, wenn die App ohnehin auf Alibaba Cloud läuft oder Qwens konkrete Benchmark-Stärken zum Workload passen.
Geprüfte offizielle Quellen
Keine alten V3-only-Benchmark-Mirrors.
- DeepSeek V4 Preview Release
- DeepSeek Models & Pricing
- DeepSeek API Change Log
- Qwen: offizieller Qwen3-Max-Thinking Blog
- Alibaba Cloud Model Studio unterstützte Modelle
- Alibaba Cloud Model Studio Preise
Fazit
DeepSeek ist der Kosten-Default. Qwen ist die Ökosystem-Wahl.
Die alte Überschrift war zu breit. Chinesische Modelle schlagen GPT nicht automatisch überall, und ein seriöser Post sollte nicht so tun, als würde ein Benchmark den Markt entscheiden. Das nützliche Update ist enger: DeepSeek V4 ist live und sollte zuerst getestet werden, wenn du günstige 1M-Kontext-API-Arbeit brauchst. Qwen3-Max-Thinking passt besser, wenn Deployment, Tools oder Evaluation bereits im Alibaba/Qwen-Ökosystem liegen.
Für DeepSeek-only-Details lies den DeepSeek V4 Release- und Preisguide. Für die breitere Modellwahl nutze den AI Model Picker. Wenn monatliche Kosten zählen, rechne deinen Use Case im KI-Kostenrechner durch.
Weiterlesen
Brauchst du Hilfe bei der Modellwahl?
Vergleiche KI-Modelle nach Use Case, Kosten, Kontextlänge und Workflow-Fit.
AI Model Picker öffnen


