Stand: April 2026
Innerhalb weniger Wochen haben fast alle großen Anbieter neue Coding-Modelle veröffentlicht. Wer den Überblick verloren hat, findet hier eine kurze Zusammenfassung der wichtigsten Releases und ihrer Performance auf SWE-bench Verified, dem De-facto-Standard-Benchmark für reale Software-Engineering-Aufgaben.
Claude Opus 4.7 (Anthropic)
Anthropic hat Claude Opus 4.7 am 16. April 2026 veröffentlicht. Das Modell ist über die Claude-Apps, die API (claude-opus-4-7), Amazon Bedrock, Google Vertex AI und Microsoft Foundry verfügbar. Mit 87,6 % auf SWE-bench Verified legt Opus 4.7 gegenüber dem Vorgänger Opus 4.6 um knapp 7 Prozentpunkte zu und führte zum Release-Zeitpunkt das Leaderboard an.
Neu sind ein zusätzliches xhigh-Effort-Level für besonders komplexe Aufgaben, eine 3,3-fach höher aufgelöste Bildverarbeitung sowie Self-Verification bei lang laufenden agentischen Tasks.
Claude Mythos Preview (Anthropic)
Parallel zur regulären Opus-Linie hat Anthropic am 8. April 2026 ein zweites, deutlich spezialisierteres Modell vorgestellt: Claude Mythos Preview. Anthropic spricht selbst von einem „step change” gegenüber Opus 4.6, gibt das Modell aber bewusst nicht für die breite Öffentlichkeit frei. Stattdessen erhalten zunächst rund elf ausgewählte Organisationen Zugang, vor allem im Bereich Cybersecurity.
Mythos ist explizit auf autonomes Coding, lang laufende Agenten und Schwachstellenanalyse zugeschnitten. In internen Tests fand und exploitete das Modell Zero-Days in allen großen Betriebssystemen und Browsern. Mozilla berichtete kurz nach dem Limited Release von 271 mit Mythos identifizierten und gepatchten Sicherheitslücken in Firefox. Konkrete SWE-bench-Zahlen hat Anthropic für Mythos bislang nicht veröffentlicht.
GPT-5.5 (OpenAI)
OpenAI hat GPT-5.5 (intern „Spud”) am 23. April 2026 veröffentlicht. Es ist die erste vollständig neu trainierte Basis seit GPT-4.5. Verfügbar ist das Modell in ChatGPT Plus, Pro, Business und Enterprise sowie über die API.
Mit 88,7 % auf SWE-bench Verified liegt GPT-5.5 knapp vor Opus 4.7 und ist damit aktuell das stärkste Modell auf diesem Benchmark. Auf dem härteren SWE-bench Pro erreicht es 58,6 %, auf Terminal-Bench 2.0 82,7 %, ebenfalls Spitzenwerte. OpenAI bewirbt GPT-5.5 vor allem als „strongest agentic coding model” und betont Verbesserungen bei lang laufenden Tasks (Expert-SWE mit Aufgaben, die Menschen typischerweise rund 20 Stunden beschäftigen).
Gemini 3.1 Pro (Google)
Googles aktuelles Flaggschiff ist Gemini 3.1 Pro, veröffentlicht am 19. Februar 2026. Es erreicht 80,6 % auf SWE-bench Verified und liegt damit knapp hinter Opus 4.6 (80,8 %), aber spürbar hinter den jüngeren Releases von Anthropic und OpenAI.
Stärken zeigt Gemini 3.1 Pro vor allem in Bereichen, in denen Google traditionell gut aufgestellt ist: extrem große Kontextfenster (ganze Codebases, 8,4 Stunden Audio, 900-seitige PDFs oder eine Stunde Video in einem Prompt), 65 536 Output-Tokens und ein LiveCodeBench-Pro-Elo von 2887. Gegenüber Gemini 2.5 Pro hat sich die Anzahl gelöster Benchmark-Aufgaben mehr als verdoppelt.
Qwen3-Coder-Next (Alibaba)
Alibaba hat am 8. April 2026 mit Qwen3-Coder-Next den Coding-Zweig der Qwen-3.5-Familie aktualisiert. Das Modell ist ein Mixture-of-Experts mit 80 Mrd. Parametern (3 Mrd. aktiv) und einem Kontextfenster von 256K Tokens, damit ausdrücklich auch für den lokalen Einsatz auf moderater Hardware gedacht.
Auf SWE-bench Verified erreicht Qwen3-Coder-Next 58,7 %. Das ist deutlich unter den Frontier-Modellen, für ein offenes Modell dieser Größe aber konkurrenzfähig. Wenige Wochen später (20. April 2026) hat Alibaba zusätzlich Qwen3.6-Max-Preview vorgestellt, das auf mehreren Coding- und Agent-Benchmarks (u. a. SWE-bench Pro, Terminal-Bench 2.0) Top-Werte erreicht, erstmals jedoch als Closed-Weights-Modell.
Kimi K2.6 (Moonshot AI)
Moonshot AI hat am 20. April 2026 mit Kimi K2.6 ein Open-Weight-Modell unter modifizierter MIT-Lizenz veröffentlicht. Architektonisch handelt es sich um ein 1-Billion-Parameter-MoE mit 32 Mrd. aktiven Parametern, nativ multimodal und für agentische Workloads ausgelegt.
Auf SWE-bench Verified erreicht K2.6 80,2 %, auf SWE-bench Pro 58,6 %. Damit liegt das offene Modell auf SWE-bench Pro auf einem Niveau mit GPT-5.4 (xhigh) und vor Opus 4.6 sowie Gemini 3.1 Pro. Besonders bemerkenswert ist die agentische Skalierung: K2.6 koordiniert bis zu 300 Sub-Agenten über 4 000 Schritte parallel. In einem Demo-Lauf hat das Modell autonom über 13 Stunden eine acht Jahre alte Financial-Matching-Engine refaktoriert und dabei den Durchsatz mehr als verdoppelt.
Während das Modell frei verfügbar ist, ist es aufgrund seiner Größe nicht für den Einsatz auf „Consumerhardware” geeignet. Wer aber ohnehin eigene Hardware für Inferenz hat, für den ist auch der lokale Betrieb eine Überlegung wert. Die Modelle können auch mit Tools wie Claude Code verwendet werden.
SWE-bench Verified im Vergleich
Einordnung
Die Frontier-Modelle machen weiterhin stetige Fortschritte, wobei Googles Gemini 3.1 Pro nur wenige Monate alt ist und dennoch sichtbar aus der vorigen Generation stammt. OpenAI scheint mittlerweile komplett zu Anthropic aufgeschlossen zu haben. Die freieren Modelle liegen weiterhin etwa eine Generation zurück, noch mehr bei auf eigener Konsumentenhardware nutzbaren Modellen, sind aber mittlerweile sicher im brauchbaren Bereich.
Welches Modell wofür? Eine grobe Orientierung:
- Claude Opus 4.7 (Anthropic): Solide erste Wahl für anspruchsvolle Coding-Aufgaben im Alltag, insbesondere in Verbindung mit Claude Code für agentische Workflows.
- GPT-5.5 (OpenAI): Aktuell die stärkste Wahl für besonders lang laufende, agentische Aufgaben mit hoher Komplexität (Größenordnung 20-Stunden-Tasks).
- Gemini 3.1 Pro (Google): Erste Wahl, wenn extrem große Kontexte gefragt sind, etwa das Einlesen kompletter Codebases, langer Audio-/Video-Inhalte oder umfangreicher PDF-Dokumentation.
- Qwen3-Coder-Next (Alibaba): Interessant für Teams, die ein offenes Modell auf moderater Hardware lokal betreiben wollen, ohne auf agentische Fähigkeiten zu verzichten.
- Kimi K2.6 (Moonshot AI): Für agentische Workloads mit hoher Parallelität, etwa wenn viele Sub-Agenten über lange Zeiträume koordiniert arbeiten sollen, und gleichzeitig Wert auf Open Weights gelegt wird.
Weiterlesen
- AI-Coding-Assistenten: Ein Überblick für Einsteiger — Unser Artikel zu CLI-Tools vom Anfang 2026
- In 17 Tagen zum fertigen Digital Asset Manager: Ein Erfahrungsbericht mit Claude Code — wie das DAM-Projekt entstanden ist und was dabei gelernt wurde.
- Whitepaper: Agentic Coding — was Agentic Coding bedeutet und wie es sich vom klassischen Prompting unterscheidet.
Sie möchten KI-gestützte Entwicklung in Ihrem Team einführen? Sprechen Sie uns an — wir unterstützen Sie bei der Auswahl und dem Einsatz der richtigen Tools.