Noch vor wenigen Jahren war die Idee, dass eine KI eigenständig Code schreibt, Bugs behebt oder Pull Requests erstellt, reine Science-Fiction. Heute gehören LLM-basierte Coding-Assistenten zum Alltag vieler Entwickler. Wie schnell diese Entwicklung verlaufen ist, lässt sich gut an der Claude-Modellfamilie von Anthropic nachvollziehen.
Vom Chatbot zum Coding-Agenten
Als Anthropic im März 2023 das erste Claude-Modell veröffentlichte, war es ein allgemeiner Sprachassistent, ohne speziellen Fokus auf Programmierung. In nur drei Jahren hat sich die Modellfamilie zu einem der leistungsfähigsten KI-Coding-Tools entwickelt.
Was misst der SWE-bench?
Der SWE-bench Verified ist ein Benchmark, der die Fähigkeit von KI-Modellen misst, echte Software-Bugs aus Open-Source-Projekten zu lösen. Anders als synthetische Benchmarks basiert er auf realen GitHub-Issues und Pull Requests – er testet also, ob ein Modell tatsächlich funktionierenden Code produziert, der bestehende Tests besteht.
Ein Score von 49 % (Claude 3.5 Sonnet, Juni 2024) bedeutet, dass das Modell knapp die Hälfte der gestellten Aufgaben korrekt lösen konnte. Nur 20 Monate später erreicht Claude Opus 4.6 bereits 80,8 % – eine beeindruckende Steigerung.
Die folgende Tabelle zeigt diese Entwicklung im Überblick:
| Modell | Release | SWE-bench Verified |
|---|---|---|
| Claude | 14. März 2023 | – |
| Claude 2 | 11. Juli 2023 | – |
| Claude Instant 1.2 | 9. August 2023 | – |
| Claude 2.1 | 21. November 2023 | – |
| Claude 3 | 4. März 2024 | – |
| Claude 3.5 Sonnet | 20. Juni 2024 | 49,0 % |
| Claude 3.5 Haiku | 22. Oktober 2024 | – |
| Claude 3.7 Sonnet | 24. Februar 2025 | 70,3 % |
| Claude Sonnet 4 | 22. Mai 2025 | 72,7 % |
| Claude Opus 4 | 22. Mai 2025 | 72,5 % |
| Claude Opus 4.1 | 5. August 2025 | 74,5 % |
| Claude Sonnet 4.5 | 29. September 2025 | 77,2 % |
| Claude Haiku 4.5 | 15. Oktober 2025 | 73,3 % |
| Claude Opus 4.5 | 24. November 2025 | 80,8 % |
| Claude Opus 4.6 | 5. Februar 2026 | 80,8 % |
| Claude Sonnet 4.6 | 17. Februar 2026 | 80,2 % |
*Die Ergebnisse anderer Modelle kann man unter anderem auf LLM-Stats einsehen. Andere Edge-Modelle wie GPT-5.2, Gemini 3 Flash und Kimi K2.5 erzielen vergleichbare Scores (80.0%, 78.0% und 76.8%).
Die Phasen der Entwicklung
Phase 1 – Grundlagen (2023)
Die ersten Claude-Modelle waren generelle Sprachmodelle. Code-Generierung war möglich, aber nicht der Fokus. SWE-bench-Scores wurden zu dieser Zeit noch nicht systematisch gemessen und veröffentlicht.
Phase 2 – Der Durchbruch (2024)
Mit Claude 3.5 Sonnet kam der erste messbare SWE-bench-Score von 49 %. Das Modell konnte erstmals zuverlässig mit komplexen Codebasen arbeiten. Dennoch war die Performance von Sonnet 3.5 in unserer Erfahrung häufig noch unbefriedigend, erst mit Sonnet 3.7 wurde es wirklich nützlich.
Phase 3 – Schnelle Fortschritte (2025–2026)
Von 70,3 % (Claude 3.7 Sonnet) auf 80,8 % (Opus 4.5/4.6) innerhalb eines Jahres. Gleichzeitig ermöglichten neue Werkzeuge wie Claude Code den Einsatz als vollwertiger Coding-Agent, der eigenständig Dateien lesen, bearbeiten und Befehle ausführen kann.
Phase 4 – Diminishing Returns? (2026–?)
Im SWE-bench Verified-Benchmark und vielen weiteren schneiden aktuelle Modelle bereits sehr gut ab. Claude Opus 4.6 erreicht einen quasi identischen Score wie die Vorgängerversion – wobei durchaus Verbesserungen in anderen Aspekten vorhanden sind, besonders für Agentic-Tasks und “Novel problem-solving”. Es stellt sich daher die Frage, ob der bisherige Verbesserungstrend anhalten wird oder in 2026 spürbar abflacht.
METR-Zeithorizont: Wo noch schnelle Verbesserungen sichtbar sind
Während der SWE-bench-Score zuletzt kaum noch steigt (rund 80 %), zeigt ein anderer Benchmark ein deutlich dynamischeres Bild: der Task-Completion Time Horizon von METR.
Der Zeithorizont misst, wie lange eine Aufgabe dauern darf (gemessen an der menschlichen Bearbeitungszeit), damit ein KI-Agent sie noch mit 50 % Wahrscheinlichkeit erfolgreich löst. Je höher der Wert, desto komplexere und längere Aufgaben kann das Modell eigenständig bewältigen.
Datenquelle: METR Time Horizons, Stand Februar 2026. WICHTIG: Y-Achse logarithmisch.
Das Wachstum ist exponentiell: GPT-2 (2019) schaffte nur Aufgaben im Sekundenbereich. Claude Opus 4.6 bewältigt heute Aufgaben, für die ein Mensch knapp 15 Stunden bräuchte – mit 50 % Zuverlässigkeit. Die Verdopplungszeit liegt laut METR derzeit bei etwa 4 Monaten.
Was bedeutet das für Entwickler?
Die Zahlen zeigen einen klaren Trend: LLMs werden beim Programmieren nicht nur schrittweise besser, die Verbesserung beschleunigte sich sogar. Für Entwickler bedeutet das:
- Agentic Coding wird zum Standard: Modelle arbeiten nicht mehr nur als Autocomplete, sondern navigieren eigenständig durch Projekte.
- Der Einstieg wird leichter: Aufgaben, die früher tiefes Domänenwissen erforderten, können zunehmend an KI delegiert werden.
- Code-Review bleibt wichtig: Auch bei 80 % Score löst das Modell 1 von 5 Aufgaben nicht korrekt und bei komplexeren Aufgaben kommt das Modell nur in der Hälfte der Fälle allein zurecht. Menschliche Überprüfung bleibt weiterhin unverzichtbar.
Die Entwicklung der Claude-Modelle ist nur ein Beispiel. Ähnliche Fortschritte zeigen sich bei Modellen anderer Anbieter. Der Trend ist branchenweit und könnte die Art, wie Software entwickelt wird, nachhaltig verändern.
Weiterlesen
- Mein KI-Praktikant Claude: Erfahrungen aus der täglichen Softwareentwicklung – ein persönlicher Erfahrungsbericht aus dem Entwickleralltag mit Claude.
- Whitepaper: Agentic Coding – was Agentic Coding konkret bedeutet und wie es sich von klassischem Prompting unterscheidet.
- AI-Coding-Assistenten: Ein Überblick für Einsteiger – ein Vergleich der wichtigsten Tools im Markt.
Sie möchten KI-gestützte Entwicklung in Ihrem Team einführen? Sprechen Sie uns an – wir unterstützen Sie bei der Auswahl und dem Einsatz der richtigen Tools.
*Passend wurde das Banner-Image generiert mit Nanobanana Pro