Noch vor wenigen Jahren war die Idee, dass eine KI eigenständig Code schreibt, Bugs behebt oder Pull Requests erstellt, reine Science-Fiction. Heute gehören LLM-basierte Coding-Assistenten zum Alltag vieler Entwickler. Wie schnell diese Entwicklung verlaufen ist, lässt sich gut an der Claude-Modellfamilie von Anthropic nachvollziehen.

Vom Chatbot zum Coding-Agenten

Als Anthropic im März 2023 das erste Claude-Modell veröffentlichte, war es ein allgemeiner Sprachassistent, ohne speziellen Fokus auf Programmierung. In nur drei Jahren hat sich die Modellfamilie zu einem der leistungsfähigsten KI-Coding-Tools entwickelt.

Was misst der SWE-bench?

Der SWE-bench Verified ist ein Benchmark, der die Fähigkeit von KI-Modellen misst, echte Software-Bugs aus Open-Source-Projekten zu lösen. Anders als synthetische Benchmarks basiert er auf realen GitHub-Issues und Pull Requests – er testet also, ob ein Modell tatsächlich funktionierenden Code produziert, der bestehende Tests besteht.

Ein Score von 49 % (Claude 3.5 Sonnet, Juni 2024) bedeutet, dass das Modell knapp die Hälfte der gestellten Aufgaben korrekt lösen konnte. Nur 20 Monate später erreicht Claude Opus 4.6 bereits 80,8 % – eine beeindruckende Steigerung.

Die folgende Tabelle zeigt diese Entwicklung im Überblick:

Modell Release SWE-bench Verified
Claude 14. März 2023
Claude 2 11. Juli 2023
Claude Instant 1.2 9. August 2023
Claude 2.1 21. November 2023
Claude 3 4. März 2024
Claude 3.5 Sonnet 20. Juni 2024 49,0 %
Claude 3.5 Haiku 22. Oktober 2024
Claude 3.7 Sonnet 24. Februar 2025 70,3 %
Claude Sonnet 4 22. Mai 2025 72,7 %
Claude Opus 4 22. Mai 2025 72,5 %
Claude Opus 4.1 5. August 2025 74,5 %
Claude Sonnet 4.5 29. September 2025 77,2 %
Claude Haiku 4.5 15. Oktober 2025 73,3 %
Claude Opus 4.5 24. November 2025 80,8 %
Claude Opus 4.6 5. Februar 2026 80,8 %
Claude Sonnet 4.6 17. Februar 2026 80,2 %

*Die Ergebnisse anderer Modelle kann man unter anderem auf LLM-Stats einsehen. Andere Edge-Modelle wie GPT-5.2, Gemini 3 Flash und Kimi K2.5 erzielen vergleichbare Scores (80.0%, 78.0% und 76.8%).

Die Phasen der Entwicklung

Phase 1 – Grundlagen (2023)

Die ersten Claude-Modelle waren generelle Sprachmodelle. Code-Generierung war möglich, aber nicht der Fokus. SWE-bench-Scores wurden zu dieser Zeit noch nicht systematisch gemessen und veröffentlicht.

Phase 2 – Der Durchbruch (2024)

Mit Claude 3.5 Sonnet kam der erste messbare SWE-bench-Score von 49 %. Das Modell konnte erstmals zuverlässig mit komplexen Codebasen arbeiten. Dennoch war die Performance von Sonnet 3.5 in unserer Erfahrung häufig noch unbefriedigend, erst mit Sonnet 3.7 wurde es wirklich nützlich.

Phase 3 – Schnelle Fortschritte (2025–2026)

Von 70,3 % (Claude 3.7 Sonnet) auf 80,8 % (Opus 4.5/4.6) innerhalb eines Jahres. Gleichzeitig ermöglichten neue Werkzeuge wie Claude Code den Einsatz als vollwertiger Coding-Agent, der eigenständig Dateien lesen, bearbeiten und Befehle ausführen kann.

Phase 4 – Diminishing Returns? (2026–?)

Im SWE-bench Verified-Benchmark und vielen weiteren schneiden aktuelle Modelle bereits sehr gut ab. Claude Opus 4.6 erreicht einen quasi identischen Score wie die Vorgängerversion – wobei durchaus Verbesserungen in anderen Aspekten vorhanden sind, besonders für Agentic-Tasks und “Novel problem-solving”. Es stellt sich daher die Frage, ob der bisherige Verbesserungstrend anhalten wird oder in 2026 spürbar abflacht.

METR-Zeithorizont: Wo noch schnelle Verbesserungen sichtbar sind

Während der SWE-bench-Score zuletzt kaum noch steigt (rund 80 %), zeigt ein anderer Benchmark ein deutlich dynamischeres Bild: der Task-Completion Time Horizon von METR.

Der Zeithorizont misst, wie lange eine Aufgabe dauern darf (gemessen an der menschlichen Bearbeitungszeit), damit ein KI-Agent sie noch mit 50 % Wahrscheinlichkeit erfolgreich löst. Je höher der Wert, desto komplexere und längere Aufgaben kann das Modell eigenständig bewältigen.

Datenquelle: METR Time Horizons, Stand Februar 2026. WICHTIG: Y-Achse logarithmisch.

Das Wachstum ist exponentiell: GPT-2 (2019) schaffte nur Aufgaben im Sekundenbereich. Claude Opus 4.6 bewältigt heute Aufgaben, für die ein Mensch knapp 15 Stunden bräuchte – mit 50 % Zuverlässigkeit. Die Verdopplungszeit liegt laut METR derzeit bei etwa 4 Monaten.

Was bedeutet das für Entwickler?

Die Zahlen zeigen einen klaren Trend: LLMs werden beim Programmieren nicht nur schrittweise besser, die Verbesserung beschleunigte sich sogar. Für Entwickler bedeutet das:

  • Agentic Coding wird zum Standard: Modelle arbeiten nicht mehr nur als Autocomplete, sondern navigieren eigenständig durch Projekte.
  • Der Einstieg wird leichter: Aufgaben, die früher tiefes Domänenwissen erforderten, können zunehmend an KI delegiert werden.
  • Code-Review bleibt wichtig: Auch bei 80 % Score löst das Modell 1 von 5 Aufgaben nicht korrekt und bei komplexeren Aufgaben kommt das Modell nur in der Hälfte der Fälle allein zurecht. Menschliche Überprüfung bleibt weiterhin unverzichtbar.

Die Entwicklung der Claude-Modelle ist nur ein Beispiel. Ähnliche Fortschritte zeigen sich bei Modellen anderer Anbieter. Der Trend ist branchenweit und könnte die Art, wie Software entwickelt wird, nachhaltig verändern.

Weiterlesen


Sie möchten KI-gestützte Entwicklung in Ihrem Team einführen? Sprechen Sie uns an – wir unterstützen Sie bei der Auswahl und dem Einsatz der richtigen Tools.

*Passend wurde das Banner-Image generiert mit Nanobanana Pro