Meine Gedanken zu Claude Opus 4.7

TL;DR

Anthropic hat Claude Opus 4.7 am 16. April 2026 veröffentlicht. Model ID: claude-opus-4-7.
Die Coding-Benchmarks sind deutlich gestiegen. SWE-bench Verified liegt bei 87,6 % (vorher 80,8 %), SWE-bench Pro bei 64,3 % (vorher 53,4 %), CursorBench bei 70 % (vorher 58 %).
Neue xhigh Effort-Stufe, hochauflösendes Vision mit 2.576 px / 3,75 MP und eine task_budget Beta für Agent-Loops.
Der neue Tokenizer verbraucht 1,0 bis 1,35× mehr Tokens bei identischem Input. Anthropic hat die Rate Limits proaktiv angehoben, um den Hit abzufedern.
Die Community auf X ist etwa 40 % positiv / 60 % enttäuscht gespalten. Das Label, das hängenbleibt: “Mythos lite.”

Der Release in Zahlen

Anthropic schreibt selten langweilige Release-Posts, und dieser ist keine Ausnahme. Die Behauptung: 4.7 ist ihr fähigstes allgemein verfügbares Modell, am stärksten bei langen agentischen Aufgaben, Vision und Memory. Ich habe die Werte aus Anthropics Release-Post gezogen und jede Zahl gegen die offiziellen Entwickler-Docs, Vellums Analyse und das Launch-Summary von llm-stats gegengecheckt. Das hier ist das bereinigte Bild.

Coding und Agents

Benchmark	Opus 4.7	Opus 4.6	GPT-5.4	Gemini 3.1 Pro
SWE-bench Verified	87,6 %	80,8 %	n/a	80,6 %
SWE-bench Pro	64,3 %	53,4 %	57,7 %	54,2 %
Terminal-Bench 2.0	69,4 %	65,4 %	75,1 %*	68,5 %
OSWorld-Verified	78,0 %	72,7 %	75,0 %	n/a
MCP-Atlas	77,3 %	75,8 %	68,1 %	73,9 %

*GPT-5.4’s Terminal-Bench Zahl basiert auf einem selbst-gemeldeten Harness und ist nicht direkt vergleichbar.

Reasoning und Wissen

Benchmark	Opus 4.7	Opus 4.6	GPT-5.4 Pro	Gemini 3.1 Pro
GPQA Diamond	94,2 %	91,3 %	94,4 %	94,3 %
Humanity’s Last Exam (ohne Tools)	46,9 %	40,0 %	n/a	n/a
Humanity’s Last Exam (mit Tools)	54,7 %	53,3 %	n/a	n/a
MMMLU	91,5 %	91,1 %	n/a	92,6 %

GPQA Diamond ist faktisch ein Drei-Wege-Unentschieden. Anthropic, OpenAI und Google liegen alle innerhalb des Rauschens. Würde ich ignorieren.

Vision und Domain

Benchmark	Opus 4.7	Opus 4.6
CharXiv Reasoning (ohne Tools)	82,1 %	69,1 %
CharXiv Reasoning (mit Tools)	91,0 %	84,7 %
Finance Agent v1.1 (SOTA)	64,4 %	60,1 %
XBOW Visual Acuity	98,5 %	54,5 %
BigLaw Bench (Harvey, high effort)	90,9 %	n/a

Der XBOW-Sprung ist die auffälligste Zahl im gesamten Release. CharXiv ist der Benchmark, auf den ich wirklich achten würde. Pixelgenaues Chart-Reasoning ist genau das, wo echte Agent-Workloads ihre Zeit verbringen.

Partner-Zahlen

Nicht alles passt in eine Tabelle. Anthropics Partner melden:

Rakuten-SWE-Bench: 3× mehr gelöste Production Tasks gegenüber Opus 4.6.
CodeRabbit: Recall über 10 % verbessert.
Databricks: 21 % weniger Fehler bei Document Reasoning.
Anthropic intern: 14 % Verbesserung bei Multi-Step Workflows, mit einem Drittel weniger Tool-Fehlern.

Die eine Regression

Es gibt genau einen Benchmark, auf dem 4.7 zurückfällt. BrowseComp fällt von rund 83,7 % (Opus 4.6) auf 79,3 % (Opus 4.7). Anthropic versteckt das im Release-Post nicht, und ich tu’s auch nicht. Wer ein agentisches Websuch-Produkt baut, sollte vor dem Switch nachtesten.

Was tatsächlich neu ist

Zahlen sagen dir nicht, was geshipt wurde. Fünf Dinge zählen.

Hochauflösendes Vision. Max-Bildgröße steigt von 1.568 px / 1,15 MP auf 2.576 px / 3,75 MP. Das sind etwa 3× mehr Pixel. Das unterschätzte Detail: Koordinaten mappen jetzt 1:1 auf echte Pixel, kein Skalenfaktor-Rechnen mehr, wenn das Modell auf ein UI-Element zeigt. Computer-Use Workflows werden simpler.

Die xhigh Effort-Stufe. Eine neue Tier zwischen high und max. Claude Code defaulted jetzt auf xhigh für alle Pläne. Anthropics Empfehlung: bei xhigh für Coding und agentische Arbeit starten, mindestens high für alles, was intelligenzsensitiv ist.

Task Budgets (Public Beta). Setze den Beta-Header task-budgets-2026-03-13, übergib task_budget: {"type": "tokens", "total": 128000} im output_config, und das Modell sieht einen mitlaufenden Countdown über den kompletten agentischen Loop. Beratend, kein harter Cap. Minimum 20k. Unterscheidet sich von max_tokens, das einen einzelnen Request cappt und für das Modell komplett unsichtbar ist.

Claude Code Updates. /ultrareview ist ein neuer Slash-Command für fokussierte Review-Passes. Pro- und Max-Nutzer bekommen drei freie Runs. Auto Mode ist jetzt auch für Max-Nutzer verfügbar. Default Effort ist xhigh über alle Pläne.

Breaking API Changes (nur Messages API). Wer Managed Agents nutzt, ist davon nicht betroffen. Alle anderen:

# Vorher (Opus 4.6)
thinking = {"type": "enabled", "budget_tokens": 32000}

# Nachher (Opus 4.7)
thinking = {"type": "adaptive"}
output_config = {"effort": "high"}

Zusätzlich:

temperature, top_p, top_k geben jetzt 400-Fehler zurück, wenn nicht-default gesetzt.
Thinking Content ist per Default leer. Opt-in mit display: "summarized".
Adaptive Thinking ist per Default aus. Muss explizit aktiviert werden.

Pricing unverändert: $5 pro Million Input-Tokens, $25 pro Million Output, bei Context ≤200K. Darüber: $10 / $37,50. Context Window bleibt bei 1M Input und 128K Output.

Die Tokenizer-Steuer

Der wichtigste Caveat für alle, die Opus 4.7 in Production fahren.

Anthropic hat den Tokenizer gewechselt. Derselbe Text mappt jetzt auf 1,0 bis 1,35× mehr Tokens als auf Opus 4.6. Bis zu etwa 35 % mehr, abhängig vom Content-Shape. Input-Tokens wachsen moderat. Output-Tokens bei höheren Effort-Stufen wachsen schneller, weil das Modell auch mehr denkt.

Der Preis pro Token hat sich nicht geändert. Die effektiven Kosten pro Task schon.

Anthropics Reaktion war die einzig sinnvolle. Sie haben am Launch-Tag die Rate Limits für alle Subscribers angehoben und die 5-Stunden- und Wochen-Fenster resettet. Claude Codes PM @bcherny hat es öffentlich bestätigt. Der Bump hilft. Er gleicht den Burn für Heavy User aber nicht komplett aus.

Drei praktische Dinge:

max_tokens Grenzen anheben, damit Adaptive Thinking Headroom hat.
task_budget nutzen für jeden Loop, den du nicht gerne über Nacht laufen lässt.
Aufhören, effektive $/Task als unverändert zu behandeln. Neu messen.

Die Reaktion der Community

Benchmarks sind eine Sache. Das hier ist, was die Leute nach einem Tag Arbeit damit wirklich sagen.

Der Split. Etwa 40 % positiv / 60 % enttäuscht. Eine echt gemischte Rezeption. Kein Shitstorm, aber auch keine Siegesfeier. Long-Context und agentische Wins sind real. Token-Kosten, strengeres Verhalten und das “das ist nicht Mythos” Gefühl ziehen in die andere Richtung.

Wo es gewinnt. Multi-Step Coding und lange agentische Runs. Schema-Migrations, bei denen 4.6 Indexes verloren hat und GPT-5-codex entgleist ist. Vision-zu-Code Workflows fühlen sich spürbar besser an dank des Auflösungs-Upgrades. Screenshots werden zuverlässig in funktionierenden Code übersetzt. Ein Teil der Devs migriert bereits den kompletten Stack zu 4.7 wegen xhigh plus Self-Verification.

Die “Mythos lite” Distillation-Theorie. Nahezu Konsens in den technischen Threads: Opus 4.7 ist eine kleinere, destillierte Version des unreleased Mythos Modells. Bewusst abgeschwächt bei roher Coding-Power und kreativer Freiheit. Als Gründe werden genannt: Compute-Knappheit, Sicherheitsbedenken rund um full Mythos und Anthropics eigene Formulierung, dass 4.7 “alles andere auf real-world Evals schlägt” und trotzdem weniger fähig als Mythos sei. Ein Thread fasste es knapp zusammen: “Opus 4.7 ist nur eine Distillation, speziell ohne die advanced coding skills.”

“Haben sie 4.6 generft?” Genug Nutzer glauben, Anthropic habe 4.6 in den Wochen vor dem Launch leise verschlechtert, damit 4.7 als größerer Sprung erscheint. Es ist mittlerweile ein hartnäckiger Thread. Ob es wirklich stimmt, spielt kaum eine Rolle. Die Wahrnehmung ist real. Ein Teil der Power User ist während 4.6’s schwacher Phase zu GPT-5.4 migriert und zögert jetzt beim Rückwechsel. Vertrauen ist eine härtere Metrik als SWE-bench.

Das Soul-Problem. Die Kritik, die am schwersten loszuwerden ist. Kreative und “Soul”-Prompts berichten von einem Modell, das sich beschämt, eingeschränkt, ohne Freiheit anfühlt. Ein Post nannte es “ein Mythos Homunculus, destilliert und amputiert.” Der Ton hat sich bei manchen in Richtung GPT-artiges Hedging verschoben. Der Safety Layer wirkt schwerer als bei 4.6. Die Minderheits-Gegenposition sagt, das Urteil “stabilisiere sich,” sobald Konversationen in die Tiefe gehen. Die kreative Community ist nicht überzeugt.

Strengere Instruction Following. Opus 4.7 fragt jetzt “willst du, dass ich das fixe?” an Stellen, wo 4.6 automatisch korrigiert hätte. Offiziell ist das ein Feature. Die Docs sind explizit: Das Modell “generalisiert keine Instruktion stillschweigend von einem Item auf ein anderes und schließt keine Requests, die du nicht gestellt hast.” Power User, die ihre Workflows auf 4.6’s Auto-Fix Verhalten optimiert hatten, lesen es als Regression. Ist es nicht. Aber die Prompts müssen aktualisiert werden, nicht einfach wiederverwendet.

Die Tokenizer-Steuer in der Praxis. Die #1 direkte Beschwerde. Virale Beispiele: Ein einzelnes "Hi" frisst ~20k Tokens und 2 % Context. VS-Code-Nutzer berichten von 7,5× schnellerem Limit-Burn in schweren Sessions. Anthropics präventive Rate-Limit-Erhöhung mildert den Impact, eliminiert ihn aber nicht für Heavy User.

Wohin der Hype geht. Viel “warten auf full Mythos” Energie. Early-Adopter Fatigue ist real. Die Leute migrieren deutlich vorsichtiger als bei 4.6.

Der Mindset Shift

Alt: Jedes Modell-Upgrade ist ein Drop-in Replacement. Versions-String tauschen, Prompts behalten. Neu: Modell-Upgrades sind Migrationen. Prompts, Scaffolding und Budgets müssen alle neu geeicht werden.

4.7 ist die deutlichste Erinnerung bislang, dass “Upgrade” und “dasselbe, nur besser” keine Synonyme sind. Du zahlst eine Tokenizer-Steuer, gibst einige Scaffolding-Annahmen auf und bekommst einen strengeren, wörtlicheren Kollaborateur zurück. Netto positiv für die meisten Workloads, aber nur, wenn du tatsächlich neu tunest.

Wie du optimal mit Opus 4.7 arbeitest

Sieben Praktiken, auf die ich mich nach ein paar Tagen eingependelt habe.

1. Default auf xhigh. max für die harten Sachen.

Hex’s CTO hat es am besten gesagt: Low-Effort 4.7 ist ungefähr äquivalent zu Medium-Effort 4.6. xhigh ist also der richtige Boden für Coding und Agent-Arbeit. max heb dir auf für die wirklich ambiguen Probleme, bei denen du lieber Tokens ausgibst als zu raten.

2. Sei wörtlich.

4.7 generalisiert nicht mehr stillschweigend. Wenn eine Regel auf alle 20 Files angewendet werden soll, sag’s. Wenn du Auto-Fix willst statt Rückfrage, sag “fix, frag nicht.” Das Modell macht jetzt exakt, was du ihm sagst. Das ist nur dann ein Feature, wenn deine Prompts präzise sind.

3. Schreib die Spec. Halte die Session kurz.

Context Rot ist mit dem 1M Window nicht verschwunden. Planung und Execution in separate Sessions aufteilen. Eine, in der du dich selbst mit dem AskUserQuestionTool interviewst und eine Spec produzierst, eine andere für die Umsetzung. Den kompletten Workflow habe ich in The Interview Method beschrieben.

4. Budgetiere Tokens bewusst.

Mit 1,35× Token-Inflation und aktivem Adaptive Thinking werden sorglose “unlimitierte” Agent-Loops schnell teuer. Nutze task_budget für alles, das du nicht gern über Nacht laufen lässt. Minimum ist 20k. Behandle es als Scope, nicht als harten Cap. Das Modell sieht den Countdown und priorisiert.

5. Altes Scaffolding entfernen.

Lösche “prüfe das Slide-Layout nochmal, bevor du antwortest,” “gib mir Zwischenstände,” “validiere den Output.” 4.7 verifiziert sich selbst und schickt Progress Updates per Default. Dein 4.6-Scaffolding kostet jetzt Tokens und schadet teilweise sogar der Output-Qualität. Raus damit.

6. API-Calls einmal, sauber migrieren.

Wer die Messages API direkt aufruft:

temperature, top_p und top_k aus Requests entfernen.
thinking: {"type": "enabled", "budget_tokens": N} ersetzen durch thinking: {"type": "adaptive"} plus output_config: {"effort": "high"} oder "xhigh".
display: "summarized" zum Thinking-Config hinzufügen, wenn dein UI Reasoning live an Nutzer streamt. Sonst sehen die eine lange stille Pause vor dem Output.

Managed-Agents-Nutzer können das komplett überspringen.

7. Eiche deine Prompts neu.

Jeder Prompt, der auf 4.6 getuned war, verdient einen Re-Run auf 4.7. Manche werden besser. Manche schlechter. Einige regredieren hart wegen entfernten Scaffoldings oder strengerer Instruction Following. Nicht vermuten. Messen.

Fazit

Opus 4.7 ist das fähigste Modell, das ich heute tatsächlich in Production deployen kann. Die Benchmark-Gains sind real, die Vision-Upgrades nützlich, und xhigh plus Self-Verification machen lange agentische Runs spürbar weniger brüchig. Die Tokenizer-Steuer ist auch real. Die Leute, die es “Mythos lite” nennen, haben nicht unrecht. Sie sind nur über die richtige Sache enttäuscht.

Ich werde es weiter nutzen. Und ich werde weiter auf Mythos warten.

Meine Gedanken zu Claude Opus 4.7

TL;DR

Der Release in Zahlen

Coding und Agents

Reasoning und Wissen

Vision und Domain

Partner-Zahlen

Die eine Regression

Was tatsächlich neu ist

Die Tokenizer-Steuer

Die Reaktion der Community

Der Mindset Shift

Wie du optimal mit Opus 4.7 arbeitest

Fazit

Quellen

Yannik Zuehlke

TL;DR

Der Release in Zahlen

Coding und Agents

Reasoning und Wissen

Vision und Domain

Partner-Zahlen

Die eine Regression

Was tatsächlich neu ist

Die Tokenizer-Steuer

Die Reaktion der Community

Der Mindset Shift

Wie du optimal mit Opus 4.7 arbeitest

Fazit

Quellen

Yannik Zuehlke

Verwandte Beiträge

/goal: Der sechsstündige Codex-Run, der eine fünfstündige Pause überlebt hat

Von SPEC.md zu /goal: Mein Codex + GPT-5.5 Workflow

Wie ich meine erste iOS-App mit AI gebaut habe