Zurück zum BlogBlockige KI-Bewohner sammeln, graben und hüten Tiere in einer Voxel-Welt, während über ihnen ein leuchtender GDP-Graph nach oben klettert
Bench #2

Wir haben eine KI-Kampfarena gebaut. Dann haben wir sie eingestampft.

Unser Minecraft-Deathmatch sah klasse aus — und maß das Falsche. Nicht das klügste Modell gewann, sondern das schnellste. Also haben wir alles abgerissen und einen Benchmark für das gebaut, was Modelle wirklich unterscheidet: aus dem Nichts eine Wirtschaft aufbauen.

R
Robin
VoxelMind
7 min Lesezeit
benchllm benchmarkminecraftai economygdp

Ein ehrliches Nachwort

Vor einer Woche kam unser Beitrag darüber, wie wir 14 KI-Modelle zum 3v3-Kampf in eine Minecraft-Arena gesteckt haben. Kam gut an. Sah klasse aus — zwei Teams stürmen durchs Kolosseum, Schwerter raus, letztes Team gewinnt. Als Schauspiel hat es funktioniert.

Als Benchmark war es still kaputt. Dieser Beitrag ist das Eingeständnis, die genaue Erklärung, woran es scheiterte — und was wir stattdessen gebaut haben. Das Neue ist live, und wir halten es für den mit Abstand ehrlicheren Test.

Die Arena hat das Falsche gemessen

Der Sinn eines Modell-gegen-Modell-Benchmarks ist, eine Variable zu isolieren — den entscheidenden Kopf — und alles andere gleich zu halten. Das Gleichhalten haben wir gut hinbekommen: identische Ausrüstung, symmetrische Spawns, frische Arena pro Match, kein Wallhack. Aber die Variable, die am Ende rauskam, war nicht Intelligenz. Es war Geschwindigkeit.

Die Arena läuft in Echtzeit. Jeder Bot handelt etwa einmal pro Sekunde, der Kampf wartet auf niemanden. Damit wird Latenz still zum dominierenden Kampf-Stat. In unseren eigenen Läufen brauchte ein schweres Reasoning-Modell 45 Sekunden für einen einzigen Zug — es stand da wie eine Trainingspuppe, kassierte Schaden, die Runde lief ab. Es war nicht dumm. Es dachte nach, während alle anderen zuschlugen. Und die billigsten, schnellsten Modelle liefen weit fähigeren davon.

Lass das kurz sacken: In einer Kampfarena schlägt ein schlechteres Modell mit schneller API ein klügeres mit langsamer. Das ist kein Intelligenz-Benchmark. Das ist ein Ping-Test mit Schwert.

Drei strukturelle Gründe, warum Kampf nicht funktioniert

  • Echtzeit bestraft Nachdenken. Der ganze Wert eines starken Reasoning-Modells ist, dass es abwägt. Eine Uhr, die Reflexe belohnt, bestraft genau das, was man messen will.
  • Ein Match ist ein Münzwurf. Spawn-Winkel, wer-trifft-wen, ein glücklicher Crit — Kampf trieft vor Varianz. Man braucht einen Haufen Läufe, um durch das Rauschen ein Signal zu sehen, und selbst dann ist es dünn.
  • Wir mussten den interessanten Teil löschen, um es fair zu machen. Frühe Versionen ließen Bots erst Kisten plündern. Alle grabschten alles und waren am Ende identisch max-ausgerüstet — also raus mit dem Looten, Auto-Equip für alle. Aber "entscheiden, was man sammelt und wann man investiert" ist genau die Art Planung, in der sich Modelle unterscheiden. Wir hatten die aussagekräftigste Entscheidung weggeschliffen, nur um einen sauberen Kampf zu kriegen.

Was nach dem ganzen Schleifen übrig blieb, war Reflex-Kampf. Und Reflexe sind nicht der Ort, an dem große Sprachmodelle interessant sind. Also haben wir aufgehört, die Arena zu verteidigen, und die bessere Frage gestellt.

Worin unterscheiden sich Modelle wirklich?

Nicht in der Reaktionszeit. Sie unterscheiden sich in der Planung über einen langen Horizont: Was zuerst? Wann jetzt Aufwand in etwas stecken, das sich später auszahlt? Wie die Arbeit auf mehrere Agenten verteilen? Wann den Tech-Tree hochklettern statt die einfache Ressource zu grinden? Das ist das Denken, das in der echten Welt zählt — und in einem 90-Sekunden-Schwertkampf unsichtbar.

Also haben wir einen Test gebaut, der genau dieses Denken zum ganzen Spiel macht.

Der neue Benchmark: eine Wirtschaft bauen, keine Leichen zählen

So läuft das neue Format. Wähl ein Modell. Es setzt ein kleines Team aus Bewohnern in eine frische Survival-Welt mit nichts — leere Hände, nacktes Gelände. Aufgabe: die reichste Wirtschaft bauen, die es schafft. Der Score ist eine einzige Zahl, die wir GDP nennen: der gesamte Wert, den die Bewohner produzieren.

Und Wert funktioniert wie eine echte Wirtschaft. Rohstoffe sind billig. Verarbeitete Güter sind mehr wert — ein Brett schlägt einen Stamm, ein Eisenbarren schlägt rohes Erz. Kapitalgüter, die deinen Output vervielfachen, etwa Werkzeuge, sind am meisten wert. Die ganze Preisleiter leitet sich aus dem Crafting-Baum selbst ab: tieferer Tech, mehr Wert. GDP ist kumulativ — sie klettert nur — also wird das Spiel zu "schau, wie die Zahl steigt", und das ist erstaunlich gut als Sog.

Damit eine nackte Zahl lesbar wird, durchläuft die Wirtschaft beim Wachsen Stufen: Subsistenz → Weiler → Dorf → Stadt → Großstadt → Metropole. Man spürt das Denken eines Modells daran, wie schnell es diese Leiter erklimmt — und wo es hängenbleibt.

Warum GDP die ehrliche Metrik ist

  • Sie belohnt genau das Unterscheidende. Ein hoher GDP heißt, das Modell hat eine Wertschöpfungskette geplant: sammeln, verarbeiten, Werkzeug bauen, mit dem Werkzeug schneller sammeln. Genau dieses Compounding hat der Kampf versteckt.
  • Langsame Modelle bekommen endlich eine faire Chance. Das Wirtschaftsrennen ist weit weniger reflexlastig als ein Deathmatch. Ein bedächtiges, schweres Reasoning-Modell darf sich Zeit nehmen, zwei Schritte vorausdenken — und diese Geduld kann gewinnen statt verlieren. Genau die Modelle, die die Arena unfair bestraft hat, sind die, für die dieser Test gebaut ist.
  • Sie ist lesbar. "Modell X baute eine Stadt, Modell Y blieb beim Weiler stecken" sagt mehr als "81,4 % vs. 79,9 %" je könnte — und man hat zugesehen.

Die Fairness-Regeln, die wir in der Arena richtig hatten, gelten direkt weiter: dieselbe Welt pro Lauf (identische Bäume, Erze, Tiere — kein Gelände-Glück), kein Wallhack (das Modell sieht nur, was ein Mensch sähe), und wir verdienen die Metrik, bevor wir ihr trauen — ein Modell oft genug gegen sich selbst, um zu wissen, dass ein Abstand echt ist und keine Varianz.

Der Clou: du kannst coachen

Das Schönste am Umbau hin zur Planung: Planung ist etwas, das ein Mensch beisteuern kann. Es gibt also zwei Spielweisen. Im Lab wählst du ein Modell und siehst ihm solo zu — reines Modell, kein Mensch im Loop, sein GDP landet im Leaderboard. Im Coaching-Modus wirst du zum CEO: gib dem Modell in normaler Sprache eine Strategie und versuch, seine eigene Baseline zu schlagen. Competitive Prompting — dein Köpfchen, seine Ausführung — und das Leaderboard markiert, welche Läufe von Menschen gecoacht wurden.

Schau einem Modell beim Bauen zu

Das ist jetzt live. Geh zur Bench, starte eine Simulation und sieh zu, wie sich eine frische Welt füllt — Bewohner fällen Holz, graben eine Steinklippe ab, schmelzen Eisen, craften ihre ersten Werkzeuge — während die GDP-Zahl in Echtzeit nach oben tickt. Dann schau ins Leaderboard, welche Modelle und welche menschlichen Coaches die größte Wirtschaft gebaut haben.

Die Arena war eine gute Art zu beweisen, dass man einen Benchmark sehen und mitspielen kann. Sie hat nur das Falsche gemessen. Die Wirtschaft ist, was sie immer messen sollte. Zwei Köpfe treten noch immer an — aber jetzt bauen sie.