Zurück zum BlogZwei Teams blockiger KI-Bots — eines rot, eines blau — stürmen über eine steinerne Minecraft-Kolosseum-Arena unter dunklem Himmel
Bench #1

Wir haben 14 KI-Modelle in eine Minecraft-Arena gesteckt und kämpfen lassen

VoxelMind Bench ist live: zwei Modelle wählen, Sparks einsetzen und beim 3v3 im Hardcore-Modus zusehen — oder selbst auf den Server joinen und zuschauen.

R
Robin
VoxelMind
6 min Lesezeit
benchllm benchmarkminecraftai battlemodel comparison

Zwei Köpfe treten an. Einer geht raus.

Benchmarks für große Sprachmodelle sehen meist aus wie Tabellen. Multiple-Choice-Fragen, ein Prozentwert, ein Leaderboard. Nützlich — aber den Unterschied zwischen zwei Modellen spürt man kaum, wenn am Ende "81,4 % vs. 79,9 %" steht.

Also haben wir etwas anderes probiert. Wir haben zwei KI-Modelle in eine Minecraft-Hardcore-Arena gesetzt, jedem ein Team aus drei Bots gegeben und eine einzige Regel aufgestellt: besiege das andere Team. Kein Respawn. Das letzte Team, das steht, gewinnt. Wir nennen es VoxelMind Bench — und es ist jetzt live.

Jedes Team wird von einem anderen LLM gesteuert. Gleiche Arena, gleiche Ausrüstung, gleiche Spawn-Distanz, gleiche Werkzeuge. Die einzige Variable ist der Kopf, der entscheidet — und genau das macht einen Sieg aussagekräftig.

Warum ein Spiel der bessere Benchmark ist

Ein Multiple-Choice-Test belohnt das Auswendiglernen von Antworten. Ein Live-Spiel belohnt Handeln — eine unübersichtliche Welt wahrnehmen, unter Druck entscheiden und einen Moment später mit den Folgen leben. Es gibt keinen Lösungsschlüssel, auf den man sich überanpassen kann. Und Minecraft liefert etwas Seltenes: harte, objektive Fakten. Wer lebt noch? Wer hat getroffen? Wie lange brauchte der Sieger? An einem Permadeath-Timer kommt man nicht vorbei.

Und anders als bei einer geschlossenen Labor-Demo kann man zuschauen und mitmachen. Das ist der Punkt — ein Benchmark, den niemand sieht, ist nur eine Behauptung.

Was wir messen — und was wir nicht fälschen

Drei Prinzipien halten das Ergebnis ehrlich:

  • Symmetrisch by design. Beide Teams spawnen identisch, und die Arena wird vor jedem Match frisch neu generiert. Kein Modell bekommt einen Gelände- oder Ausrüstungsvorteil.
  • Kein Wallhack. Jedes Modell sieht genau die Informationen, die auch ein menschlicher Spieler hätte. Kein Röntgenblick, keine privilegierte Karte, keine versteckten Gegnerpositionen.
  • Die Metrik verdienen. Bevor wir einer Aussage wie "Modell X schlägt Modell Y" trauen, lassen wir dasselbe Modell auf beiden Seiten spielen. Ist das über viele Matches kein Münzwurf, ist der Benchmark kaputt — und wir reparieren ihn, bevor wir der Tabelle glauben.

Der überraschende Befund: Geschwindigkeit ist ein Stat

Die Arena läuft in Echtzeit. Jeder Bot handelt etwa einmal pro Sekunde, und der Kampf wartet auf niemanden. Damit wird Latenz zum Kampf-Stat.

Ein schweres Reasoning-Modell brauchte 45 Sekunden für eine einzige Entscheidung. In einem 79-Sekunden-Match brachte es fast nichts zustande — es stand herum, kassierte Schaden, die Runde endete unentschieden. Nicht weil es dumm war, sondern weil es nachdachte, während alle anderen zuschlugen. Schnelle Modelle — Gemini Flash Lite, GPT-4o mini, Claude Haiku — laufen langsameren davon, unabhängig vom rohen IQ.

Daraus wurde eine klare Regel: Die Echtzeit-Arena testet entschlossene Kampf-Skills, für schnelle Modelle. Die langsamen, grüblerischen Reasoning-Modelle gehören in einen anderen Test — den rundenbasierten Zivilisations-Builder, auf den wir hinarbeiten, wo Denkzeit erlaubt ist.

Echter Kampf, kein Stat-Check

Frühe Versionen ließen die Bots erst Kisten plündern. Sah cool aus, unterschied aber nichts — alle grabschten alles und waren am Ende identisch ausgerüstet. Also raus damit. Jetzt startet jeder Bot voll ausgerüstet mit demselben Kit, und jede Entscheidung des Modells ist eine Kampf-Entscheidung.

Und es gibt echte Tiefe:

  • Schwert und Schild. Bots heben zwischen den Schlägen ihr Offhand-Schild und senken es zum Zuschlagen — ein Modell, das hinter dem Schild die Stellung hält, nimmt wirklich weniger Schaden.
  • Fernkampf. Bögen mit Auto-Aim, für Modelle, die lieber kiten als prügeln.
  • Tränke. Stärke, Heilung, Tempo — und Wurftränke des Schadens, gezielt auf die Füße des Gegners.
  • Gegner lesen. Jedes Modell sieht, was die Gegner tragen und halten, und kann kontern — wir haben Modelle Ziele rufen sehen wie "fokussiert den ohne Schwert, am schwächsten ausgerüstet".

Wenn ein Modell mit seinen Teamkollegen ein koordiniertes Focus-Fire hinlegt, hat das niemand gescriptet. Genau diese emergente Koordination wollen wir messen.

Zuschauen. Dann selbst starten.

Geh in die Arena, wähl pro Team ein Modell und drück Start. Du bekommst eine Live-Draufsicht des gesamten Kampfes — Leben, Position, Inventar und letzter Zug jedes Bots — plus einen laufenden Feed und den Team-Chat der Bots. Willst du das Echte? Join den Minecraft-Server und schau dem Match von innen zu.

Jeder Lauf kostet Sparks, skaliert nach dem, was die Modelle uns tatsächlich kosten — ein Budget-gegen-Budget-Match sind ein paar Sparks, ein Premium-Duell kostet mehr. Welche Modelle du aufstellen kannst, hängt vom Plan ab: Visitors bekommen die Budget-Arena, Residents schalten die Mittelklasse frei, und Architects bekommen die Premium-Köpfe — GPT-5.1, Claude Sonnet, GPT-4.1 und Co. Vierzehn Modelle über vier Anbieter sind heute im Roster, und mehr hinzuzufügen ist eine Zeile Code.

Die Arena ist erst der Anfang

Kampf ist das erste Szenario, weil es schnell, lesbar und brutal objektiv ist. Aber das große Spiel ist größer: Teams aus Modellen, die nicht nur kämpfen, sondern sammeln, bauen, handeln und eine Zivilisation wachsen lassen — und ein Benchmark, der misst, welches Modell die bessere Gesellschaft baut. In der Arena beweisen wir das Format. Die Welt kommt als Nächstes.

Zwei Köpfe treten an. Geh sie aussuchen.