Zurück zum BlogDas VoxelMind-Bench-Live-Dashboard zeigt einen Civilization Score von 1.781 in Stufe 1, Survival, mit zehn lebenden KI-Bewohnern in einer Minecraft-Welt
Bench #3

Der Civilization Score: Ein KI-Benchmark in Minecraft

VoxelMind Bench ist gewachsen. Wir haben eine einzelne GDP-Zahl durch einen Civilization Score aus sechs Säulen ersetzt — und ihn auf unseren letzten 10-Bot-Welten laufen lassen. Hier ist, was er genau misst, und der ehrliche Stand: die Bewohner überleben die Nacht und kooperieren, aber unsere Engine stolpert noch über die eigenen Füße.

R
Robin
VoxelMind
11 min Lesezeit
benchllm benchmarkcivilization scorecivscoreemergent aiminecraft aidev diary
Bench, Teil drei. Erst haben wir 14 Modelle in eine Arena gesteckt und gelernt, dass sie Reaktionszeit misst. Dann haben wir die Arena eingestampft und Modelle an einer einzigen Zahl bewertet — GDP. Das hier ist der nächste Schritt: GDP war eine Zahl, aber eine Zivilisation ist mehr als ihr Output. Also hat der Benchmark fünf weitere Säulen und eine Stufenleiter bekommen. Hier ist, was er genau misst — und der ehrliche Stand unserer letzten Läufe.

Ein Modell, eine Welt, eine Frage

VoxelMind Bench setzt ein einzelnes KI-Modell als Kolonie aus zehn sterblichen Bewohnern in eine frische Minecraft-Welt — leere Hände, nacktes Gelände, Hardcore-Regeln, echte Nächte. Dann stellt es eine Frage: wie lange hält das Modell seine Zivilisation am Leben, und was baut es, bevor sie stirbt?

Dasselbe Gehirn steuert deinen Companion. Die Bewohner, denen du in der Bench zusiehst, sind exakt dieselben Agenten, die Leute aus der Mod spawnen — ein LLM-Call sieht die Welt, wählt ein Tool, der Code führt aus. Keine Skripte. Die einzige Variable ist das Modell, das entscheidet.

"Hat es eine Zivilisation gebaut" zu bewerten braucht mehr als ein Gewonnen/Verloren-Flag. Es braucht eine Zahl, die so steigt wie die einer echten Gesellschaft — und das ist der Civilization Score.

Der Civilization Score, in einer Formel

Das VoxelMind-Bench-Live-Dashboard zeigt einen Civilization Score von 1.781 in Stufe 1, Survival, mit zehn lebenden Bewohnern, läuft auf Gemini 3.1 Flash Lite
Ein Live-Lauf, ein paar Minuten alt: Civilization Score 1.781, Stufe 1 — Survival, zehn von zehn Bewohnern leben. Der Score steigt in Echtzeit, während die Kolonie produziert.

Der Score ist bewusst leicht zu lesen und unmöglich zu deckeln:

CivScore = Stufe × 1000 + die gewichtete Summe von sechs Säulen.

Die Stufe ist die Entwicklungsphase der Zivilisation und klettert eine Leiter aus harten Kriterien hoch — man kann sie nicht behaupten, man muss sie erfüllen:

0 Spawn → 1 Survival → 2 Subsistenz → 3 Sesshaftigkeit → 4 Metallurgie → 5 Gesellschaft & Handel → 6 Industrie → 7 Zivilisation.

Jede Stufe ist tausend Punkte wert, also ist der Sprung in die Metallurgie größer als jedes Grinden innerhalb einer Stufe — genau wie in echt, wo Eisen zu erfinden mehr zählt als noch einen Baum zu fällen. Die Leiter ist aktuell bei Stufe 6 gedeckelt: Stufe 7 braucht Generationen — Bewohner, die sich fortpflanzen und die Welt an Kinder weitergeben — und dieses System ist noch nicht live. Wir deckeln, statt zu faken.

Auf die Stufe legen sechs Säulen einen nach oben offenen Score. Es gibt keine 100-%-Decke; eine reichere Welt scort einfach für immer höher.

Die sechs Säulen — was jede misst

Die sechs Civilization-Score-Säulen im Live-Dashboard: Survival, Material und Tech, Infrastructure, Economy und Cooperation mit GDP-Aufschlüsselung und Knowledge und Culture
Die sechs Säulen, live. Economy & Cooperation ist offen und zeigt, woher der GDP kam — Holz, Stein, Werkzeuge, Werkbänke. Ausgegraute "soon"-Zeilen sind ehrliche Platzhalter: bei null gemessen, bis die Telemetrie existiert.

Jede Säule trägt ein Gewicht — das Herz einer Zivilisation zählt mehr als das Tor, das sie passieren musste, um dorthin zu kommen:

SäuleWas sie misstGewichtStand heute
Economy & CooperationWirtschaftsleistung (GDP), Spezialisierung, Koordination, Güter-Vielfalt, Konflikt3,0 — das HerzGemessen (Ressourcen-Transfers noch Platzhalter)
Material & TechTech-Stufe, einzigartige Items, Werkzeug- & Rüstungs-Vielfalt, verarbeitete Materialien2,0Gemessen
InfrastructureBau-Aktivität und Lagerung (Strukturen, Licht, Farmen kommen)2,0Teilweise — vorerst ein Proxy
GenerationsFortpflanzung und Familienlinien in der Kolonie2,0Gesperrt — deckelt die Stufenleiter
Knowledge & CultureErfahrung, geschriebene Bücher, Redstone-Systeme1,5Schwacher Proxy
Survival & DemographyPopulation, überlebte Zeit, Gesundheits-Stabilität, Tode und ihre Ursache1,0 — ein Tor, kein TreiberGemessen

Das Herz ist Economy & Cooperation. Ihr Rückgrat ist GDP, und GDP funktioniert wie eine echte Wirtschaft: Rohstoffe sind billig, verarbeitete Güter sind mehr wert (ein Brett schlägt einen Stamm, ein Barren schlägt Erz), und die Kapitalgüter, die deinen Output vervielfachen — Werkzeuge, Werkbänke — sind am meisten wert. Das Dashboard schlüsselt auf, woher der Wert kam: im Lauf oben 189 GDP aus Holz (+126), Stein (+30), Werkzeugen (+18) und Werkbänken (+12). Eine Kolonie, die von Stämmen zu Werkzeugen klettert, ist sichtbar mehr wert als eine, die nur Holz stapelt.

Zwei der Teil-Metriken sind echt neu. Spezialisierung misst, ob die Bewohner die Arbeit aufgeteilt haben — berechnet als die Divergenz zwischen den Aktivitätsprofilen der einzelnen Bewohner, sodass eine Kolonie, in der einer mint, einer baut und einer farmt, höher scort als zehn Bots, die alle dasselbe tun. Koordination zählt die gerichtete Hilfe zwischen ihnen. Beide sind früh und lesen in jungen Läufen niedrig, aber es sind die Metriken, die irgendwann eine Menschenmenge von einer Gesellschaft trennen.

Und die Ehrlichkeits-Regel zieht sich durch alles: Alles, was wir noch nicht messen können — Ressourcen-Transfers, persistente Strukturen, Beleuchtung, Farmen, Verzauberungen und Generationen komplett — ist als gesperrt markiert und trägt null bei. Wir berichten, was nicht gemessen wird. Wir faken es nie.

Was unsere letzten Läufe tatsächlich gezeigt haben

Zahlen auf einem Dashboard sind eine Behauptung, bis man zusieht, wie sie entstehen. Also hier der ehrliche Stand aus zwei aktuellen Läufen — je zehn Bewohner, Gemini 3.1 Flash Lite, Hardcore, rund vierzig Minuten Echtzeit (etwa zwei Minecraft-Tage) pro Lauf.

Das Gute: die Emergenz ist echt

Der soziale Layer ist der Teil, der schon funktioniert, und er ist besser als erwartet. Ohne eine Zeile Skript teilen die Bewohner die Arbeit auf — "nimm eine Aufgabe, die noch keiner abdeckt", entschied einer, und die Kolonie teilte einen Bau unter sich auf. Sie teilen: ein Bewohner ließ überzählige Stein-Spitzhacken für die anderen fallen; im zweiten Lauf reichte einer Wolle rüber, damit ein Nachbar ein Bett craften konnte. Sie halten bis zum Ende sozial zusammen — "bleib drin, riskier nicht rauszukommen für mich". Und ihre selbstgeschriebenen Tagebücher zeichnen über den ganzen Lauf kohärente persönliche Bögen. Der "lebendige Welt"-Pitch ist hier nichts Angestrebtes. Er passiert von selbst.

Der Fortschritt: sie überleben jetzt die ersten Nächte

Der erste lange Lauf endete in einem Total-Wipe — alle zehn tot, meist an Phantomen und Verhungern in einer Nacht-Spirale, aus der niemand aufwachte. Wir haben eine Runde Wahrnehmungs-Fixes ausgeliefert, und der zweite Lauf ist eine andere Welt: Phantom-Tode von fünf auf null, der Anteil der Bewohner, die nachts nur herumstehen und sie aussitzen, fiel von einer von fünf Entscheidungen auf eine von sechzehn, und vier von zehn lebten noch, als wir stoppten — keine Auslöschung. Die Kolonie kommt jetzt durch die Dunkelheit, statt von ihr gelöscht zu werden.

Die ehrliche Wahrheit: noch kein wertvoller Benchmark

Hier ist der Teil, der am meisten zählt, und der Grund, warum dieser Post existiert. Was diese Läufe killt, ist nicht die Intelligenz des Modells. Es ist unsere Engine.

Im zweiten Lauf hatten die Bewohner den richtigen Plan — Hütte bauen, Bett craften, sicher durch die Nacht schlafen — und die Ausführung darunter war an vier verschiedenen Stellen kaputt:

  • Bett-Crafting war kaputt. Das Modell wollte ein "bed" craften — ein Name, den unser System nicht erkannte (das Rezept heißt white_bed, und ein Bett braucht drei Wolle derselben Farbe). Also fixierte sich eine ganze Kolonie aufs Wolle-Sammeln für ein Bett, das sie nie craften konnte, und mehrere Bewohner verhungerten beim Obsessieren.
  • Einen Block zu platzieren scheiterte 54-mal in Folge. Ein Bewohner versuchte, ein Bett in eine Zelle zu setzen, in der ein Teamkollege stand — und unser Platzierungs-Code war blind für andere Bewohner, also versuchte er es immer wieder, scheiterte und probierte gegen ein Hindernis, das er nicht sehen konnte.
  • Ein Item aufzuheben loopte endlos. "Geh zur Wolle" meldete Erfolg, während der Bewohner noch zwei Meter davor stand — nah genug zum "Ankommen", zu weit zum tatsächlichen Aufheben. Also kam er an, bekam das Item nicht, und versuchte es wieder, und wieder.
  • Kochen war praktisch tot — zehn Versuche über 2.380 Entscheidungen — und ein verhungernder Bewohner wurde nicht geweckt, um umzudenken, weil Schaden durch Hunger nie unterbrach, woran er gerade scheiterte.

Das grausame Detail: die Bewohner diagnostizierten all das korrekt in ihren eigenen Tagebüchern. "Ich brauche drei Wolle derselben Farbe." "Tobin und Hilda sind verhungert." Sie wussten genau, was falsch war. Sie konnten nur nicht danach handeln, weil das Werkzeug unter ihnen kaputt war.

Warum genau diese Unterscheidung das ganze Spiel ist

Ein Benchmark misst das Modell nur, wenn das Substrat solide ist. Gerade jetzt, wenn ein Bewohner scheitert, ist es meist unser craft oder place_block oder der Pickup, der scheiterte — nicht das Reasoning des Modells. Solange unsere Primitive die Kolonie ausbremsen, misst der Civilization Score teilweise uns, nicht den Verstand, den wir bewerten wollen. Deshalb sage ich es klar: es ist noch kein wertvoller Modell-Benchmark.

Aber das ist ein ehrlicher und behebbarer Ort, keine Sackgasse. Der Score trennt schon ein Modell, das eine Kolonie organisiert, von einem, das sie zerstreuen lässt. Und jeder Ausführungs-Bug, den wir fixen, schiebt den Engpass zurück Richtung dem, was wir wirklich messen wollen: die Planung, die Priorisierung, das Langhorizont-Reasoning, das sich echt zwischen Modellen unterscheidet. Wir fixen die Engine in der Öffentlichkeit, Lauf für Lauf, und der Score wird jedes Mal ehrlicher.

Die Roadmap von hier ist unglamourös und genau richtig: die Ausführungs-Primitive fixen, einen Stapel Baseline-Spiele pro Modell laufen lassen, die Scoring-Schwellen einfrieren, sobald sie stabil sind, und erst dann ein echtes Modell-Leaderboard vor dich stellen. Ein Benchmark, dem man noch nicht trauen kann, ist trotzdem wert, offen gebaut zu werden — damit man zusehen kann, wie er sich das Vertrauen verdient.

Schau zu, wie eine Welt gebaut wird

Das Dashboard in diesem Post ist live. Geh zur Bench für die Roadmap und die Säulen, oder direkt zu einem Live-Lauf und schau einer frischen Kolonie beim Holzhacken, Minen, Schmelzen und Bauen zu, während der Civilization Score in Echtzeit nach oben tickt. Premium-Mitglieder können eigene Läufe starten und das Modell wählen. Und wenn du mit mir darüber streiten willst, ob GDP das richtige Herz für einen Zivilisations-Score ist — oder mir sagen willst, welchen Ausführungs-Bug ich als Nächstes killen soll — Discord ist, wo das passiert. Ich lese alles.

— Robin

Häufige Fragen

Was ist der VoxelMind Civilization Score?
Der Civilization Score (CivScore) ist die Metrik, mit der VoxelMind Bench ein KI-Modell an der Welt bewertet, die es in Minecraft baut. Er ist die Entwicklungs-Stufe der Zivilisation mal 1.000, plus die gewichtete Summe von sechs Säulen — Wirtschaft, Technologie, Infrastruktur, Generationen, Wissen und Überleben. Er ist nach oben offen: eine reichere Zivilisation scort immer höher.

Was sind die sechs Säulen?
Economy & Cooperation (GDP, Spezialisierung, Koordination — die schwerste Säule), Material & Tech (Tech-Stufe und verarbeitete Güter), Infrastructure (Bauen und Lagerung), Generations (Fortpflanzung — aktuell gesperrt), Knowledge & Culture (Erfahrung, Bücher, Redstone) und Survival & Demography (Population und Tode, die als Tor statt als Treiber wirken).

Wie unterscheidet sich das von einem normalen LLM-Benchmark?
Ein Multiple-Choice-Benchmark belohnt das Abrufen von Antworten. Der Civilization Score belohnt Handeln über einen langen Horizont in einer lebendigen, widrigen Welt — entscheiden, was zuerst zu bauen ist, wann in Werkzeuge zu investieren, und wie die Arbeit auf zehn Agenten aufzuteilen ist. Es gibt keinen Lösungsschlüssel zum Überanpassen, und man kann zusehen, wie das Ergebnis entsteht.

Ist der Civilization Score schon ein wertvoller Modell-Benchmark?
Ehrlich: noch nicht. In unseren aktuellen Läufen ist der Engpass unsere eigene Ausführungs-Engine — kaputtes Bett-Crafting, Block-Platzierung und Item-Pickup — statt des Reasonings des Modells. Bis diese Primitive solide sind, misst der Score teilweise unseren Code statt das Modell. Wir fixen sie in der Öffentlichkeit, und der Benchmark wird mit jedem Lauf aussagekräftiger.

Welche Modelle können die Bench laufen lassen?
Jeder kann Live-Läufe kostenlos zuschauen. Premium-Mitglieder können eigene Läufe starten und das Modell aus dem Budget-bis-Mid-Roster wählen — inklusive derselben Gemini-3.1-Flash-Lite-Klasse, die den Companion antreibt.

Wo kann ich einen Live-Lauf sehen?
Unter voxel-mind.com/de/bench/live — eine frische Welt mit dem Civilization Score, der Stufenleiter und allen sechs Säulen in Echtzeit. Die Roadmap und die Säulen-Definitionen liegen auf der Bench-Landingpage.