Warum mehr Daten selten bessere Entscheidungen liefern

In vielen Organisationen gilt eine einfache Annahme: Mehr Daten führen zu besseren Entscheidungen.

Die Logik scheint plausibel. Wenn Unsicherheit durch fehlende Information entsteht, müsste zusätzliche Information zu besseren Ergebnissen führen. Entsprechend investieren Unternehmen in Datensammlung, Infrastruktur und analytische Systeme. Daten werden als Rohstoff verstanden, aus dem sich Erkenntnis nahezu zwangsläufig ableiten lässt.

Diese Annahme ist in komplexen Systemen nur begrenzt gültig.

Daten besitzen keine Bedeutung an sich. Sie erhalten ihre Bedeutung erst innerhalb eines Modells. Dieses Modell bestimmt, welche Zusammenhänge sichtbar werden, welche Variablen relevant erscheinen und welche Muster als signalhaft interpretiert werden. Ohne ein solches Modell bleiben Daten eine Sammlung von Beobachtungen ohne strukturelle Einordnung.

Das hat eine zentrale Konsequenz: Mehr Daten verbessern eine Entscheidung nur dann, wenn das zugrunde liegende Modell geeignet ist, diese Daten sinnvoll zu interpretieren. Ist das Modell unzureichend, verstärken zusätzliche Daten lediglich dessen Perspektive.

In der Praxis zeigt sich das häufig in Form von scheinbar stabilen, aber tatsächlich fragilen Entscheidungsstrukturen. Modelle werden anhand historischer Daten kalibriert und liefern innerhalb dieses Rahmens konsistente Ergebnisse. Solange sich die zugrunde liegenden Systembedingungen nicht wesentlich verändern, funktionieren diese Modelle ausreichend gut. Doch genau diese Stabilität ist oft nur eine Momentaufnahme.

Komplexe Systeme sind durch Dynamik, Rückkopplungen und strukturelle Veränderungen geprägt. Zusammenhänge, die in der Vergangenheit beobachtbar waren, können sich verschieben oder vollständig auflösen. In solchen Situationen verliert das Modell seine Gültigkeit, während die Daten weiterhin konsistent erscheinen. Das führt zu einem trügerischen Eindruck von Sicherheit.

Ein weiteres Problem entsteht durch die Art und Weise, wie Daten ausgewählt und verarbeitet werden. In vielen Fällen werden Variablen berücksichtigt, die leicht messbar sind, während strukturell relevante, aber schwer quantifizierbare Aspekte unberücksichtigt bleiben. Das Modell bildet dann nicht das System ab, sondern eine reduzierte, verzerrte Sicht darauf. Mehr Daten verstärken diese Verzerrung, anstatt sie zu korrigieren.

Hinzu kommt, dass datengetriebene Modelle häufig auf Stabilität angewiesen sind. Viele Verfahren, insbesondere im Bereich des Machine Learning, setzen implizit voraus, dass die zugrunde liegenden Zusammenhänge zumindest lokal konstant bleiben. Wird diese Annahme verletzt, etwa durch Regimewechsel oder strukturelle Brüche, verlieren die Modelle ihre Prognosefähigkeit. Die zusätzliche Verfügbarkeit von Daten ändert daran nichts.

Das eigentliche Problem liegt daher nicht im Mangel an Daten, sondern in der Struktur des Modells und in der Dynamik des Systems. Daten können nur das sichtbar machen, was im Modell vorgesehen ist. Sie können keine Struktur erkennen, die im Modell nicht angelegt ist.

Das bedeutet nicht, dass Daten irrelevant sind. Im Gegenteil: Sie sind unverzichtbar für die Kalibrierung, Validierung und kontinuierliche Anpassung von Modellen. Ihre Rolle ist jedoch eine andere als häufig angenommen. Daten sind kein Ersatz für ein Verständnis des Systems, sondern ein Mittel, dieses Verständnis zu prüfen und zu verfeinern.

Für die Praxis ergibt sich daraus eine Verschiebung des Fokus. Anstatt primär in die Erweiterung von Datenbeständen zu investieren, sollte stärker darauf geachtet werden, welche Modelle verwendet werden, welche Annahmen ihnen zugrunde liegen und unter welchen Bedingungen sie gültig sind. Entscheidend ist nicht die Menge der Daten, sondern die Angemessenheit des Modells in Bezug auf das betrachtete System.

In stabilen, gut verstandenen Umgebungen können datengetriebene Ansätze sehr effektiv sein. In dynamischen, nichtlinearen Systemen hingegen ist Vorsicht geboten. Hier ist es oft notwendig, Modelle zu entwickeln, die Struktur, Dynamik und Rückkopplungen explizit berücksichtigen. Erst in diesem Kontext können Daten ihre eigentliche Stärke entfalten.

Mehr Daten führen daher nicht automatisch zu besseren Entscheidungen. Sie führen zu besseren Entscheidungen nur dann, wenn sie in ein Modell eingebettet sind, das der Struktur und Dynamik des Systems gerecht wird. Andernfalls entsteht lediglich eine präzisere Beschreibung eines unzureichenden Verständnisses.

Die zentrale Frage ist somit nicht, wie viele Daten verfügbar sind, sondern welches Modell verwendet wird, um diese Daten zu interpretieren. Entscheidungen verbessern sich nicht durch Daten allein, sondern durch die Kombination aus geeigneten Modellen und einem realistischen Verständnis der zugrunde liegenden Systeme.