Big Data etablierte sich in den letzten Jahren zu einem weitverbreiteten Modewort im Kontext der Digitalisierung. Für viele Unternehmen ist es zunehmend wichtig, auch aus diesem Bereich neue Potenziale für ihren Geschäftserfolg zu nutzen. Die konkrete Bedeutung des Begriffes und welche Anwendungsbereiche sich daraus ergeben ist allerdings bis heute schwammig und alles andere als eindeutig. Grund genug, um sich diesem Thema in einem Blog anzunähern.

Orientierte sich die Wertschöpfung von Unternehmen in der Vergangenheit an der Produktivität von menschlicher Arbeitsleistung, Hard- und/oder auch Software, so kommt im Zeitalter der Digitalisierung eine weitere Komponente hinzu: Daten. Die Möglichkeiten durch den technologischen Fortschritt geben dem Inhalt von Daten und ihrer Verknüpfung eine immer größer werdende Bedeutung. Selbst die Art und Weise wie wir leben wird davon signifikant beeinflusst und ist ein wesentlicher Faktor für die rasante gesellschaftliche Veränderung. Daten werden daher nicht ohne Grund als das Gold des 21. Jahrhunderts bezeichnet.

Durch die neuen Technologien wachsen automatisch die Datenberge, die oft ungenutzt die Speicherkapazitäten der Unternehmen füllen und manchmal einfach nur archiviert werden, manchmal auch voneinander thematisch isoliert. Unternehmen erkennen jedoch zunehmend den potenziellen Wert dieser Datenflut und versuchen – auch aufgrund neuer technologischer Möglichkeiten – ihre Daten effizienz- und gewinnbringend zu nutzen. In diesem Kontext kommt Big Data ins Spiel.

Big Data – ein schwammiger Begriff

Der Begriff an sich entstand eigentlich in den 1990er-Jahren und erfuhr nach der Jahrtausendwende einen regelrechten Hype. Es gab jedoch schon ab Mitte der 1950er-Jahre – in der Steinzeit der Computerära – erste philosophische Auseinandersetzungen mit dem Thema großer Datenmengen und ihrem Potential zur Veränderung von Technik und Gesellschaft, beginnend mit der Kurzgeschichte des US-amerikanischen Science-Fiction-Autors Philip K. Dick (1956).

Der Begriff Big Data wird heutzutage eher inflationär verwendet, mit immer neuen und veränderten Bedeutungen und Assoziationen, sodass eine exakte Definition bis heute nicht existiert. Es werden damit auch oft jene Technologien in Verbindung gebracht, die in der Verarbeitung der digitalen Kommunikation Anwendung finden. Es gibt zudem Versuche, Big Data über die Datenmenge zu definieren, wie beispielsweise ab dem mehrstelligen TeraByte-Bereich. In Anbetracht des technologischen Fortschritts ist es jedoch mehr als fragwürdig, ob eine explizite Datengröße als Definitionsgrundlage zukünftig haltbar sein wird. Andere Definitionen sprechen von Big Data, wenn herkömmliche Technologien nicht mehr für deren Bearbeitung in Frage kommen – sprich wenn herkömmliche Festplattenkapazitäten und Rechnerleistungen nicht mehr ausreichen oder neue Datensätze schneller generiert werden als sie verarbeitet werden können. Alle diese Ansätze greifen jedoch zu kurz und führten nicht zu einer anerkannten und anwendbaren Definition.

Das 4-V-Modell

Durchgesetzt hat sich am ehesten das 4-V-Modell, dass 2011 vom IT-Beratungs- und Marktforschungsinstitut Gartner Inc. veröffentlicht wurde. Es handelt sich dabei um vier Kategorien, über die Big Data quasi definiert werden kann. Ursprünglich waren es nur drei Kategorien – eine vierte wurde kurz darauf hinzugefügt. Das Modell setzt sich zusammen aus Volume, Variety, Velocity und Veracity.

Volume (Volumen) beschreibt den Umfang der Datenmenge, die mit herkömmlichen Mitteln nicht mehr bewältigt werden kann. Variety (Vielfalt) behandelt die verschiedenen Formen von Daten, denn eine übermäßige Vielfalt von Datenquellen und Datenformaten erfordert eine spezielle Datenanalyse. Bei Velocity (Geschwindigkeit) geht es darum, ob eine zeitgerechte Verarbeitung der Daten noch gesichert werden kann. Veracity (Richtigkeit) kennzeichnet die Qualität und die Struktur der Daten, denn schlussendlich entscheidet die Datenqualität über die Verwertbarkeit und erfolgreiche Nutzung der Daten. Ausgehend von diesem Modell bezeichnet Big Data also Datenmengen, die zu groß (Volume), zu komplex (Variety), zu schnelllebig (Velocity) oder qualitativ zu schwach strukturiert sind (Veracity), um sie mit manuellen und herkömmlichen Methoden der Datenverarbeitung auszuwerten.

Von vielen Experten wird zum 4-V-Modell inzwischen eine weitere Kategorie hinzugezählt: Value (Wert) beschäftigt sich mit dem generellen Wert der Datenanalyse. Das Sammeln und Analysieren von großen Datenmengen macht demnach nur Sinn, wenn es für das Unternehmen einen echten Nutzen generiert. Man sollte daher schon vorab wissen, für welchen Zweck man Datenmanagement betreibt. Die dazu benötigte Technologie kommt erst in einem zweiten Schritt.

Von Big Data über Big Data Analytics zu Smart Data

Während Big Data als Begriff für große Datenmengen bzw. für Massendaten steht, beschreibt Big Data Analytics die Beschaffung und Analyse von Big Data sowie deren Verwendung. Das Prozessieren von Big Data ist aber nur ein erster Schritt. Damit man große Datenmengen analysieren kann, benötigt man Algorithmen. Diese beginnen bei normalen statistischen Methoden und gehen inzwischen bis zum Einsatz von künstlicher Intelligenz (KI).

Für Robert Ginthör vom Know-Center in Graz, einem der führenden europäischen Forschungszentren für Data-driven Business und Artificial Intelligence und Kooperationspartner der HMP, macht es aber inzwischen eher Sinn, von Smart Data als von Big Data zu sprechen. Denn bei vielen Projekten des Know-Centers geht es in erster Linie um das richtige Zusammenführen unterschiedlichster geeigneter Daten(quellen) als um große Datenmengen sowie um den smarten Einsatz hochkomplexer Methoden wie KI, um verwertbare und nutzbare Ergebnisse erzielen zu können.

Big Data und Datenschutz

Nicht nur Unternehmen entdecken den Vorteil von Big Data Analytics. Geheimdienste, der Einsatz von Big Data in Wahlkämpen, auf Social Media und dergleichen sind weitere Anwendungsgebiete, die sich zunehmender Beliebtheit erfreuen. Allerdings kommen diese Aktivitäten des Öfteren mit dem Datenschutz in Konflikt. Es wird deswegen von vielen Experten auch eine genauere und bessere Regulierung eingefordert.

Dies trifft jedoch nur auf wenige Bereiche zu, da die meisten Big Data Projekte nicht mit personenbezogenen Daten arbeiten. Zusätzlich arbeitet die Forschung – so auch das Know-Center in Graz – aktuell an privacy-preserving Analysemethoden (z.B. mit Hilfe von homomorpher Verschlüsselung), bei der die Privatsphäre gewahrt bleibt. Die Erfassung und Auswertung von vertraulichen und sensitiven Daten muss sicher und verifizierbar sein und gleichzeitig die Privatsphäre schützen. Am Know-Center werden dafür neueste Methoden der Kryptografie eingesetzt, bei dem nur Modell-Parameter aber nicht die eigentlichen Daten ausgetauscht werden. Anwender können dadurch vertrauliche Daten für Berechnungen heranziehen, ohne den tatsächlichen Inhalt preiszugegeben.

Link zum Know-Center – Research Center for Data-Driven Business &
Big Data Analytics