Was ist eigentlich Big-Data

Was ist eigentlich Big-Data

Der Begriff Big-Data ist seit einigen Jahren immer wieder auf den Titelblätter der Fachpresse über Informatik zu finden und wurde schon oft als Hype bzw. Buzzword abgetan. Mittlerweile erfreut er sich allerdings aufgrund der wachsenden Möglichkeiten und Werkzeuge immer größerer Beliebtheit. Hinter dem Begriff verbirgt sich mehr als die wortwörtliche Übersetzung der große Datenmenge. Vielmehr spielen mehrere Faktoren und Betrachtungsweisen eine Rolle, wie z.B. der Kontext, die Komplexität und die Form der Daten. Am Beispiel von Warenkörben eines Onlineshops, dessen Artikel recht einfach zeilenweise in der Form (Warenkorbid, Artikelid, Anzahl) in einer traditionellen relationalen Datenbank abgelegt werden, kann selbst bei einer großen Datenmenge nur bedingt von Big-Data gesprochen werden, sofern die Ausgabe sich darauf beschränkt nur einen Warenkorb anzuzeigen. Allerdings steigt bereits bei der Durchführung einfacher Analysen der Umfang und damit wird auch der Bereich Big-Data schnell betreten. Selbst eine recht kleine Datenmenge welche auf einen handelsüblichen USB-Stick passt, kann bei einer komplizierten Analyse Resourcenintensiv sein und in diesem Zusammenhang zum Bereich Big-Data gezählt werden. An diesen Beispielen ist zu erkennen, dass die Abgrenzung und eindeutige Begriffsdefinition schwierig bis unmöglich ist.

Um die Definition zu vereinfachen, haben sich die vier V etabliert wie in der folgenden Abbildung dargestellt. Es handelt sich hierbei um Eigenschaften von Daten welche sich in der Fachliteratur manifestiert haben und in folgenden genauer beschrieben werden sollen.

Volume

Die Eigenschaft Volume ist wohl die offensichtlichste. Gemeint ist hier die tatsächliche Größe bzw. die schiere Menge der Daten.

Blickt man die vergangenen Jahre zurück, wird einem schnell klar wie schnell sich auch das Attribut groß bei Datenmengen verändert hat und auch weiterhin ändern wird. Wo früher Disketten mit 1,4 MB ausreichten, stoßen heute Blu-Ray-Disks mit 50GB schon an Ihren Grenzen. In Onlineshops werden von den meisten Betreibern zu Optimierungszwecken das Surfverhalten der Besuchern aufgezeichnet. Dabei reicht heutzutage längst nicht mehr die einfache Rehenfolge der aufgerufenen Seiten, sondern werden mittlerweile zusätzlich Mausbewegungen, Klickkoordinaten, Ladezeiten, Informationen des Besuchers, Standort und weiter Informationen gespeichert. Schon bei einer täglichen Besucherzahl im drei- bis vierstelligen Bereich sammeln sich schnell große Datenmengen an.

Velocity

Mit Velocity ist die Geschwindigkeit der Daten gemeint, genauer die Schnelligkeit der Auswertung. Um Beispielsweise Kunden in einem Onlineshop Produktempfehlungen auf der Grundlage seines Surfverhaltens anzeigen zu können, muss das Ergebnis der Analyse innerhalb kürzester vorhanden sein. Das stellt eine Herausforderung an das Hard- und Software sowie an die eingesetzte Infrastruktur dar, und ist mit herkömmlichen relationalen Datenbanken oft nicht mehr
realisierbar.

Variety

Aufgrund der unterschiedlichsten Datenquellen liegen die Informationen oft in keiner festen bzw. homogenen Struktur vor. Bei einer umfassenden Analyse können beispielsweise Serverlogs, Datenbankeinträge und Dateien herangezogen werden. Oft fallen dabei die Begriffe Datensilos oder Datalakes. Diese Datensätze aus den unterschiedlichen Quellen müssen erstmal in eine normalisierte Form gebracht werden, was ein nicht zu vernachlässigbarer Mehraufwand bedeuten kann.

Veracity

Das vierte V steht für die Datenqualität. Gemeint ist hier die Richtigkeit und Echtheit der Daten. Um beim Beispiel eines Onlineshops zu bleiben, würden dort die Besuche von automatisierten Systemen wie Webcrawlern welche den Inhalt der Seite einlesen die Daten je nach Auswertung verfälschen. Auch Scripte die Webseiten nach bekannten Sicherheitslücken durchsuchen, wären im Falle der Analyse des Surfverhalten von Kunden, zu beachtende Falschinformationen, da es sich hier nicht wirklich um Kunden handelt. Je nach Größenordnung sind diese Störquellen auf der Datenmenge zu eleminieren oder vernachlässigbar.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.