Big Data

Eine Seite von Julius und Anna

Der Begriff

Was ist Big Data?

Big Data bezeichnet Datenmengen, die zu groß oder zu komplex sind oder sich zu schnell ändern, um sie mit händischen und klassischen Methoden der Datenverarbeitung auszuwerten. Der Begriff "Big Data" unterliegt als Schlagwort derzeit einem kontinuierlichen Wandel. So wird mit Big Data ergänzend auch oft der Komplex der Technologien beschrieben, die zum Sammeln und Auswerten dieser Datenmengen verwendet werden.



Beispiele

Welche Datenmengen entstehen in einer Stunde?

  • 21 Mio.
    Tweets
  • 12 Mio.
    Facebook Fotos
  • 18 Tsd.
    Stunden Youtube Videos
  • 1,6 mio.
    Instagram Fotos
  • 34 tsd.
    Websites
  • 12 mrd.
    E-Mails

Hintergrund

Woher kommen diese Datenmengen?

Berechnungen aus dem Jahr 2011 zufolge verdoppelt sich das weltweite Datenvolumen alle 2 Jahre. Diese Entwicklung wird vor allem getrieben durch die zunehmende maschinelle Erzeugung von Daten z. B. über Protokolle von Telekommunikationsverbindungen (Call Detail Record, CDR) und Webzugriffen (Logdateien), automatische Erfassungen von RFID-Lesern, Kameras, Mikrofonen und sonstigen Sensoren. Big Data fallen auch in der Finanzindustrie an (Finanztransaktionen, Börsendaten) sowie im Energiesektor (Verbrauchsdaten) und im Gesundheitswesen (Verschreibungen). In der Wissenschaft fallen ebenfalls große Datenmengen an, z. B. in der Geologie, Genetik, Klimaforschung und Kernphysik. Der IT-Branchenverband Bitkom hat Big Data als einen Trend im Jahr 2012 bezeichnet.

Weitere Beudeutungen

Big Data bezeichnet primär die Verarbeitung von großen, komplexen und sich schnell ändernden Datenmengen. Als Buzzword wird der Begriff in den Massenmedien aber auch verwendet für die zunehmende Intransparenz der Datenspeicherung durch Delokalisierung (Cloud Computing).

Verarbeitung

Wie geht man mit diesen Datenmengen um?

Klassische relationale Datenbanksysteme sowie Statistik- und Visualisierungsprogramme sind oft nicht in der Lage, derart große Datenmengen zu verarbeiten. Für Big Data kommt daher eine neue Art von Software zum Einsatz, die parallel auf bis zu Hunderten oder Tausenden von Prozessoren bzw. Servern arbeitet. Dabei gibt es folgende Herausforderungen:

  1. Verarbeitung vieler Datensätze
  2. Verarbeitung vieler Spalten innerhalb eines Datensatzes
  3. Schneller Import großer Datenmengen
  4. Sofortige Abfrage importierter Daten (Realtime Processing)
  5. Kurze Antwortzeiten auch bei komplexen Abfragen
  6. Möglichkeit zur Verarbeitung vieler gleichzeitiger Abfragen (Concurrent Queries)
  7. Analyse verschiedenartiger Informationstypen (Zahlen, Texte, Bilder, ...)

Die Entwicklung von Software für die Verarbeitung von Big Data befindet sich noch in einer frühen Phase. Prominent ist der MapReduce-Ansatz, der bei Open-Source-Software (Apache Hadoop und MongoDB) sowie bei einigen kommerziellen Produkten (Aster Data, Greenplum, u. a.) zum Einsatz kommt.

Wie nutzen Unternehmen Big Data?

Unternehmen aller Branchen erkennen zunehmend den Gewinn von Big-Data-Lösungen. Mehr als 40 erprobte Praxis-Beispiele von Big-Data-Anwendungen hat der Digitalverband Bitkom jetzt in einem neuen Leitfaden zusammengestellt. „Big-Data-Analysen bieten bei vielen Herausforderungen enorme Vorteile“, sagt Bitkom-Experte Dr. Mathias Weber. „Organisationen und Unternehmen können ihre Angebote besser auf die aktuelle Kunden-nachfrage ausrichten. Produktionsanlagen oder komplexe Verkehrssysteme lassen sich mit Big-Data-Lösungen optimal steuern.“ In der folgenden Infografik sehen Sie, wie sehr Big Data Analyse Unternehmen verschiedener Branchen hilft, ihre Produktität und Umsätze zu steigern:

Produktivität
Umsatz (Mio.)

Kritik

Schwammiger Begriff und Hype

Der Begriff "Big Data" wird für jegliche Art der Datenverarbeitung verwendet, selbst wenn die Daten weder groß, noch komplex sind oder sich schnell ändern; und mit herkömmlichen Techniken problemlos verarbeitet werden können. Die zunehmende Aufweichung des Begriffs führt dazu, dass er zunehmend ein aussageloser Marketingbegriff wird und vielen Prognosen zufolge innerhalb der nächsten Jahre eine starke Abwertung erfahren wird ("Tal der Enttäuschungen" im Hypezyklus).

Fehlende Normen

Kritik gibt es an "Big Data" vor allem dahingehend, dass die Datenerhebung und -auswertung oft nach technischen Aspekten erfolgt, also dass beispielsweise der technisch einfachste Weg gewählt wird, die Daten zu erheben und die Auswertung von den Möglichkeiten, diese Daten zu verarbeiten, begrenzt wird. Statistische Grundprinzipien wie das einer repräsentativen Stichprobe werden oft vernachlässigt. So kritisierte die Sozialforscherin Danah Boyd:

  1. Größere Datenmengen müssten nicht qualitativ bessere Daten sein
  2. Nicht alle Daten seien gleichermaßen wertvoll
  3. „Was“ und „Warum“ seien zwei unterschiedliche Fragen
  4. Bei Interpretationen sei Vorsicht geboten
  5. Nur weil es verfügbar ist, sei es nicht ethisch
So ermittelte ein Forscher beispielsweise, dass Menschen nicht mehr als 150 Freundschaften pflegen, was sodann als technische Begrenzung in sozialen Netzwerken eingeführt wurde – in der falschen Annahme, als "Freunde" bezeichnete Bekanntschaften würden echte Freundschaften widerspiegeln. Sicherlich würde nicht jeder alle seine Facebook-Freunde in einem Interview als Freunde benennen – der Begriff eines "Freundes" auf Facebook gibt lediglich eine Kommunikationsbereitschaft an.

Fehlende Substanz der Auswertungen

Ein anderer kritischer Ansatz setzt sich mit der Frage auseinander, ob Big Data das Ende aller Theorie bedeutet. Chris Anderson, Chefredakteur bei WIRED beschrieb 2008 das Glaubwürdigkeitsproblem jeder wissenschaftlichen Hypothese und jedes Modells bei gleichzeitiger Echtzeitanalyse lebender und nicht lebender Systeme. Korrelationen werden wichtiger als kausale Erklärungsansätze, die sich oft erst später bewahrheiten oder falsifizieren lassen.

Fehlende Regulierung

Der schleswig-holsteinische Datenschutzbeauftragte Thilo Weichert warnt: "Big Data eröffnet Möglichkeiten des informationellen Machtmissbrauchs durch Manipulation, Diskriminierung und informationelle ökonomische Ausbeutung – verbunden mit der Verletzung der Grundrechte der Menschen."