Nicht zuletzt durch die Digitalisierung entstehen tagtäglich Massen an Daten, aktuell etwa 2.500.000.000.000 (2,5 Billionen) Bytes pro Tag.

Der Begriff Big Data bezieht sich auf die Daten, deren Größe und Form dazu führen, dass sie nicht mehr mit traditionellen und relationalen Datenbanken verarbeitet werden können. Big Data wird als Sammelbegriff für moderne Technologien verwendet, um nachhaltig auf die Nutzung, Verwertung und Analyse der Masse an Datenmengen zu reagieren.

Zudem bezeichnet Big Data große Datenmengen an strukturierten und unstrukturierten Daten. Sie fließen aus unterschiedlichen Quellen zusammen, werden analysiert und aufbereitet und so zu neuen Informationen verdichtet. Durch die Analyse der Daten können neue Erkenntnisse gewonnen und auf deren Grundlage bessere Entscheidungen getroffen werden.


WARUM IST BIG DATA SO WICHTIG?


Bei Big Data geht es in erster Linie nicht darum, wie viele Daten Unternehmen haben, sondern darum, was sie damit machen. Es ist wichtig, die großen Datenmengen effizient zu verarbeiten, denn dadurch können Unternehmen

  • Kosten senken,
  • Zeit sparen,
  • neue Produkte und optimierte Angebote entwickeln und
  • bessere geschäftliche Entscheidungen treffen.

ANALYTICS


Wenn Sie Big Data mit leistungsstarker Analytics kombinieren, können Sie auf vielfältige Art und Weise profitieren, z. B. durch:

  • Predictive Maintance:
    Prognose für Fehlfunktionen und deren Ursache, um vor deren Auftreten schon eingreifen zu können
  • Vertrieb:
    Erstellen von Einzelhandelsgutscheinen auf Basis der Kaufgewohnheiten der Kunden direkt am Point of Sale
  • Risiko:
    Neuberechnung ganzer Risikoportfolios in wenigen Minuten
  • Cyber Security:
    Erkennen von betrügerischem Verhalten, bevor es sich auf das Unternehmen auswirkt

DATA METHODEN

Virtual Computer

Machine Learning

Computerprogramme erwerben selbstständig neues Wissen und erzeugen Datenmodelle, die für Entscheidungen eingesetzt werden.


Text Mining

Analysierbare Informationen werden zur Entdeckung von Bedeutungsstrukturen aus un- oder schwachstrukturierten Textdaten extrahiert (z.B. Worthäufigkeiten).


Process Mining

Prozesse werden end-to-end und auf ihre Effizienz hin analysiert – und dabei exakt so dargestellt, wie sie in der Realität ablaufen (Echtzeitanalyse).


Data Mining

Große Datenmengen werden auf Muster und Trends hin untersucht. Statistische Methoden basieren auf Algorithmen, die zur Wissensentdeckung dienen.

TECHNOLOGIEN


Big Data-Anwendungen basieren nicht auf einer einzigen Technologie, sondern sind im Grunde ein Zusammenspiel verschiedener Innovationen. Herkömmliche Technologien wie beispielsweise klassische Datenbanken, Data Warehouse- oder Reporting-Lösungen reichen nicht mehr aus.

Mit Big Data-Technologien können bestehende Geschäftsprozesse, hinsichtlich des Ressourceneinsatzes, optimiert werden, wie beispielsweise:

  • ungenutzte Datenquellen zur Unterstützung von Prozessen
  • Entwicklung neuer Geschäftsmodelle
  • Individualisierung von Produkten und Strategien

Wollen Unternehmen heute ihre Daten auswerten, steht ihnen eine große Auswahl an individualisierbaren und echtzeitfähigen Analyse-Tools zur Verfügung. Bevor sie jedoch über Tools nachdenken, sollten sich die Organisationen über die Art und den Umfang der Daten Klarheit verschaffen und welcher Nutzen realisiert werden soll. Ist dies festgelegt, ist es relativ einfach, ein passende Analyse-Tools zu finden und zu implementieren. Im Laufe der Zeit haben sich verschiedene Lösungen durchgesetzt. Jede Technologie verfolgt ihren eigenen Zweck und ihre spezielle Funktion, mit Daten umzugehen.

Kategorien der Big Data-Technologien

  • Standardisierte Analytics
  • In-Memory-Technologien besonders für sehr große Datenauswertungen
  • Hadoop-Lösungen
  • Complex Event-Processing und Streaming

AUSWAHL EINIGER BIG DATA-TECHNOLOGIEN


Folgende Big-Data-Technologien decken einen großen Teil der Anwendungsszenarien für Unternehmen ab:

Hadoop

Das Open-Source-Framework zur parallelen Datenverarbeitung auf sehr hoch skalierbaren Server-Clustern. Hadoop eignet sich besonders für Auswertungen, bei denen aufwendige Analysen ausgeführt werden müssen.

MongoDB

Eine der marktführenden Datenbanken aus dem Open-Source-Bereich. Die Allzweckdatenbank ermöglicht eine dynamische Entwicklung und hohe Skalierbarkeit.

Kafka

Die Open Source Software, die die Speicherung und Verarbeitung von Datenströmen über eine verteilte Streaming-Plattform ermöglicht.

Python

Eine Programmiersprache mit einer klaren Syntax und guten Lesbarkeit, die leicht zu erlernen, in gängigen Betriebssystemen interpretierbar und plattformneutral ist.

Power BI

Das cloudbasierte Business-Intelligence-Tool stellt interaktive Visualisierungen und Business-Intelligence-Funktionen mit einer Oberfläche bereit, dass Endbenutzer ihre eigenen Berichte und Dashboards selbst zusammenstellen können.

Jet Analytics

Jet Analytics bietet eine einfach zu verwendende Reporting- und BI-Lösung und liefert schnelle, flexible Dashboards und grafische Auswertungen. Jet Analytics nutzt den SQL Server für die Erstellung von Datawarehouses und OLAP Cubes.

VISUALISIERUNGEN


Data Visualization bietet die Möglichkeit, die Ergebnisse der Datenanalyse kompakt und anschaulich darzustellen. Auf Basis von visuell aufbereiteten Daten können relevante Unternehmensentscheidungen leichter und schneller abgeleitet werden. Durch Visualisierungen werden Analyseergebnisse deutlich und klar.


Die Vorteile der Datenvisualisierung sind vielfältig und unternehmensspezifisch. Drei Hauptvorteile haben sich dabei herauskristallisiert:


  • Einen schnellen Einblick über die Dateninformationen erhalten
  • Trends, Chancen und Risiken erkennen
  • Datenbasierte Entscheidungen treffen, was letztlich das Ziel darstellt

Hier sehen Sie Beispiele dafür, welche Analyseergebnisse von Big Data mit welcher Datenvisualisierung erstellt werden können:

Industriellen Daten:
Liniendiagramme mit Verbindungsgrafiken


Kommentare in sozialen Netzwerken:
Wortwolken


Kundenverhalten:
Linien- und Verlaufsdiagramme


Forschung: 
Diagramme

DATA SCIENCE


Data Science ist ein interdisziplinäres Wissenschaftsfeld, welches wissenschaftlich fundierte Methoden, Prozesse, Algorithmen und Systeme zur Extraktion von Erkenntnissen, Mustern und Schlüssen sowohl aus strukturierten als auch unstrukturierten Daten ermöglicht. Um Daten in wertvolles Wissen zu verwandeln, benötigen Sie Data Science.

Bei Data Science werden große Mengen an Informationen aus Daten gewonnen, um auf dieser Grundlage eine Aussage zum optimalen Management im Unternehmen zu erhalten. So wird es möglich, die Qualität der eigenen Entscheidungen zu verbessern und die Effizienz in Hinblick auf die bereits aktiven Arbeitsabläufe zu steigern.

Die zentralen Ziele von Data Science sind:

Eine bessere Grundlage für Geschäftsentscheidungen zu schaffen.

Prozesse zu steuern, zu optimieren oder zu automatisieren.

Wettbewerbsvorteile im Markt mit geeigneten Strategien zu erzielen.

Belastbare Prognosen über zukünftige Ereignisse zu erstellen.

Data Science ermöglicht proaktives Handeln und wird gerade dadurch zum Treiber für Innovation. Der durch die Digitalisierung ausgelöste Wandel wird durch Data Science beherrschbar und bringt Unternehmen in die Position, die Zukunft aktiv zu gestalten.

DATA WAREHOUSE


Das Data Warehouse – wird auch als Datenlager bezeichnet – stellt ein zentrales Datenbanksystem dar, das zu Analysezwecken im Unternehmen einsetzbar ist. Das System extrahiert, sammelt und sichert relevante Daten aus verschiedenen heterogenen Datenquellen und versorgt nachgelagerte Systeme.

Das Data Warehousing ist in vier Teilprozesse aufteilbar:


  • Datenbeschaffung:
    Beschaffung und Extraktion der Daten aus verschiedenen Datenbeständen
  • Datenhaltung:
    Speicherung der Daten im Datenlager inklusive Langzeitarchivierung
  • Datenversorgung:
    Versorgung der nachgelagerten Systeme mit den benötigten Daten, Bereitstellung von Data Marts
  • Datenauswertung:
    Analysen und Auswertungen der Datenbestände

DATA ENGINEERING


Einer der zentralen Teilbereiche eines jeden Data-Science-Projektes ist Data Engineering.

Data Engineering befasst sich mit dem Sammeln, Aufbereiten und Validieren von Daten und stellt sicher, dass die Infrastruktur und die Anwendungen vorhanden sind, die zur Analyse benötigt werden.

Der zentrale Arbeitsbereich von Data Engineering sind Datenbanken, Data Warehouses und Data Lakes. Die Hauptaufgabe des Data Engineers ist – in anderen Worten – das Bereitstellen von Daten. Beim Data Engineering geht es darum, Datenbanken zu modellieren, zu skalieren und so den Datenfluss sicherzustellen.

Data Engineering kann damit folgende Teilbereiche umfassen:

  • Konzeption und Bereitstellung der Systemarchitektur
  • Programmierung von spezifischen Anwendungen
  • Datenbankdesign und -konfiguration
  • Konfiguration von Schnittstellen und Sensoren

DATA MANAGEMENT


Ein Ziel von Big-Data-Management ist es, einen hohen Grad an Datenqualität zu sichern und darüber hinaus den Zugang für Applikationen aus den Bereichen Business Intelligence und Analytics zu gewährleisten.

Effektives Big-Data-Management hilft den Anwendern dabei, wertvolle Informationen in den großen Mengen von unstrukturierten und halbstrukturierten Daten ausfindig zu machen.

Die vielfältigen Datenquellen umfassen zum Beispiel auch:


  Telefon-Logdaten


Details von Webseiten im Social-Media-Bereich


    Algorithmik: Bei Kunden von Amazon („Kunden schauten auch“)


Daten von Applikationen oder Geräten: Produktion von Netflix-Serien, die dem Kundeninteresse entsprechen


  Wetterdaten: Umweltkatastrophen

Der zunehmende Fokus auf das Sammeln und Analysieren großer Datenmengen führt zu neuen Ansätzen für Plattformen, die traditionelle Data Warehouse- mit Big Data-Lösungen verbinden.

In den Teilaufgaben im Rahmen der Analyseprozesse werden Entscheidungen darüber getroffen, welche Daten aus Compliance-Gründen nicht gelöscht werden dürfen, auf welche Informationen verzichtet werden kann und welche Daten auf jeden Fall erfasst und analysiert werden müssen, um die Geschäftsprozesse zu verbessern und die Konkurrenzfähigkeit zu erhöhen.

RISIKEN


Big Data-Analysen gewähren uns unzählige Vorteile und Chancen, wie schnelle Entscheidungen, optimierte Systeme, erhöhte Transparenz oder auch ein besserer Kundenservice. Dies sollte jedoch immer auch im Zusammenhang mit den damit verbundenen Risiken betrachtet werden.

Viele der heutzutage auftretenden Probleme, wie Korruption und Krankheiten, kann Big Data helfen, zu bekämpfen. Dabei muss gewährleistet werden, dass die persönlichen Daten der Kunden an keine Dritten gelangen. Sensible Daten müssen besonders gesichert werden – nicht nur vor Missbrauch, sondern auch vor Manipulation.

Hierfür sind sowohl gesetzliche Richtlinien notwendig als auch die Schulung der Menschen, die die Daten verarbeiten, um einen sorglosen, unbedarften Umgang mit persönlichen und sensiblen Daten zu verhindern. Das Unternehmen muss eine bewusste Datenkultur schaffen.

 

Wenn wir alle Risiken, denen wir gegenüberstehen, lösen können, dann kann Big Data in Zukunft ihr wahres Potenzial entfalten.