Auf dem Weg von Big Data zu Smart Data

Alle sprechen von Big Data und dem großen Wert von umfassenden Geschäftsdaten. Hierbei hat sich das Sammeln von Daten in Unternehmen regelrecht zu einem Hype entwickelt.

Es wird buchstäblich die Stecknadel im Heuhaufen gesucht. Doch erscheint es uns logisch, dass wir die Stecknadel nicht dadurch finden, dass wir noch mehr Heu anhäufen, sondern durch eine sinnvolle Eingrenzung und Aufbereitung des Heus. In dieser Analogie stellt das Heu Big Data da und die Stecknadel, die Informationen, die wir uns durch die Auswertung erhoffen. Die Suche nach der Stecknadel stellt im übertragenen Sinne den Weg von Big Data zu Smart Data da. Dabei liegt bei Big Data der Fokus auf der reinen Menge der Daten, im Gegensatz dazu legt Smart Data den Fokus auf das Verständnis und die Verwendung der Daten. So können letztlich wichtige Informationen aus den Geschäftsdaten extrahiert werden, die Unternehmen durch ein datengetriebenes Geschäftsmodell den erhofften Mehrwert bringen.

Für die Transformation von Big Data zu Smart Data, gibt es eine Vielzahl von wichtigen Technologien, die es uns ermöglichen die riesigen unstrukturierten Datenmengen zu verarbeiten und daraus aus die wichtige Informationen zu extrahieren. Erst durch Knowhow in allen Bereichen und eine effiziente und sinnvolle Integration der Technologien wird es für Unternehmen möglich ihre Datenschätze zu nutzen.

Die Ancud IT-Beratung GmbH ist auf diesem Weg gerne Ihr Partner und begleitet hin zu einer neuen IT. Durch Ihre Kreativität, Fragen und Datenschätze und unser Knowhow im Umgang mit riesigen Datenmengen kann es uns gelingen ihre Geschäftsdaten in Smart Data umzuwandeln. Damit sie in Zukunft wichtige Fragen in ihrem Unternehmen nicht aus dem Bauch heraus entscheiden müssen, sondern sich auf ihre Geschäftsdaten verlassen können.

Smart Data Technologien

Hier stellen wir Ihnen die notwenigen Technologien und den Weg hin zu Smart Data vor:

Die Qualität der Daten steht ganz am Anfang unserer Reise durch die Technologien, die uns helfen aus Big Data Smart Data zu machen. Bei der Datenqualität handelt es sich um ein wichtiges Maß, dafür wie gut sich die vorhandenen Datenbestände für die gewünschte Analyse eignen. Vorallem bei datengetriebenen Geschäftsmodellen ist die Datenqualität der entscheidende Faktor für den wirtschaftlichen Erfolg des Unternehmens. Denn nur wenn meine Daten vollständig, präzise und korrekt meine operativen Prozesse abbilden, können auf dieser Grundlage Aussagen über die zukünftigen Ereignisse getroffen werden. Hierfür gibt es eine Vielzahl von Kriterien anhand derer die Datenqualität bestimmt werden kann. Hier sind vor allem die Vollständigkeit, Aktualität, Relevanz und Verfügbarkeit der Daten zu nennen. Nur wenn diese Kriterien erfüllt sind, ist es möglich auch sinnvolle Informationen aus den Daten zu ziehen. Denn wenn schon mein Thermometer falsch misst, kann ich keine korrekten Aussage über die Temperatur geben.

Der erste Schritt hin zu Smart Data ist das Vorbereiten „Preprocessing“ meiner Daten.

Die im Big Data Prozess gesammelten Daten, können von uns nicht unmittelbar verwendet werden. Denn Daten aus der „echten“ Welt sind meist unstrukturiert, unvollständig, uneinheitlich und können Fehler enthalten. Das Data Preprocessing ist somit nach dem Sammeln und Erfassen der Daten der erste Schritt in Richtung Auswertung. Bei der Datenvorbereitung handelt es sich um eine Methode aus dem Bereich des Data Mining, bei der die unstrukturierten Rohdaten in ein einheitliches und für uns verständliches Format gebracht werden. Desweiteren werden die Daten so aggregiert und bearbeitet, dass sie für die anschließende Verarbeitung geeignet sind. Dieser Prozess wird auch „Data Wrangling“ genannt. Er ist nicht nur eine Grundvorrausetzung für eine erfolgreiche Analyse, sondern ist auch einer der wenigen Prozesse, die bis jetzt noch kaum automatisiert werden können. Somit ist in diesem Arbeitsschritt menschliches Know How und viel Zeit gefragt. Dennoch ist das Data Preprocessing entscheidend für den weiteren Verlauf der Analyse, denn es bildet das Fundament auf dem wir aufbauen. Wenn hier die Daten falsch ausgewählt, oder zu viele Störvariablen enthalten sind, können in der Analyse falsche Ergebnisse herauskommen, oder die Analyse gar nicht erst stattfinden.

Data Preprocessing

Das Data Preprocessing setzt sich klassischer Weise aus mehreren Teilschritten zusammen:

Daten Bereinigung: In diesem Schritt werden die gesammelten Daten bereinigt. Hierbei werden fehlende Werte imputiert, verrauschte (noisy) und inkonsistente Daten entfernt.

Daten Transformation: In diesem Schritt werden die Daten normalisiert, zu wichtigen Konstrukten aggregiert und generalisiert.

Daten Reduktion: In diesem Schritt werden alle unwichtigen Informationen aus den Daten entfernt und in der richtigen Struktur z.B. in einem Data Warehouse abgelegt.

Daten Integration: Ist im Rahmen von Big Data einer der wichtigsten Schritte des Data Preprocessing. Denn wir können mittlerweile Daten aus einer Vielzahl von Datenquellen nutzen, z.B. Log-Daten, Sensor-Daten, Exceltabellen. Diese Daten werden von einem sogenannten „Producer“ generiert und einem „Consumer“ oder auch Empfänger bereitgestellt. Dies können einzelne User oder Systeme sein, die diese Daten verarbeiten oder Auswerten, oder aber auch Datenbanken, in denen diese Daten gespeichert werden. Dieser Prozess an sich ist nicht schwierig, dennoch stellt Big Data durch die schiere Größe und Menge der Datenpakete ganz neue Anforderungen an die Datenintegration.

Hier helfen uns vor allem Tools wie Apache Nifi und Talend Data Integration.

Apache Nifi

Apache Nifi ist eine frei verfügbare Software, zur automatisierten Verteilung und Verarbeitung von großen Datenmengen zwischen verschiedenen Systemen. In der Zeit von Big Data und IoT entstehen Datenflüsse, die schwierig zu Überblicken und die unbrauchbaren Informationen “ Noise“ schwer von den wichtigen Informationen getrennt werden können. Hier bietet Apache Nifi eine anwenderfreundliche webbasierte Userinterface zu individuellen Kontrolle von Objekten im Datenfluss um die Datenherkunft oder den Datenverlauf optimal zu überblicken.

Die Software basiert auf der Flow-basierten Programmierung (FBP), einem Programmierparadigma, bei dem es keinen funktionell festgelegten Start und Endpunkte gibt, sondern es bildet sich ein Netzwerk, bei dem einzelne Datenobjekte asynchron verschoben und transformiert werden. Dadurch bietet Nifi einen flexiblen Eingriff in die Datenintegration. Nifi bietet eine Vielzahl von Lösungen für klassische Probleme bei Datenflüssen. Das wohl wichtigste Problem ist die Skalierbarkeit. Klassische Datenintegrations Lösungen, sind schlecht skalierbar und ab einer gewissen Datenmenge nicht mehr umsetzbar, Apache Nifi hingegen ist stark skalierbar. Auch das Risiko des Datenverlusts wird minimiert, indem zum Beispiel Daten beim Empfänger in einer Warteschlange gehalten und dann priorisiert abgerufen werden können. Auch die Datensicherheit wird durch Apache Nifi im Gegensatz zu klassischen Datenintegrationslösungen verbessert.

Möchten Sie mehr über Big Data erfahren?

Data Virtualization

Um im Zeitalter von Big Data die Nase vorn zu haben, ist ein erfolgreiches Datenmanagement durch Data Virtualisierung einer der größten Wettbewerbsvorteile für Unternehmen.

Durch die Vielzahl an verfügbaren Daten, haben sich die Wettbewerbsfelder für Unternehmen stark verändert. Der Erfolg des Unternehmens hängt meistens stark davon ab, ob der bestmögliche Nutzen aus den verfügbaren Daten gezogen wird. Häufig wird dabei die analytische Komponente als alleiniger Faktor betrachtet. Doch ist ein weiter, ebenso wichtiger Faktor, das Datenmanagement. Hier ist Datenvisualisierung eine aktuell wichtige Entwicklung als Alternative zum klassischen Data Warehousing und ETL (Extract Transform und Load) Ansatz. Datenvisualisierung ist dabei ein Überbegriff für Ansätze bei der das Empfangen oder Manipulieren der Daten ohne den zugrunde liegenden technischen Details, zum Beispiel dem physikalischen Speicherort oder dem Dateiformat, funktioniert. Diese werden in einer virtuellen Abstraktionsebene abgelegt und ermöglichen dadurch einen schnelleren Zugriff mit geringerem Aufwand, indem keine Daten bewegt und an unterschiedlichen Orten abgespeichert werden müssen. Daten Virtualisierung gilt als einer der meistgenutzten Techniken im Bereich Big Data, weil erst durch diese Ansätze, die großen Datenmengen sinnvoll integriert werden können und dadurch für Anwendungen oder Analysen bereitstehen.

In den bisherigen Schritten haben wir das Fundament unserer Big Data Transformation aufgebaut. Wir haben aus verschiedenen Datenquellen unstrukturierte Daten gesammelt und diese bereinigt und durch Datenintegration in eine Datenbank oder System eingepflegt oder uns durch Data Virtualisation verfügbar gemacht. Im nächsten Schritt geht es nun darum diese Daten zu Informationen zu verknüpfen und auszuwerten.

Knowledge Discovery

Bei Knowledge Discovery handelt es sich um die Wissensentdeckung in Datenbanken. Dies ähnelt dem Data Mining, doch im Gegensatz zum Data-Mining umschreibt Knowledge Discovery den Gesamtprozess. Also alles von der Aufarbeitung der Daten, über die eigentliche Analyse bis hin zu der Bewertung und Interpretation der erlangten Informationen. Das Ziel ist dabei, bestimmte Muster zu finden und auf bis dahin noch unbekannte Zusammenhänge zu schließen. Dadurch können wir aktuelle Situationen überwachen, oder sogar zukünftige Ergebnisse vorhersagen und angemessen reagieren.

Hierbei umfasst die Knowledge Discovery mehrere Schritte, von der bereits bekannten Datenvorbereitung und Datenintegration bis hin zur eigentlichen Analyse und Interpretation der Daten.

Theoretische Grundlage und Zieldefinition: Aus welchem Kontext heraus stelle ich meine Frage und welches Hintergrundwissen wird dafür benötigt.

Datenauswahl: Auswahl der geeigneten Daten, Bereinigung und Vorbereitung/Transformation: Bereinigung der Daten von „noise“ und anderen Störvariablen und Transformation in die benötigte Form für die Auswertung.

Analyse: Erarbeitung und Auswahl eines statistischen Modells zur anschließenden Berechnung und Analyse.

Interpretation und Bewertung: Auswertung der Ergebnisse und Anwendung auf die Problemstellung die zu Beginn des Prozesses festgelegt wurde

Es gibt einer Vielzahl von Tools die sich auf Knowledge Discovery spezialisiert habe. Hier gibt es Programmiersprachen, die dem Anwender völlige Freiheit bieten, oder Statistikprogramme mit einer intuitiven graphischen Oberfläche, die es dem Anwender ermöglichen schnell und gezielt das Wissen aus den Daten zu extrahieren. Es können deskriptive Analysen berechnet werden, bei denen die Verteilung der Daten beschrieben wird. Oder rechen- und datenintensive Methoden wie Clusteranalysen oder Machine Learning Ansätze, bei denen Gruppen oder Muster in den Daten gesucht werden. Diese können anschließend in intuitiven Visualisierungen präsentiert werden, um die gefunden Informationen zu vermitteln.

Generell unterschiedet man zwei Zustände, in denen sich Daten befinden können. Data in Rest und Data in Motion. Bei der gerade vorgestellten Wissensentdeckung in Datenbanken analysieren wir Data in Rest. Daten werden hierbei aus verschiedenen Quellen gesammelt und gespeichert, meist über einen festgelegten Zeitraum, z.B. einen Tag. Anschließend werden die Daten als ein Packet, einem sogenannten Batch analysiert. Ein weiterer Zustand in dem sich Daten befinden können sind Data in Motion. Hierbei werden die Daten auch aus verschiedenen Quellen gesammelt, aber die Analyse findet nicht zu einem festgelegten Zeitpunkt statt sondern die Analyse findet direkt und in Echtzeit im Datenstrom statt. Dieser Prozess bietet die Grundlage für Stream Analytics.

Stream Analytics

Hierbei werden die Daten aus dem Datenstrom heraus noch vor dem Speichern analysiert, dadurch kann schnellstmöglich auf Unregelmäßigkeiten oder Besonderheiten in den Daten reagiert werden. Stream Analytics Lösungen sind vor allem für datengetriebene Geschäftsmodelle essenziel, da hier immer größere Datenmengen anfallen und eine erfolgreiche Verarbeitung und Auswertung in Echtzeit geschehen muss. Die Daten können dabei zur Überwachung der aktuellen Prozesse in Dashboards visualisiert werden, so können Muster in den Daten erkannt werden, die in Zukunft schon früh auf schwierige Situationen hinweisen. Des Weiteren können für diese Muster automatisierte Reaktionen implementiert werden, die in Zukunft die schwierigen Situationen direkt vermeiden. Hier könnte man das Überhitzen einer Maschine als Beispiel nennen.

Gerade in Verbindung mit Predictive Analytics können so die großen Datenmengen effektiv genutzt werden um in Echtzeit die derzeitige Situation abzubilden und die Auswirkungen auf die Zukunft festzustellen.

Da im Zuge von Big Data, das Speichern der Daten in Datenbanken zu viel Zeit und Kapazität benötigen, haben sich in-memory computingLösungen durchgesetzt. Hierbei werden die Daten nicht mehr auf Festplatten gespeichert, sondern im Arbeitsspeicher. Dadurch kann der limitierende Faktor Festplattengeschwindigkeit umgangen werden, und der Zugriff auf die Daten nahezu exponentiell beschleunigt werden.

Distributed Computing und Distributed Storage

Distributed computing und distributed storage sind essenziell für die Umsetzung von Big Data Ansätzen. Durch die stetige Zunahme an Daten werden unsere Prozesse und Berechnungen so rechenintensiv, dass einzelne Computer nicht genug Rechenleistung habe. Dieses Problem löst distributed computing, umgangssprachlich verteiltes berechnen. Hierbei werden mehrere Computer zu einem Netzwerk zusammengeschlossen und von einem sogenannten Host kontrolliert. Dieser Host, zerlegt eine große Rechenaufgabe in viele Teilaufgaben und übermittelt sie an die sich im Netzwerk befindenden Computer. Auf diesen werden nun die Teilaufgaben berechnet. Das funktioniert natürlich nur, wenn die Berechnung Teilaufgaben unabhängig von den Ergebnissen der anderen Teilaufgaben sind. Nach der Berechnung werden die Ergebnisse der einzelnen Teilaufgaben wieder an den Host Computer übermittelt und zum Endergebnis zusammengefügt. Ähnlich funktioniert das System des „distributed storage“ auch hier sind die Datenmengen so groß, das einzelne Infrastrukturen nicht ausreichen und Datenpakete auf unterschiedliche Systeme, sogenannten Nodes verteilt werden. Zusammen bilden diese Nodes ein Cluster, das ähnlich wie bei dem distributed computing von einem „Master Node“ gesteuert wird.

Anwendung finden diese beiden System zum Beispiel bei Apache Hadoop oder Apache Spark und in vielen weiten Anwendungen für Big Data.

Neben den bisher kennengelernten Analysemethoden ist im Zuge von Big Data vor allem der Bereich der Predictive Analytics für viele datengetriebene Unternehmen unverzichtbar.

Predictive Analytics

Predictive Analytics verbindet unterschiedliche Verfahren aus den Bereichen der Statistik, Spiel-Theorie, Data-Mining und Machine Learning um Muster in Daten zu erkennen. Anhand dieser Muster können nicht nur die bisherigen Entwicklungen abgebildet werden, sondern auch zukünftige Entwicklungen verglichen werden. Dies ermöglicht den Unternehmen unterschiedliche Aktionen abzuwägen und optimale Entscheidungen zu treffen.

Bisher musste sich bei dem erkennen von Trends und dem vorrausschauenden Warten von Maschine auf die Expertise von Experten verlassen werden. Diese liegen häufig richtig, können aber auch Fehlentscheidungen treffen. Diese Fehlentscheidungen können durch die zusätzliche Anwendung von Methoden der Predictive Analytics minimiert werden. Hierbei werden auf Basis von bereits vorliegenden vergangenen Daten mathematische Modelle erstellt und optimiert. Diese können nun im nächsten Schritt auf aktuelle Daten angewendet werden, und dadurch einen Ausblick auf zukünftige Ereignisse abbilden. Gerade durch den Big Data Trend hat das Thema Predictive Analytics einen großen Aufschwung erlebt, durch die großen Datenmengen, die Unternehmen zur Verfügung haben, können immer genauere Modelle berechnet werden, diese ermöglichen es verschiedene Zukunftsszenarien zu berechnen und zu vergleichen. Hier können Unternehmen vor allem von einer genaueren Planung profitieren. Sei es die Vorhersage von Maschineausfälle, der voraussichtliche Strombedarf oder das zukünftige Kaufverhalten und Trends. Durch genaues Planen können Kosten minimiert werden und Budgets zielgerichtet eingesetzt werden.

Unsere Experten bei der Ancud IT werden Sie gerne bei der Planung und Realizierung Ihrer Projekte hinsichtlich Big Data unterstützen.