Big Data in der Praxis

Ancud IT steht Ihnen bei Fragen wie diesen zur Seite:

Wie kann ich meinem Kunden eine optimale Kundenerfahrung (Customer Experience) bieten?

Wie effizient laufen meine Prozesse ab und wie können diese optimiert werden?

Rufe ich wahllos in den Wald oder spreche ich genau die Kunden an, die ich erreichen möchte?

Kann ich durch geschicktes Optimieren meine generellen Kosten senken?

(Basiert auf den Top 10, einer Statistik von Gartner 2015: Welche Ziele Unternehmen mit Big Data verbinden.)

Wie wir Sie bei der Einführung von Big Data in Ihr Unternehmen unterstützen

Beratung bezüglich der gängigen Big Data Technologien und Architekturen (Hadoop, Spark, Cassandra, Pig, Hive etc.)

Betrachtung Ihrer konkreten Anwendungsfälle und herausarbeiten einer technischen Umsetzung

Begleitung Implementierung von Big Data Anwendungen in Ihre bestehenden Arbeitsprozesse

Vermittlung des benötigen Fachwissens durch Workshops, Schulungen, Trainings

Erstellung von Big Data Stacks auf Basis von Hadoop und analytischer Frontends wie Pentaho, Einrichtung und Verwaltung, sowie Clustern und Sizing von Hadoop Installationen

Vergleiche von Hadoop Distributionen für eine optimale Passung zu Ihren Arbeitsprozessen

Dan Ariely ́s scherzhaften Vergleich: Big Data ist wie Sex im Jugendalter: Jeder spricht darüber, niemand weiß wie es wirklich funktioniert, jeder denkt alle anderen machen es, so behauptet jeder er mache das auch.

Einsteigerpaket Big Data

Kontakt aufnehmen

Big Data Lab e.V

Skalierbare Datensammlung und -auswertung großer heterogener Datenmengen

Welchen Nutzen hat Big Data für unser Unternehmen?
Wie gelingt die Migration bestehender Systeme auf Big Data?
Wie kann ich Hadoop unter meine SQL basierten Systeme bringen?
Welche Chancen bietet Spark?

Gemeinsam mit Ihnen erörtern wir die Antworten auf diese und weitere Fragen.

Von Big Data zu Smart Data

Noch nie hatte die Menschheit so viele Informationen zur Hand und noch nie vergrößerte sich die Menge so explosionsartig. Eric Schmidt von Google sagte schon 2010, dass wir in 2 Tagen so viele Daten generieren, wie in der gesamten Zeit von Anbeginn der menschlichen Zivilisation bis 2003. Das liegt vor allem daran, dass es in den letzten Jahren immer günstiger geworden ist Informationen aus einer Vielzahl von Datenquellen zu sammeln und zu speichern. Ob durchs surfen im Internet, benutzen unseres Smarphones, durch Überwachungskameras oder Sensordaten. Noch nie hatten Unternehmen so viele Informationen über Ihre Kunden, die internen Abläufe um optimale Prozesse und Kundenerlebnisse zu bieten. Die Herausforderung besteht darin, die Datenschätze in einer optimalen Wertschöpfungskette zu heben und sinnvoll zu nutzen.

Gerne erörtern wir mit Ihnen gemeinsam, wie sie Ihre Datenschätze heben können. Und wie wir Sie bei dem Aufbau einer erfolgreichen Wertschöpfungskette unterstützen können. Kontaktieren Sie uns gerne für einen Beratungstermin mit unseren Big Data Experten, die sie umfassend über unserer Einsteigerpaket Big Data informieren. Gerne können Sie auch Mitglied im Big Data Lab e.V. werden. Das Partnernetzwerk aus Big Data Anwendern aus Industrie und Forschung dient dem Wissensaustausch und -verbreitung zum Beispiel über Kursangebote.

Was genau ist eigentlich Big Data?

Big Data kann man sich vorstellen wie eine Bibliothek voller Informationen, aus der wir uns Wissen aneignen können. Dies funktioniert nur, wenn die Informationen in einer für uns geeigneten Form vorliegen. Zum Beispiel in Form von Büchern, die in einer für uns verständlichen Sprache geschrieben sind und nach Themenbereichen sortiert sind. Informationen in diesem Format werden strukturierte Daten genannt. Doch liegen Schätzungen zu folge nur ca. 20 % der vorhandenen Daten in dieser Form vor. Bei den restlichen 80 % handelt es sich um unstrukturierte Daten. In unserem Gedankenexperiment würde dies bedeuten, wir stehen draußen im Freien und überall fliegen unzählige bedruckte Seiten herum, die Informationen enthalten. Einige von ihnen sind nur in Teilen vorhanden, andere in unterschiedlichen Sprachen geschrieben und jede Sekunde kommen unzählige neue Seiten dazu. Theoretisch sind alle Informationen vorhanden, doch besteht die Herausforderung darin, die richtigen Seiten auszuwählen, zu sammeln, sie zu ordnen und die Informationen in für uns verständliches Wissen umzuwandeln. Diese Schritte bezeichnen die Schritte der Wertschöpfungskette zu Verarbeitung von Big Data.

NoSql Datenbanken und Big Data.

Zu aller erst müssen die Daten gesammelt und in Datenbanken gespeichert werden. Seit den 70er Jahren werden dafür im Enterprise-Umfeld hauptsächlich relationale Datenbanken verwendet, in diese werden die Daten mittels der Datenbanksprache SQL gespeichert. Für diese Arten von Datenbanken müssen die Daten in strukturierter Form vorliegen und zu einem vorher festgelegtem Schema passen, indem die Beziehungen der einzelnen Datenpunkte festgelegt sind. Falls die Daten nicht zu diesem Schema passen, können sie nicht in die Datenbank geschrieben werden. Dies ist in vielen Anwendungsbereichen sinnvoll, wie Transaktionssystemen, bei denen es auf Genauigkeit, Integrität und Nachvollziehbarkeit ankommt. Für die schnelle Speicherung von großen Datenmengen, sind relationale Datenbanken jedoch nicht geeignet, da diese durch die Integritätsprüfung hohe Verarbeitungszeiten haben. Da nun im Falle von Big Data, strukturierte und unstrukturierte Daten gemeinsam vorliegen, werden andere Datenbanken benötigt. Diese Herausforderung meisten verschiedensten NoSQL (“not only SQL) Datenbanken. Diesen liegt auch wie bei den relationalen Datenbanken ein Schema zugrunde, nachdem strukturierte Date in die Datenbank geschrieben werden können, aber das besondere ist auch, dass auch unstrukturierte Daten, die nicht zu dem Schema passen in die Datenbank geschrieben werden können. Dies ist eine der Grundvoraussetzungen für eine funktionierende Wertschöpfungskette in der Auswertung von Big Data. Dennoch setzen seit Jahrzehnten die meisten Unternehmen, meist nur auf ein einzelnes relationales Datenbanksystem und verpassen dadurch die Möglichkeit unstrukturierte Daten zu speichern. Hier muss ein Paradigmenwechsel stattfinden, durch den Unternehmen nicht nur eine Art von Datenbank verwenden, sondern in den verschiedenen Anwendungsfeldern die optimale Lösung wählen. Hier greifen wir bei Ancud IT gerne auf Open Source Lösungen zurück, da diese eine enorme Flexibilität bieten um es uns gemeinsam ermöglichen, die Menge der von Ihnen genutzten Daten drastisch zu erhöhen.

Big Data und Hadoop:

Eine weitere Möglichkeit bietet Hadoop. Hierbei handelt es sich um ein Software-Framework, also ein Portfolio von Lösungen, um das sich ein Ökosystem von Tools entwickelt hat zur schnellen Verarbeitung von großen Datenmengen auf unterschiedlichen Systemen. Hadoop bietet vor allem dann große Vorteile, wenn es sich um extrem große Datenmengen handelt, unstrukturierte Daten vorliegen oder das Geschäftsmodell auf einen späteren Zuwachs der Datenmenge ausgelegt ist. Im Kern besteht Hadoop aus dem verteilten Dateisystem HDFS, bei dem Daten auf verschiedenen Systemen in einem Verbund einem sogenannten Cluster speichern lassen. Wodurch die ausfallsichere Speicherung von großen Datenmengen ermöglicht realisierbar wird. Eine weitere Kernkomponente bildet das Verarbeitungsframework YARN (ehemals MapReduce). Durch diesen Algorithmus können rechenintensive und schwierige Aufgaben, in viele kleine Teilaufgaben aufgespalten und auf mehreren Rechnern parallel bearbeitet werden, dadurch kann im Gegensatz zu relationalen Datenbanken, eine enorme Rechengeschwindigkeit erreicht werden, da die Aufgaben nicht sequenziell hintereinander bearbeitet werden, sondern parallel. Im Anschluss werden die Ergebnisse der Teilaufgaben wieder zu einem Gesamtergebnis zusammengestellt. Neben diesen Kernkomponenten haben sich noch eine Vielzahl von Tools entwickelt, die zu diesem Ökosystem gehören und die Arbeit mit großen Datenmengen erleichtern.

logo-hive

Modul für einen SQL- artigen Zugriff auf strukturierte Daten

logo-pig

High-Level-Sprache zur Erstellung verteilter Datenverarbeitungs-Jobs

logo-hbase

Column-Store im Stile von Google BigTable

logo-mahout

Toolkit für Data-Mining

Big Data und Business Analytics:

Business Analytics ist ein großer Treiber des Big Data Trends und baut im Wesentlichen auf dem klassischen Ansatz der Business Intelligence auf. Hierbei werden Unternehmensdaten systematisch gesammelt, ausgewertet und visualisiert um einen Einblick in die Arbeitsprozesse zu erhalten. Business Intelligence bezieht sich dabei hauptsächlich beschreibend auf Daten aus der Vergangenheit und ihre Auswirkung auf die Gegenwart. Business Analytics erweitert nun diesen beschreibenden Ansatz, um Methoden aus der Statistik um Aussagen über die Entwicklungen in der Zukunft zu treffen. Somit können Prozesse nicht mehr nur überwacht (monitored) werden, sondern auch in der Zukunft optimiert werden. In diesem Fall zeigen sich die enormen Vorteile von Big Data Lösungen. Zum Beispiel in Verbindung mit einem Hadoop Cluster lassen sich riesige Datenmengen in kürzester Zeit verarbeiten, wodurch auch rechenintensive und statistische Verfahren angewendet werden können, mit denen nicht nur die Vergangenheit und der Istzustand abgebildet werden können, sondern auch Aussagen über die Zukunft getroffen werden können.

Unsere Experten bei Ancud IT unterstützen Sie gerne bei der Planung und Realisierung Ihrer Business Analytics Projekte