Hadoop Distributionen

Hadoop ist ein von der Apache Software Foundation (ASF) geleitetes Open Source Projekt. Die Entwicklung begann bereits 2002 durch Doug Cutting. 2006 wechselte Cutting zu Yahoo, diese erkannten das enorme Potenzial von Hadoop. Heute haben sich neben Yahoo weitere Internet-Größen an der Entwicklung beteiligt, darunter Facebook, Twitter und eBay. Seit 2008 wird es als Top-Level Projekt bei Apache bewertet. Aus Yahoo taten sich die zwei Distributoren Hortonworks und Cloudera hervor. Sie sind heute wichtige Akteure in der Entwicklung von Hadoop.

Die Gesamtheit aller Hadoop Komponenten wird als Hadoop-Ökosystem (Hadoop-ecosystem) bezeichnet. Der Hadoop-Core besteht eigentlich nur aus dem Hadoop Distributed File System (HDFS) und MapReduce. Sie sind für das Speichern und Verarbeiten von großen Datenbeständen zuständig. Obwohl diese zwei Kern-komponenten eng miteinander verbunden sind, können auch andere Dateisysteme verwendet werden. Das findet zum Teil auch bei den verschiedenen Anbietern statt, MapR zum Beispiel verzichtet auf HDFS und verwendet ein eigenes File System, das direkt auf das Unix-Dateisystem aufsetzt. Amazon verfügt ebenfalls über eine eigene Hadoop-Distribution. AmazonElasticMapReduce setzt auf das hauseigene Amazon S3 (Simple Storage Service), anstatt HDFS als Speichersystem.

Aktuell gibt es eine unüberschaubare Anzahl an Anbietern für Big Data Lösungen. Nur wenige können sich als Marktführer bezeichnen, aber es kommen immer neue Anbieter, mit eigens angepassten Hadoop Distributionen hinzu. Diese unterscheiden sich je nach Anbieter in der Funktionalität oder in der technischen Umsetzung.

Nun hat das Business Application Research Center (kurz: BARC) eine Marktübersicht veröffentlicht, in der sich der Leser über fünf Hadoop-Distributuionen informieren kann. Für die Übersicht wurden die fünf größten und wichtigsten Hadoop-Distributionen ausgewählt: Cloudera, Hortonworks, IBM, MapR und Pivotal.

Diese Distributionen wurden ausgewählt, da sie direkt vertrieben werden und auch als Ausgangs-Distributionen für andere Softwareanbieter dienen. So hat zum Beispiel Microsoft eine Partnerschaft mit Hortonworks abgeschlossen, um eine leicht angepasste Distribution im Microsoft-Cloud-Angebot „Azure" oder im Software-Paket „HDInsights" anzubieten. Ein weiteres Beispiel ist Oracle, die eine Partnerschaft mit Cloudera eingegangen sind, um diese Distribution im Oracle Soft- und Hardwarestack anzubieten.

Quelle:www.barc.de/category/domains-themes/datenmanagement/marktuebersicht-hadoop-distributoren