. .

Mit Infobright Data Warehouses aufbauen

infobright_logo Infobright ist eine Analytische Datenbank, die sich besonders für den Aufbau von Data Warehouses eignet, deren Betreiber höchstmögliche Flexibilität bei der Datenexploration suchen. Die Infobright Datenbank weist gerade bei komplexen, individuellen Abfragen eine hohe Performance. Dabei kann auf Indices verzichtet werden, auch Wartung und Tuning-Aufwand sind sehr gering.

Im Vergleich zu herkömmlichen relationalen Datenbanken ist Infobright spaltenbasiert, d.h. Daten werden direkt in Spalten abgelegt. Dieses revolutionäre Konzept reduziert den Disk- I/O- Aufwand erheblich und erlaubt u.a. auch das Schreiben großer Datenmengen.

Daten mit dem Knowledge Grid verwalten

Über das “Knowledge Grid“, eine schlanke Metadaten-Schicht, werden die Inhalte der Spalten verwaltet. Über spezielle KI-Algorithmen werden Abfragen intelligent und schell ausgeführt, die Metadaten ersetzen faktisch den Index.

Durch intelligentes Packen der Daten erfolgt eine hohe Verdichtung der Daten, gegenüber einer herkömmlichen relationalen Datenbank werden Packraten bis 1:40 erreicht. Die intelligenten Packalgorithmen berücksichtigen wiederkehrende Strukturen und Datentypen der abzulegenden Daten und optimieren Kompression und Adressierung.

Durch die physikalische Verdichtung der Datenmenge zusammen mit dem verbesserten I/O und der intelligenten Adressierung über das „Knowledge Grid“ wird ein Performancevorteil erzielt, der sich in weniger Hardware ausdrückt oder gar das Verlagern der analytischen Daten in den Arbeitsspeicher des Servers ermöglicht. Dadurch ergeben sich ganz neue Möglichkeiten:

  • Die analysierte Datenmenge kann erhöht werden
  • Komplexe Abfragen werden beschleunigt
  • Die Kosten sinken

Eigene Darstellung: Zeilen- und spaltenbasierte Speicherung von Daten Eigene Darstellung: Zeilen- und spaltenbasierte Speicherung von Daten

Die neue Version Infobright 4.0

Daten werden heutzutage zunehmend durch Maschinen generiert. Große Datenmengen effektiv zu Analysieren wird somit immer umfangreicher und schwieriger. Die Version 4.0 von Infobright bietet viele neue Features, um in diesem Bereich noch schnellere Abfrageergebnisse zu erhalten:

Domain Expert:

Das Knowledge Grid wird durch zusätzliche Informationen erweitert. Dabei wird ein „Strukturmuster“ der Informationen einer Spalte mit im Knowledge Grid gespeichert. Muster können z.B. IP-Adressen, Email-Adressen oder URLs sein. Auch kann der Benutzer eigene Muster beispielsweise für aktuelle Börsenkurse definieren. Mithilfe des „Strukturmusters“ kann das System letztendlich noch schneller Ergebnisse liefern, sodass die Abfragezeit um bis zu 50% verringert werden kann.

Distributed Load Processor (DLP):

Distributed Load Processor (DLP) ist ein Add-On für die Enterprise Edition von Infobright. Hierbei komprimieren Remote-Server die Daten und bauen Knowledge Grid-Elemente auf. Diese werden anschließend auf den eigentlichen Datenbankserver kopiert. Damit können bis zu 2TB/Stunde in eine einzelne Tabelle geladen werden. Neu ist außerdem der Hadoop-Connector für DLP. Dieser extrahiert Daten aus HDFS (Hadoop Distributed File System) und lädt sie in die Infobright-Datenbank. Großer Vorteil davon ist, dass dadurch ein einfaches Speichern von hunderten Terabytes oder Petabytes in Hadoop möglich wird. Zudem werden bei Near-Real-Time-Datenanalysen die entsprechenden Daten in Infobright geladen.

Rough Query:

Das Rough Query ermöglicht sehr schnelle iterative Abfragen. Dadurch können riesige Datenmengen ohne großen Zeitaufwand überblickt werden. Außerdem bietet das Rough Query die Möglichkeit, Ergebnisse mittels „Intervallgrenzen“ der relevanten Daten anzunähern. Für detaillierte Informationen können anschließend innerhalb der Intervallgrenzen genauere Abfragen auf den Aggregaten durchgeführt werden. Auf diese Weise kann eine bis zu 20-fache Geschwindigkeitssteuerung erreicht werden.

Hohe Performance bei beliebigen Abfragen

Herkömmliche BI Datenbanken können Performance nur durch Server-Cluster und durch Tuning bzw. Indizierung erreichen. Dadurch steigen die Betriebskosten, und jede Abfrage muss durch Indices beschleunigt werden.
Durch das innovative Konzept von infobright kann die Datenbank ganz ohne Indices jede erdenkliche Abfrage in kürzester Zeit beantworten. Damit ist das Konzept ideal für analytische Datenbanken.

Vorteile:
  • einfach und leistungsstark, Open Source
  • weniger Hardware: geringere Betriebskosten, lässt sich auf Standard Hardware einsetzen
  • weniger Implementierungsaufwand:  keine neuen Schemas, kein Partitioning, kein Data Modelling, keine Indices
  • bereits bestehende Analysetools können beibehalten werden
  • hoch skalierbar: bis 30 TB auf einem Single Server
  • hohe Ladegeschwindigkeit bis zu 280 GB/h

Von Gartner als "Cool Vendor 2009" ausgezeichnet

Das Technologiebewertungs-Unternehmen Gartner hat Infobright als „CoolVendor 2009“ ausgezeichnet.
Gartner verleiht diese Auszeichnung an Firmen, deren Technologien innovativ sind, künftig einen klaren Einfluss auf Geschäftsaspekte haben werden und in den vergangenen zwölf Monaten das Interesse von Gartner erweckt haben.

Wir beraten Sie gerne! Bei Fragen können Sie uns gerne jederzeit kontaktieren.