14.10.2011
Business Intelligence
Von: Dr. Marcus Dill

Mayato liefert Strategien

Umgang mit Datenhistorien

Viele Analyseapplikationen benötigen über aktuelle Informationen hinaus auch Daten zu Kunden und Geschäftsvorfällen zurückliegender Jahre. Die Anforderungen an Datenhistorien werden nur selten klar definiert, geschweige denn die Kosten dem vermuteten Nutzen in einer Business-Case-Berechnung entgegengehalten.


Der Autor, Dr. Marcus Dill, ist Geschäftsführer der Mayato GmbH.

Dabei können Datenhistorien erhebliche Aufwände verursachen und verschlingen beträchtliche Summen, wenn diese nicht fachgemäß konzipiert sind und der Mut zur Entscheidung fehlt, auch Daten zu archivieren oder zu löschen. Während sich das Monitoring von Geschäftsprozessen in der Regel auf aktuelle Daten beschränkt und bestenfalls aggregierte Vorjahreswerte als Referenzwerte benötigt, sind oft langjährige Historien erforderlich, um verlässliche Prognosen zu Trends und zukünftigen Entwicklungen abzugeben. Besonders häufig ist der Einsatz von Predictive Analytics im Kampagnenmanagement, um z.B. das Kaufverhalten von Kunden vorherzusagen, und im Risikomanagement, wenn es beispielsweise gilt, Ausfallwahrscheinlichkeiten von Krediten zu ermitteln.

Generell gilt jedoch, dass ein spezifischer Dateninhalt mit zunehmendem Alter immer seltener benötigt wird und selbst im Falle seiner Verwendung weniger Gewicht hat als jüngere Daten. Daten verlieren mit ihrem Alter im Durchschnitt an Relevanz und an analytischem Wert pro vorgehaltenem Byte. In einem typischen Data Warehouse (DWH) nehmen das Gesamtvolumen und der Anteil historischer Daten mit jedem Jahr zu, was zu Performance-Problemen bei Beladung und Datenzugriffen führt. Gleichzeitig explodieren auch die Kosten für das Datenmanagement und die Speicherung. Da die Personalkosten hier den Löwenanteil ausmachen, fallen sinkende Hardwarepreise kaum ins Gewicht. Branchenexperten gehen von Kosten in Höhe von mehreren 10.000 bis 100.000 Euro pro Terabyte Daten aus.

Manche Unternehmen versuchen die Performance-Probleme durch zusätzliche Technologie zu lösen, was zwar grundsätzlich gelingen kann, zumeist jedoch nur unter erheblichen Zusatzkosten. Anstatt sich frühzeitig Gedanken über Ablage und spätere Entsorgung historischer Daten zu machen, verschleppen viele Unternehmen die Lösung des Problems in die Zukunft, bis die Kosten zu massivem Druck aus dem Management führen und gleichzeitig die Größe und Schwerfälligkeit des Systems eine Lösung noch schwieriger und aufwändiger machen – nicht selten eine Sackgasse, aus der nur mit großangelegten Redesign- oder Neuentwicklungsprojekten zu entkommen ist.

Information Lifecycle Management (ILM) umschreibt eine Vielzahl von Maßnahmen, Daten regelmäßig auf günstigere Medien auszulagern oder zu löschen. Hierdurch sinken die Kosten der Speicherung, das Management des DWH wird erleichtert, seine Performance und Skalierbarkeit nehmen zu. ILM knüpft den Umgang mit und die Aufbewahrung von Daten an deren Wert für die im jeweiligen Unternehmen relevanten Analysen. Um dies zu erreichen, kann beispielsweise eine verursacherbezogene Kostenverrechnung durchgeführt werden, d.h. Daten werden routinemäßig aus dem DWH schon nach relativ kurzer Zeit, z.B. einem Quartal oder einem Jahr, gelöscht – es sei denn, ein Fachbereich übernimmt einen Teil der Kosten für deren längere Aufbewahrung. Erfahrungsgemäß zwingt dieses Vorgehen Anwender zum Nachdenken, mit welcher Wahrscheinlichkeit Daten überhaupt noch benötigt werden, und welchen Verlust man durch den Verzicht auf diese Daten in Kauf nehmen muss.

Bei der Realisierung von Historien sollte deren Modellierung so ausgelegt werden, dass auch bei wachsenden Datenmengen schreibende und lesende Zugriffe skalieren und gleichzeitig die periodische Entsorgung von älteren Daten erleichtert wird. Die einfachste Möglichkeit, dies zu erreichen, ist eine geeignete Partitionierung der Datenablagen nach Zeitscheiben. Komplexer, aber gerade für große Datenobjekte dennoch zu empfehlen, sind Maßnahmen zur Eindämmung des Volumens. Redundanz von Daten kann auf Feldebene beispielsweise gut vermieden werden, wenn volatile und stabile Inhalte in Datenhistorien voneinander getrennt werden oder die Ablage stärker normalisiert erfolgt, als dies in dimensionale Ablagen oder flachen Data Marts der Fall ist.



WEB-Special

SBS Software
dem prüfer einen schritt voraus


Mittels professioneller Werkzeuge kann sich ein Prüfer heutzutage recht schnell einen Überblick über komplexe Datenbestände verschaffen, um steuerlich relevante Sachverhalte....
   
mehr lesen »

            

             

Aktuelle Ausgabe

Titelinterview
mit Ralf Ahamer, Vorstand der Hotel.de AG

Software
DMS: Durchblick im Dokumenten-Dickicht

Infrastruktur
Sicherheit: Ausspioniert und ausgeraubt!

Ralf Ahamer, Vorstand der Hotel.de AG

Interview mit Ralf Ahamer, Vorstand der Hotel.de AG für Marketing, Produktmanagement und IT über über den Einfluss von Mobilität und Social Media auf das Konsumentenverhalten... mehr lesen »


Durchblick im Dokumentendickicht

Die Informationsflut in den Unternehmen steigt ununterbrochen. Auch Mittelständler haben mit
ihr zu kämpfen und setzen vermehrt auf ent-
sprechende Dokumentenmanagementsysteme (DMS). Doch was ist hier sinnvoller – der Einsatz einer Inhouse-Lösung oder die Cloud-Variante?... mehr lesen »


Ausspioniert und ausgeraubt!

Nicht nur für Großkonzerne, sondern auch im Mittelstand stellt das Thema Industriespionage ein immer größeres Problem dar. Warum gibt es noch immer so viele Sicherheitslücken in der Unternehmens-IT und wo kommen die Angreifer her?... mehr lesen »