In 1992 definieerde Bill Inmon een datawarehouse als volgt: “Een datawarehouse is een onderwerp-georiënteerde, geïntegreerde, niet-vluchtige, tijdsafhankelijke gegevensverzameling met als doel het ondersteunen van management beslissingen.”
De term datawarehouse werd niet altijd geaccepteerd. Theoretici dreven de spot met het begrip datawarehouse en claimden dat het de IT industrie niet moderniseerde, integendeel zelfs. Zij beweerden bijvoorbeeld dat data warehousing niets nieuw was hoewel er geen boeken of papers over geschreven waren.
De gegevens zijn gegroepeerd op onderwerp, voor een retailer kunnen de onderwerpen product, verkoop, leverancier, klanten enzovoort zijn. Zo heeft elk bedrijf zijn eigen samenstelling van onderwerpen. Een manager zal bijvoorbeeld de omzet per product willen weten. Het datawarehouse structuur biedt het nieuwe gedefinieerde thema (omzet per product) aan als logisch geheel waar alle gegevens met elkaar gecombineerd kunnen worden ( in dit geval de onderwerpen verkoop en product).
Integratie is het belangrijkste aspect van een datawarehouse, dit zorgt voor de vulling van het datawarehouse vanuit verscheidene bronnen. Hierbij speelt ETL een rol. Data kunnen namelijk meerdere formats hebben in bronsystemen maar kunnen bijvoorbeeld worden omgezet of geformatteerd. De gegevens worden zodanig ingevoerd dat tegenstrijdigheden voorkomen worden. Applicaties kunnen geslachten opslaan in bijvoorbeeld M/V of 1/0 of X/Y het is van belang dat het in deze situatie wordt omgezet in één format. Het resultaat is consistentie te zien in het volgende figuur.
Figuur 2.1: Omzetten van gegevens naar een datawarehouse.
Een datawarehouse bevat in tegenstelling tot een ODS historische gegevens (momentopnames) en wordt niet voortdurend gewijzigd. Door deze manier van opslaan zal een rapport altijd consistent zijn en geen afwijkingen vertonen ten opzichte van eerdere rapporten.
Het datawarehouse is gebaseerd op het periodiek vastleggen van momenten (momentopnames). Op deze manier kunnen er vergelijkingen worden gedaan in de tijd en kunnen trendanalyses gemaakt worden. Een datawarehouse kan in omvang dan ook vele malen groter zijn dan een ODS.
Een modernere definitie van een datawarehouse wordt als volgt gegeven door Kimball & Caserta (2004): “Een datawarehouse is een systeem dat extraheert, zuivert, overeenstemt en levert brongegevens in een dimensionele dataopslag voor het ondersteunen van query en analysedoeleinden ten behoeve van besluitvorming.
Verhagen (2005) definieert een datawarehouse als een infrastructuur inclusief alle processen die met die gegevensverzameling verbonden zijn. Een datawarehouse is volgens haar principes deels weergeven in figuur 2.2.
De voorkant
Vormgeving blijkt bepalend te zijn voor de functionaliteit van het datawarehouse. Het doel van het systeem is immers om gebruikers makkelijk toegang te bieden tot informatie.
Een dashboard wordt gemaakt voor een bepaalde manager die volgens een vast patroon rapporteren over de bedrijfsresultaten. Deze kenmerken zich door het eenvoudige gebruik. Deze applicaties kunnen door een analist worden samengesteld in samenwerking met de manager die aangeeft wat hij wel of niet belangrijk vindt.
Gebruikers die behoefte hebben aan overige gegevens kunnen gebruik maken van end user computing tools. Dit om bijvoorbeeld te zoeken naar oorzaken van positieve trends of adviezen op te stellen om bepaalde situaties te voorkomen of juist laten gebeuren.
Wanneer de gewenste gegevens geanalyseerd zijn bieden deze tools de mogelijkheid om ze mooi in verschillende vormen te presenteren.
De achterkant
De achterkant wordt gevormd door bronystemen die het datawarehouse voeden. Van dit gegevensaanbod zal een zinnig begrippenkader moeten worden gecreëerd. Daarna zal dit op een veilig gecontroleerde manier fysiek op de juiste plaats komen in een geïntegreerd datawarehouse systeem. Deze zaken worden geregeld in de achterkant van het datawarehouse.
Het ene systeem is betrouwbaarder dan het andere. Hierom is bij het integreren van gegevens raadzaam het systeem te identificeren met de hoogste betrouwbaarheid en die als leidend te gebruiken. Een punt van zorg aan deze kant van het datawarehouse is de datakwaliteit, in hoofdstuk 2.3 gaan we hier dieper op in.
De binnenkant; opslagstructuur
Voor managementinformatie is het belangrijk dat bij de gegevens onderscheid gemaakt kan worden in dimensies (kenmerken), selecties en hiërarchieën. Gegevens wil je tenslotte op verschillende manieren bekijken, manipuleren en interpreteren. Het multidimensionale model sluit daar goed bij aan, deze is namelijk gebaseerd op feiten met dimensies en hiërarchieën.
Centraal in het multidimensionale model, ook wel het sterschema genoemd, staat de feitentabel. In de feitentabel staan de feiten waarvan men alles wil weten en kan er als volgt uit zien: