Om de kwaliteit te meten van data kan men besluiten welke attributen er toe doen en hoeveel waarde aan een attribuut gehecht wordt. Onder anderen de volgende attributen kunnen gehanteerd worden (Haug et al.,2011):

• Compleetheid. Waarden kunnen leeg zijn of niet volledig gevuld worden.

• Betrouwbaarheid. Men kan aannemen dat de geplaatste data klopt en reproduceerbaar is.

• Hoeveelheid data. De hoeveelheid data is voldoende.

• Consistentie. Er zijn geen tegenstellingen tussen de opgeslagen data.

• Juistheid. Elke set van gegevens is vrij van fouten en representeert de waarheid

• Precisie. De data is opgeslagen met de benodigde precisie.

• Eenduidigheid. De gegevens hebben een unieke betekenis.

• Nauwkeurigheid. De data komen overeen met de daadwerkelijke situatie.

• Objectiviteit. De gegevens zijn objectief, dus niet afhankelijk van een oordeel, interpretatie of evaluatie van een persoon.

• Beknoptheid. De realiteit wordt gepresenteerd met het minimale aan data.

Deze bovenstaande attributen hebben in het algemeen betrekking op de inhoud en structuur van gegevens en zijn de factoren die het meest geassocieerd worden met slechte datakwaliteit. Redenen hiervoor kunnen bijvoorbeeld typefouten zijn maar ook dubbele waarden of verkeerd toegepaste business rules. De overige attributen zijn:

• Bruikbaarheid. De informatie is bruikbaar voor een organisatie.

• Gebruikersgemak. De informatie is te gebruiken door een organisatie.

• Actualiteit. De gegevens zijn met regelmaat bijgewerkt.

• Relevantie. Elke waarde is belangrijk voor (mogelijk) gebruik.

Zelfs foutloze data, als daar überhaupt sprake van is, bieden geen toegevoegde waarde als gebruikers ze bijvoorbeeld niet begrijpen of bereiken.

Alle attributen vullen elkaar aan en kunnen losstaand niet voor hoge datakwaliteit zorgen. Men kan tot op de seconde de meest recente gegevens bezitten maar wanneer deze bijvoorbeeld niet juist zijn betekent dit alsnog dat er geen sprake is van hoge datakwaliteit. Een ander voorbeeld is een malafide onderzoeker die informatie op een dergelijk manier weergeeft dat er sprake is van objectiviteit door bijvoorbeeld gebruik te maken van miniem geselecteerde data (Eckerson, 2002).

Uit onderzoek van Yeoh & Verbitskiy (2011) blijkt dat datakwaliteit een risico vormt voor Business Intelligence. BI processen moeten stappen opnemen voor het omgaan met problemen betreffende datakwaliteit afkomstig uit bronsystemen. Verder claimen zij dat datakwaliteit management een grote rol speelt in het succes van BI in een organisatie. Hierbij moet ook niet alleen gedacht worden aan toezicht op en verbeteringen van data maar ook het voorlichten van gebruikers.

De eerste algemene oorzaak van datakwaliteit kwesties is het bronsysteem. Er komen problemen voor bij gegevens die niet aan de business requirements voldoen.

• De gebruikersorganisatie kan bij het opstellen van business requirements een aantal zaken over het hoofd hebben gezien.

• Ontwikkelaars kunnen bij de ontwikkeling van het systeemeisen verkeerd geïnterpreteerd hebben.

• Systeemeisen kunnen verloren gaan als het gevolg van testen, budget, beperkte middelen of simpelweg een tekort aan beschikbare tijd.

Een klassiek voorbeeldscenario is dat een gebruiker een adres of postcode van een klant verkeerd in het systeem invoert zonder dat het systeem enige controle uitvoert. Hierdoor voldoen deze opgeslagen gegevens niet aan de business requirements.

Een ander algemene oorzaak is het BI proces. Door de integratie van het bronsysteem wordt de bestaande data gebruikt voor nieuwe doeleinden. Dit betekent dat de data zowel aan de systeemeisen als de BI eisen moeten voldoen. Gebruikers die met een bepaalde dataset werken kennen de gebreken en eigenaardigheden ervan. Deze kennis gaat verloren wanneer de dataset beschikbaar wordt gesteld aan overige actoren. Wanneer BI analisten te werk gaan met een dataset die niet eerder gebruikt is voor het rapporten worden als snel datakwaliteit problemen duidelijk. Wanneer projecten bijvoorbeeld voor het eerst gegroepeerd worden op locatie kan het zichtbaar zijn dat projecten met een iets andere naam dubbel worden toegewezen aan een locatie. Ook wordt het meteen duidelijk wanneer projecten niet toegewezen zijn aan een locatie (Ballou & Tayi, 1999).

Yeoh & Verbitskiy (2011) zijn bovendien van mening dat datakwaliteit kwesties in elke stadium van de BI-cyclus verschijnen.

In het begin van de BI cyclus kunnen, zoals eerder genoemd, dataproblemen voordoen bij de bronsystemen. Het advies is dat men de brongegevens controleert door middel van data profiling. Op basis van de resultaten is het mogelijk deze voor te leggen aan de gebruikers om de business requirements te valideren. Op deze manier kan de organisatie beslissen om het ETL proces effectiever laten verlopen.

Het is een vrij voorkomende situatie dat het aantal records in de feitentabel niet corresponderen met het aantal records van een dimensie. Reden hiervoor is een mismatch tussen de data die gebruikt wordt om de feitentabel te vullen en de data die gebruikt wordt om de dimensie te vullen. De onderliggende oorzaak ligt dan bij de één van de bronnen.

Tijdens het rapporteren kunnen ook onvolkomenheden ontstaan. Wanneer een reporter de business vraag verkeerd interpreteert dan bedoeld kunnen de eindproducten de verwachtingen niet tegemoet komen. Het begrijpen van business vragen wordt niet alleen ondersteund door voldoende documentatie maar ook door de beschikbare data, structuur en belangrijkste binnen een datawarehouse.

Bij de laatste fase waarbij gebruikers de rapporten gebruiken kunnen nog problemen voordoen. Gebruikers kunnen het doel van een rapport niet begrijpen of data verwarren met elkaar. Oplossing hiervoor is het leveren van metadata. Dit bevat bijvoorbeeld de context, het doel of het publiek van een rapport.

Leave a Comment Cancel reply