2.2 Qualité du modèle de données et choix des agrégats - Free
C'est un objectif car la mise en ?uvre d'un entrepôt de données est une
architecture centrée sur la donnée, par opposition à des architectures temps réel
ou opérationnelles. Il s'agit de disposer de données fiables indépendamment du
processus qui les a créées, c'est donc tout d'abord un exercice de migration des
...
Part of the document
Qualité et intégrité des entrepôts de données GROUPE PROJET :
. Jamel Filali
. Majid Morslaoui RESPONSABLE PEDAGOGIQUE :
. M. Beauseroy
Sommaire 1. Introduction 3 2. Qualite et entrepôt de donnees 4 2.1 Qualité et intégrité des données 4 2.2 Qualité du modèle de données décisionnel 4 2.3 Qualité des agrégats 4 2.4 Qualité de l'infrastructure et importance de la sécurité. 4 3. management des donnees et etl 4 3.1 Pourquoi un ETL ? 4 3.2 Critères de choix d'un ETL 5 4. Qualite des metadonnees 7 4.1 Qu'est ce qu'une métadonnée ? 7 4.2 Critères de choix des métadonnées 8 5. conclusion 12
1. Introduction Une qualité de données élevée ainsi qu'une gestion de l'intégrité de
celles-ci sont des facteurs clés de succès dans les projets d'entrepôts de
données. Aujourd'hui les entrepôts de données sont présents dans beaucoup
de secteurs industriels ainsi que dans le monde de la finance. Ces outils
permettent de collecter des informations de sources diverses afin de
permettre une prise de décision en fonction de l'environnement externe de
l'organisation et des exigences du marché (Comportements des clients,
Analyse des produits, analyse des chiffres d'affaires...).
C'est pourquoi il est nécessaire pour une entreprise de disposer d'un
entrepôt de données de qualité afin de pouvoir disposer d'outils et
d'informations analytiques pour une meilleure réactivité. La cohérence, la
fraîcheur, l'exactitude, l'accessibilité, la disponibilité des données sont
des gages de qualité requis par les utilisateurs des entrepôts de données.
La qualité des données est à la fois l'objectif et la condition de réussite
de l'entrepôt de données.
C'est un objectif car la mise en ?uvre d'un entrepôt de données est une
architecture centrée sur la donnée, par opposition à des architectures
temps réel ou opérationnelles.
Il s'agit de disposer de données fiables indépendamment du processus qui
les a créées, c'est donc tout d'abord un exercice de migration des données. Le niveau de qualité requis est supérieur à celui généralement
admis pour les applications opérationnelles, car il doit donner lieu à la
création de données références issues de la réconciliation de données des
applications sources. Il doit permettre des évolutions rapides car le
système décisionnel doit coller au plus près des évolutions de l'entreprise
et de son marché et les données doivent être appréhendables par des
utilisateurs non experts. Dans ce rapport nous allons explicité l'évaluation de la qualité des
données dans un entrepôt de données et remarqué les différents moyens
d'assurer la perrénité et la qualité d'un entrepôt de données afin
d'aboutir à la satisfaction des utilisateurs de ces systèmes d'aide à la
décision. 2. Qualite et entrepôt de donnees
1 Qualité et intégrité des données
Définition générale Une donnée est de qualité si elle satisfait les attentes des clients (en
interne à l'entreprise, ou le client final). La notion de qualité n'est
donc pas une notion universelle, mais à adapter au cas par cas, suivant
l'utilisation qui en est faite.
On peut ensuite identifier deux niveaux de qualité des données : Qualité inhérente à la donnée : La donnée reflète le monde réel. La donnée
est dite "correcte". On mesure ici une valeur potentielle de la donnée. Qualité opérationnelle de la donnée : On cherche à connaître le degré
d'utilité de la donnée dans l'entreprise. On mesure alors la valeur réelle
de la donnée. Cette qualité opérationnelle n'existe que si la qualité
inhérente de la donnée existe. Par exemple, une donnée correcte mais qui
n'est jamais utilisée en entreprise a une valeur potentielle mais aucune
valeur réelle. La qualité des données est à la fois l'objectif et la condition de réussite
du Datawarehouse :
C'est un objectif car le Datawarehousing est une architecture centrée sur
la donnée, par opposition à des architectures temps réel ou
opérationnelles.
Il s'agit de disposer de données fiables indépendamment du processus qui
les a créées, c'est donc tout d'abord un exercice de migration des données.
Le niveau de qualité requis est supérieur à celui généralement admis pour
les applications opérationnelles, car :
il doit donner lieu à la création de données références issues de la
réconciliation de données des applications sources,
Il doit permettre des évolutions rapides car le système décisionnel doit
coller au plus près des évolutions de l'entreprise et de son marché,
Les données doivent être appréhendables par des utilisateurs non experts. C'est une condition de réussite car :
La mauvaise qualité des données sera facilement vue par un nombre
importants d'utilisateurs métiers, non experts, qui vont pouvoir créer ou
lancer leurs propres requêtes sans demander l'aide d'utilisateurs experts.
Il y a donc un risque de rejet très fort de la part de ces utilisateurs si
la qualité des données est mauvaise.
Une donnée de mauvaise qualité risque de « contaminer » une partie du
gisement de données : calcul d'agrégats à partir de cette donnée, création
de nombreuses restitutions utilisateurs utilisant cette donnée ... Les critères de qualité
Aucune liste de critères n'étant réellement figée, ces critères doivent
être revus dans chaque entreprise, qui choisira alors le niveau de
granularité le plus adapté à ses besoins.
Les critères intrinsèques à la donnée : Qualification Définition
La qualification d'une donnée consiste à ajouter un certain nombre
d'informations à la donnée pour la transformer réellement en information.
Cela consiste à adjoindre des métadonnées à cette donnée. Par exemple, les
métadonnées peuvent comprendre la source de la donnée, son niveau de
qualité, sa définition ... (ce point sera vu plus en détail
ultérieurement).
Cette qualification de la donnée aide l'utilisateur à avoir confiance
puisqu'il saura exactement s'il peut l'utiliser, pour quoi faire, avec
quelles approximations.
Les manques graves de qualification sont issus :
de règles de gestion absentes ou incorrectement décrites,
de la non connaissance du niveau de qualité de la donnée,
de la non accessibilité des informations qualifiant la donnée aux
utilisateurs.
Les principales conséquences sont :
une mauvaise utilisation des données,
un manque de confiance de la part de certains utilisateurs,
une opacité de la donnée entraînant des difficultés de maintenance,
d'évolution du SI. Les données historisées peuvent aussi avoir changé de définition au cours
du temps. Il faut retrouver les anciennes significations.
Enfin, les résultats fournis par le datawarehouse sont rarement identiques
à ceux fournis par les systèmes opérationnels (fréquence de chargement
différente, rejets ...), les utilisateurs doivent donc comprendre pourquoi
cette différence en connaissant les règles du jeu, pour garder toute la
confiance en ces données.
La définition de la donnée et les règles de gestion associées sont ainsi
primordiales. Exactitude / source originale Définition
L'exactitude par rapport à une source originale mesure à quel point les
valeurs de la donnée stockées sont identiques à une source de données
considérée comme faisant autorité.
Les problèmes de non exactitude arrivent notamment lorsque :
une ou plusieurs des applications aval ayant traité la donnée ont
introduit des erreurs,
il y a eu une resaisie manuelle erronée de la donnée originale.
Les principales conséquences sont :
des incidents clientèle,
des coûts de fiabilisation,
une impossibilité d'effectuer une analyse de données fiable.
Exactitude / réalité L'exactitude par rapport à la réalité mesure à quel point les valeurs de la
donnée stockées reflètent le monde réel.
Les problèmes de non exactitude arrivent notamment lorsque :
l'exactitude par rapport à une source originale n'est déjà pas vérifiée,
la collecte de la donnée s'est mal effectuée : erreur de saisie, mesures
effectuées par un outil non fiable ... (ce point sera vu en détail
ultérieurement).
Les principales conséquences sont :
des incidents clientèle,
des coûts de fiabilisation,
une impossibilité d'effectuer une analyse de données fiable.
Respect des règles de gestion Définition
Les règles de gestion de la donnée doivent être vérifiées au travers de la
valeur de la donnée. Il peut s'agir de contrôler la donnée par rapport à un
format, une plage de données, à son existence dans un référentiel...
Les problèmes de non respect des règles de gestion arrivent notamment
lorsque :
les règles de gestion sont non clairement définies,
le logiciel traitant la donnée n'est pas de qualité,
la gestion des versions du projet n'est pas au point (gestion des
évolutions).
Ceci entraîne :
des ambiguités sur la donnée et donc une mauvaise qualification de la
donnée,
une forte probabilité pour que la donnée soit inexacte.
Cohérence / autres données Définition
Une donnée est cohérente avec d'autres données si sa valeur n'est pas en
contradiction avec la valeur de données liées.
Exemple : le code postal et le libellé de la commune
Les problèmes de cohérence arrivent notamment lorsque :
Ces données liées sont alimentées par des sources différentes,
Ces données sont alimentées par une même source mais de façon cloisonnée
(saisie de plusieurs zones différentes par exemple, sans contrôle de
cohérence).
Les principales conséquences sont :
On ne connaît pas ou difficilement quelle peut être la donnée exacte (s'il
y en a une)