Qualité d’une base de données

L'un des objectifs de création d'une base de données est de pouvoir retrouver les données par leur contenu. Dans cette optique, il faut s'assurer que les données contenues dans la base soient de «bonne qualité ».

Comment définir la qualité des données? De nombreux critères peuvent être pris en compte; on peut citer parmi les
principaux:

  • la cohérence des données contenues dans la base;
  • l'absence de redondance.

La cohérence des données est fondamentale; elle nécessite une réflexion préalable sur la normalisation du contenu
des champs.

On suppose qu'un champ contient la qualité d'une personne (par exemple, Monsieur, Madame, Mademoiselle). Si l'on trouve dans ce champ 'Mr' à la place de 'Monsieur: il est clair que les recherches sur ce champ par le contenu 'Monsieur' risquent d'être erronées. Dans ce cas, les informations seraient moins nombreuses que celles obtenues avec le contenu correct. On qualifie cet état de fait de «silence », qui signifie que certains résultats pertinents sont ignorés lors d'une interrogation. Dans un autre cas, si l'on saisit 'Mme' pour 'Madame' et 'Melle' pour 'Mademoiselle', et qu'il y ait eu par erreur plusieurs saisies de 'Mme' alors qu'il s'agissait d'une demoiselle, la recherche par le contenu 'Mme' donne cette fois plus de résultats qu'il n'y a réellement de dames. On qualifie cet état de fait de « bruit », qui signifie que certains résultats non pertinents sont retournés lors d'une interrogation.

La redondance est parfois plus délicate à identifier. Si l'on considère le cas très simple d'un carnet d'adresses qui contiendrait en même temps le code postal et le nom de la ville, elle est ici évidente.

Exemple de redondance d'information
Nom
Téléphone
Ville
Code postal
Jaco 0668541087 Bordeaux 33000
Stanley 0654789254 Nancy 54000
Marcus 0658741263 Bordo 33000
Charles 0639517720 Nancy 54000
Steve 0659874120 Boredeaux 33000

On remarque que l'on stocke plusieurs fois la même association d'information (par exemple, Nancy et 54000), ce qui consomme de la place inutilement et peut devenir significatif lorsque la base atteint quelques millions d'enregistrements.

De plus il existe des incohérences dans la saisie du nom de la ville 'Bordeaux'. La recherche par le nom 'Bordeaux' ne donnera pas le même résultat que la recherche par le code '33000'.

On verra plus loin que l'approche relationnelle procure des outils capables de détecter et d'améliorer considérablement ce genre de problèmes de qualité des bases de données.

{lang: 'fr'}

Pas de post similaire

Mots-clefs :

Réagissez

Switch to our mobile site