Qualité d’une base de données
L'un des objectifs de création d'une base de données est de pouvoir retrouver les données par leur contenu. Dans cette optique, il faut s'assurer que les données contenues dans la base soient de «bonne qualité ».
Comment définir la qualité des données? De nombreux critères peuvent être pris en compte; on peut citer parmi les
principaux:
- la cohérence des données contenues dans la base;
- l'absence de redondance.
La cohérence des données est fondamentale; elle nécessite une réflexion préalable sur la normalisation du contenu
des champs.
On suppose qu'un champ contient la qualité d'une personne (par exemple, Monsieur, Madame, Mademoiselle). Si l'on trouve dans ce champ 'Mr' à la place de 'Monsieur: il est clair que les recherches sur ce champ par le contenu 'Monsieur' risquent d'être erronées. Dans ce cas, les informations seraient moins nombreuses que celles obtenues avec le contenu correct. On qualifie cet état de fait de «silence », qui signifie que certains résultats pertinents sont ignorés lors d'une interrogation. Dans un autre cas, si l'on saisit 'Mme' pour 'Madame' et 'Melle' pour 'Mademoiselle', et qu'il y ait eu par erreur plusieurs saisies de 'Mme' alors qu'il s'agissait d'une demoiselle, la recherche par le contenu 'Mme' donne cette fois plus de résultats qu'il n'y a réellement de dames. On qualifie cet état de fait de « bruit », qui signifie que certains résultats non pertinents sont retournés lors d'une interrogation.
La redondance est parfois plus délicate à identifier. Si l'on considère le cas très simple d'un carnet d'adresses qui contiendrait en même temps le code postal et le nom de la ville, elle est ici évidente.
| Nom |
Téléphone |
Ville |
Code postal |
| Jaco | 0668541087 | Bordeaux | 33000 |
| Stanley | 0654789254 | Nancy | 54000 |
| Marcus | 0658741263 | Bordo | 33000 |
| Charles | 0639517720 | Nancy | 54000 |
| Steve | 0659874120 | Boredeaux | 33000 |
On remarque que l'on stocke plusieurs fois la même association d'information (par exemple, Nancy et 54000), ce qui consomme de la place inutilement et peut devenir significatif lorsque la base atteint quelques millions d'enregistrements.
De plus il existe des incohérences dans la saisie du nom de la ville 'Bordeaux'. La recherche par le nom 'Bordeaux' ne donnera pas le même résultat que la recherche par le code '33000'.
On verra plus loin que l'approche relationnelle procure des outils capables de détecter et d'améliorer considérablement ce genre de problèmes de qualité des bases de données.
Pas de post similaire
Mots-clefs :Bases de données