Création d’un dictionnaire de données

Partager

Une étape cruciale de la gestion des données est la création d’un dictionnaire de données. En général, un dictionnaire de données est un emplacement central où l’information sur les données est conservée. Cela peut être défini de façon assez formelle, mais sa mise en œuvre n’a pas besoin de l’être. L’important est simplement d’avoir un endroit où stocker l’information pour les futurs utilisateurs des données.

Pourquoi avons-nous besoin d’un dictionnaire de données?

Si vous collectez des données, vous connaissez intimement les détails de ces données. Il est essentiel de consigner ces détails non seulement pour vous-même, mais aussi pour les autres utilisateurs des données. Vous pourriez avoir à refaire des analyses au fil du temps, ou revenir à de vieilles données pour de nouvelles analyses. Vous pourriez même changer de poste dans la même entreprise, ou partir ailleurs en laissant vos données à votre remplaçant. Nous recevons souvent des ensembles de données provenant d’entreprises externes. Chaque fois qu’une nouvelle personne consulte vos données, elle aura des questions. Pour vous éviter bien des maux de tête, il est préférable de noter l’information au fur et à mesure de la collecte.

Quel genre d’information un dictionnaire de données devrait-il contenir?

Les métadonnées sont essentielles pour comprendre les données. Il existe plusieurs types de métadonnées nécessaires pour un ensemble de données. Peu importe le type de données que vous collectez, il est assez standard d’enregistrer le quoi, le quand et le . Cela comprend la date et l’heure de collecte. Dans le secteur océanique, les données sont généralement géospatiales, donc les coordonnées GPS sont souvent consignées également. Ces détails sont normalement enregistrés pour chaque point de données et se retrouvent dans un fichier tableur sauvegardé avec l’ensemble de données.

Il existe plusieurs autres détails moins évidents qui devraient être consignés. On oublie souvent le qui, le pourquoi et le comment de la collecte des données. Ces catégories sont plus larges, mais tout aussi importantes. Par exemple, « Pourquoi ces données sont-elles collectées? » est évident pour la personne qui les collecte, mais pas pour les futurs utilisateurs. De la même façon, un scientifique des données peut ne pas comprendre ce qui est étudié, alors que cela est évident pour les experts du domaine.

Comment les données sont collectées et avec quel appareil, système ou application est aussi crucial. Par exemple, la marque et le modèle des capteurs sont importants au cas où vous commenceriez à utiliser de nouveaux types de capteurs. Changer la source ou la méthode de collecte peut compliquer l’analyse. Si les données proviennent de deux capteurs différents, l’analyse peut devenir invalide, car elles ne sont plus comparables. Savoir qui a collecté les données est aussi important, surtout si c’est fait manuellement, car les gens peuvent le faire de façons légèrement différentes, ou utiliser différents formats (comme pour les dates). Les unités de mesure sont particulièrement importantes, car les données peuvent être inutiles sans elles. Les collecteurs consignent probablement les métadonnées typiques dans un tableur, mais peuvent aussi avoir des notes manuscrites sur le terrain. Ces notes devraient être numérisées et conservées également.

La collecte de données peut représenter un coût important. Cependant, les données ne sont précieuses que si elles sont utilisées. Si vous avez un ensemble de données sans métadonnées, il pourrait avoir peu ou pas de valeur réelle. Ou encore, il pourrait être l’ajout parfait au travail de quelqu’un d’autre, mais pour pouvoir l’utiliser, cette personne devra vous poser toutes ces questions afin de bien comprendre l’ensemble de données. Qu’est-ce qui est plus facile : noter ces informations simples pendant la collecte, ou voir votre boîte de réception inondée l’année suivante par un nouvel utilisateur de données qui cherche ces détails? Ça n’a pas besoin d’être compliqué, mais prendre des notes détaillées rendra votre jeu de données beaucoup plus facile à utiliser pour tout le monde.

Pour plus d’information sur la gestion de données de base, consultez mon premier séminaire sur la gestion de données ici : https://www.youtube.com/watch?v=TgWjaUtC7BM