C’est la dernière partie d’une série en trois parties sur la façon de créer un ensemble de données d’apprentissage automatique. Trouvez les parties précédentes ci-dessous :
Partie 1 : https://deepsense.ca/2022/02/09/blog-building-your-own-dataset-for-machine-learning/
Partie 2 : https://deepsense.ca/2022/02/17/part-2-acquiring-external-data/
Regardez la séance découverte d’Amit sur la création d’un jeu de données basé sur des images : https://www.youtube.com/watch?v=3TT4hySJVvA
Quelle quantité de données est suffisante ?
Le web scrapping est en fait assez amusant et notre instinct de data scientist nous dit que plus on a de données, mieux c’est. Il y a donc une tendance naturelle à rechercher et à extraire toujours plus de données. Cependant, il faut également tenir compte des rendements marginaux liés à la collecte de données supplémentaires et du coût en temps et en efforts. Cela nous permet de revenir à l’objectif initial de l’ensemble de données et de déterminer quelle taille est suffisante. Dans notre cas, nous avons dû nous demander : avons-nous suffisamment d’images étiquetées ? Disposons-nous d’échantillons représentatifs de différents sites ? Combien de valeurs manquantes y a-t-il dans chaque colonne obligatoire et facultative ? Quelle est la répartition spatiale des images ? Ces réponses déterminent quand arrêter la collecte de données et passer aux étapes suivantes. (Restez à l’écoute pour de futurs articles sur ce sujet. Vous trouverez peut-être aussi un lien vers celui de Jason.)
Nettoyage des données
Après la phase de collecte, on doit nettoyer et formater les données. Si on combine des données de différentes sources, on doit s’assurer que la même colonne contient les mêmes données de format. Par exemple, deux sources différentes peuvent exprimer des mesures de longueur dans des unités différentes, comme les mètres et les kilomètres. Lors de cette phase, on doit les convertir en une unité commune. On doit aussi vérifier les doublons. Même si le code est impeccable, il arrive que les sites Web contiennent plusieurs copies d’un même élément. L’objectif de cette phase est d’améliorer la qualité globale des données et de les préparer pour leur utilisation finale. (Restez à l’écoute pour de futurs articles sur ce sujet.)
Documentation
L’un des aspects les plus importants, mais souvent négligés, de la création d’un ensemble de données est la documentation. Que l’ensemble de données soit utilisé à l’interne ou publiquement, une bonne documentation est toujours utile. Un jeu de données bien documenté (y compris pour le code) peut faire économiser beaucoup de temps à l’utilisateur final. Une description de base d’un ensemble de données comprend une explication du type de données qu’il contient, de son objectif, de son public cible, des descriptions de colonnes, du nom des auteurs/contributeurs et de la dernière mise à jour des données. Certaines organisations peuvent aussi choisir de publier leur ensemble de données et leurs méthodes de compilation dans un article de revue. (À suivre pour de futurs articles sur ce sujet.)
N’oubliez pas qu’il s’agit d’un processus itératif
Finalement, il est important de se rappeler que la création d’un ensemble de données est un processus itératif. Nous pouvons recueillir des données, les analyser et déterminer les axes d’amélioration. Il peut arriver qu’une source donnée impose des restrictions sur ses données (par exemple, certains sites autorisent la consultation, mais pas le téléchargement, d’autres autorisent le téléchargement, mais pas la redistribution). Nous pouvons avoir une vision particulière lors du plan initial de collecte de données, mais tout au long du processus, nous devons rester flexibles et nous adapter aux nouvelles informations.
J’espère que cela vous a aidé, cher lecteur, à prendre des décisions plus éclairées sur la collecte de données à l’ère de l’information sans succomber à la surcharge d’informations.