Le billet ci-dessous est la Partie 1 d’une série de 3 blogues! Trouvez la Partie 2 ici : https://deepsense.ca/2022/02/17/part-2-acquiring-external-data/
Regardez la séance Découverte d’Amit sur la façon de bâtir un jeu de données basé sur des images : https://www.youtube.com/watch?v=3TT4hySJVvA
Nous vivons à l’ère de l’information. On dit que c’est une période de l’histoire humaine caractérisée par un passage de la production industrielle à une économie basée sur l’information. Les humains et d’autres animaux prennent des décisions en fonction des informations disponibles dans leur environnement et de leurs souvenirs. Mais à l’ère de l’information, nous faisons face au problème de la surcharge informationnelle. Autant pour les individus que pour les organisations, ce déluge d’information peut souvent être paralysant. Notre cerveau est incapable de donner un sens ou de trouver des motifs dans de très grandes quantités d’information. C’est pourquoi nous utilisons des méthodes mathématiques et statistiques pour traiter les données abondantes disponibles dans nos environnements physiques et numériques, afin de prendre des décisions plus éclairées. Les données sont au cœur de l’ère de l’information. Un jeu de données est une collection structurée de données, le plus souvent sous forme tabulaire (lignes et colonnes), où les lignes correspondent à différentes observations ou points de données et les colonnes à des caractéristiques ou variables. Les jeux de données d’images peuvent aussi avoir un format tabulaire, avec des chemins de fichiers ou des URL d’images dans une colonne et des métadonnées d’images dans d’autres colonnes. Ils peuvent aussi être organisés en structures de fichiers avec des répertoires correspondant à une classe particulière d’images. Bien qu’il existe de nombreux ensembles de données publics et dépôts de données, il se peut que ceux-ci ne conviennent pas à notre question ou problème particulier. Parfois, les données nécessaires existent mais sont dispersées à travers plusieurs ensembles. Dans ce cas, on peut regrouper les ensembles, les fusionner et conserver ce dont on a besoin. Dans d’autres cas, il faut bâtir son propre jeu de données à partir de zéro. Pendant mon stage de maîtrise chez DeepSense, j’ai eu le privilège de travailler sur le projet BEcoME (Benthic Ecosystem Mapping and Engagement). L’un des objectifs du projet était d’entraîner des modèles de réseaux neuronaux pour différentes tâches supervisées et non supervisées. Afin d’entraîner de tels modèles capables d’apprendre les caractéristiques uniques et variées des images de fonds marins provenant de partout dans le monde, nous avions besoin d’un jeu de données contenant des échantillons d’images représentatifs de diverses régions des fonds marins. Mon rôle consistait à examiner plusieurs dépôts d’images benthiques et à écrire des extracteurs (scrapers) pour la collecte des images et de leurs métadonnées associées, telles que les coordonnées, l’étiquette d’image (si disponible), l’altitude, la température, la salinité, etc. Je partagerai ici certaines leçons tirées de cette expérience ainsi que quelques points à considérer lorsque vous créez votre propre jeu de données :
Nous vivons à l’ère de l’information. On dit que c’est une période de l’histoire humaine caractérisée par un passage de la production industrielle à une économie basée sur l’information. Les humains et d’autres animaux prennent des décisions en fonction des informations disponibles dans leur environnement et de leurs souvenirs. Mais à l’ère de l’information, nous faisons face au problème de la surcharge informationnelle. Autant pour les individus que pour les organisations, ce déluge d’information peut souvent être paralysant. Notre cerveau est incapable de donner un sens ou de trouver des motifs dans de très grandes quantités d’information. C’est pourquoi nous utilisons des méthodes mathématiques et statistiques pour traiter les données abondantes disponibles dans nos environnements physiques et numériques, afin de prendre des décisions plus éclairées. Les données sont au cœur de l’ère de l’information. Un jeu de données est une collection structurée de données, le plus souvent sous forme tabulaire (lignes et colonnes), où les lignes correspondent à différentes observations ou points de données et les colonnes à des caractéristiques ou variables. Les jeux de données d’images peuvent aussi avoir un format tabulaire, avec des chemins de fichiers ou des URL d’images dans une colonne et des métadonnées d’images dans d’autres colonnes. Ils peuvent aussi être organisés en structures de fichiers avec des répertoires correspondant à une classe particulière d’images. Bien qu’il existe de nombreux ensembles de données publics et dépôts de données, il se peut que ceux-ci ne conviennent pas à notre question ou problème particulier. Parfois, les données nécessaires existent mais sont dispersées à travers plusieurs ensembles. Dans ce cas, on peut regrouper les ensembles, les fusionner et conserver ce dont on a besoin. Dans d’autres cas, il faut bâtir son propre jeu de données à partir de zéro. Pendant mon stage de maîtrise chez DeepSense, j’ai eu le privilège de travailler sur le projet BEcoME (Benthic Ecosystem Mapping and Engagement). L’un des objectifs du projet était d’entraîner des modèles de réseaux neuronaux pour différentes tâches supervisées et non supervisées. Afin d’entraîner de tels modèles capables d’apprendre les caractéristiques uniques et variées des images de fonds marins provenant de partout dans le monde, nous avions besoin d’un jeu de données contenant des échantillons d’images représentatifs de diverses régions des fonds marins. Mon rôle consistait à examiner plusieurs dépôts d’images benthiques et à écrire des extracteurs (scrapers) pour la collecte des images et de leurs métadonnées associées, telles que les coordonnées, l’étiquette d’image (si disponible), l’altitude, la température, la salinité, etc. Je partagerai ici certaines leçons tirées de cette expérience ainsi que quelques points à considérer lorsque vous créez votre propre jeu de données :