Je m’appelle Sakshi et je poursuis présentement ma deuxième maîtrise à l’Université Dalhousie. Je suis en dernière année de maîtrise en information. J’adore mon programme, parce qu’il combine gestion et technologie. Auparavant, j’ai obtenu une maîtrise en administration des affaires, option finances et marketing, à l’Université Devi Ahilya, en Inde.
L’été dernier, j’ai fait un stage en apprentissage machine et intelligence artificielle chez DeepSense dans le cadre de leur programme de préparation aux données, et ce fut une formidable expérience pour mon développement professionnel. DeepSense m’a aidé à obtenir une entrevue avec une entreprise du secteur océanique, Global Spatial Technology Solutions (GSTS), et j’ai pu obtenir le stage.
GSTS utilise les messages de données SIA pour soutenir et développer le secteur maritime. J’ai eu la chance de choisir parmi plusieurs projets sur lesquels l’entreprise travaillait.
J’ai trouvé très intéressante la prévision de l’heure d’arrivée estimée (ETA) des navires en tenant compte des conditions environnementales (variables météorologiques).
Au début, j’ai appris quelques terminologies de base, car tout était nouveau pour moi. Mes deux superviseurs chez GSTS ont été très serviables et généreux. Pendant les premières semaines, j’ai effectué une analyse exploratoire des données (EDA) avec RStudio sur l’ensemble de données d’entraînement, puis j’ai progressé vers la modélisation des données.
Les défis auxquels j’ai été confronté au cours de mon travail étaient principalement le nettoyage des données et leur bonne connaissance. Je pense que, peu importe votre poste dans le domaine des données, vous devrez toujours nettoyer les données, car des valeurs aberrantes peuvent apparaître ou il est nécessaire de modifier la manière dont les données sont reçues de la source.
Au cours de ce projet, j’ai tâtonné pour apprendre les étapes de prétraitement nécessaires pour nettoyer les données et supprimer les valeurs aberrantes. Par exemple, en traçant le modèle linéaire, j’ai constaté que certains navires avaient une heure d’arrivée de 30 jours, tandis que d’autres avaient une heure d’arrivée négative, ce qui signifiait que le navire était déjà arrivé au port, alors qu’en réalité ce n’était pas le cas. Certains navires procèdent ainsi pour réserver leur place au port et ainsi éviter l’attente à leur arrivée. Il s’est avéré qu’il s’agissait d’une valeur aberrante et il a donc été nécessaire de la retirer de l’ensemble de données pour poursuivre l’analyse.
Globalement, j’ai appris qu’il est toujours important d’analyser ses données une fois pour toutes afin de comprendre ce que représentent les variables et leur échelle de mesure, afin de pouvoir normaliser les données avant l’analyse. L’analyse exploratoire des données (EDA) est une étape importante, indispensable avant d’utiliser le modèle d’apprentissage automatique.
GSTS m’a offert un emploi à temps partiel en parallèle de mes études pour poursuivre le projet et me consacrer à de nouveaux projets après celui-ci. Je suis excité à l’idée de ce nouveau poste et je sais que cette opportunité me permettra de poursuivre mon développement professionnel.