Apprentissage-machine uOttawa

Aperçu de l’ensemble du contenu sur l’apprentissage-machine

Projet tenu à jour par uOttawa-IT-Research-teaching Hébergé sur GitHub — Theme de mattgraham

Série de tutoriels sur l’apprentissage-machine

Bienvenue à la série de tutoriels bilingues (français et anglais) sur l’apprentissage-machine publiée par uOttawa TI Recherche et enseignement !

Découvrez les codes et vivez une expérience d’apprentissage transformatrice en matière de gestion des données de recherche, d’intelligence artificielle et d’apprentissage-machine !

Collaboratrices et collaborateurs

La série de tutoriels sur l’apprentissage-machine est une contribution majeure au matériel de formation en IA et en apprentissage-machine mis à la disposition du milieu de recherche universitaire au Canada et ailleurs. Cette ressource bilingue a été mise au point pour mieux comprendre l’IA et l’apprentissage-machine et en promouvoir l’utilisation et la sensibilisation au sein du milieu de recherche de l’Université d’Ottawa. Et grâce au soutien financier de Compute Ontario, les spécialistes de la recherche de bon nombre d’établissements d’enseignement supérieur pourront aussi bénéficier de ces tutoriels.

Cette série de tutoriels sur l’apprentissage-machine est le fruit du travail de groupe accompli par une équipe composée de spécialistes du calcul scientifique, d’une bibliothécaire de l’Institut de recherche en littéracie des données, spécialiste de la gestion des données de recherche, de conseillères et conseillers de divers domaines, et d’auxiliaires de recherche rompus en sciences humaines numériques. Ce regroupement d’expertises en calcul scientifique, en formation en intelligence artificielle, en gestion des données de recherche, et autres perspectives transdisciplinaires, a su intégrer aux tutoriels sur l’intelligence artificielle et l’apprentissage-machine les meilleures pratiques de gestion des données de recherche. Grâce à la contribution d’une conseillère en soutien à la recherche et à l’infrastructure de l’Université d’Ottawa, nous avons pu faire en sorte que ce projet respecte les normes universitaires et responsabilise les chercheurs et le personnel de soutien à la recherche, par le biais notamment de ressources didactiques accessibles et réutilisables, tant en français qu’en anglais. Nous utilisons la taxonomie CRediT d’identification des rôles pour souligner l’apport des auteur.e.s à cette série de tutoriels. Les personnes participantes ont accepté que leur contribution soit mentionnée lors du processus de création collective du document. Leur rôle d’auteur leur a aussi été rappelé avant la publication du document.

Direction, conceptualisation et rédaction du projet : Jarno van der Kolk, Ph.D., analyste principal en informatique scientifique (Université d’Ottawa)

Spécialiste en IA et rédaction : Peter Darveau P. Eng. CED – Soutien au calcul scientifique / développeur (Université d’Ottawa)

Editor, spécialiste GDR, rédaction : Felicity Tayler, MLIS, Ph.D., directrice des partenariats | ILRD et bibliothécaire de gestion des données de recherche (Université d’Ottawa)

Conseillère : Julie St-Pierre, Ph.D. vice-présidente agrégée, Soutien à la recherche et à l’infrastructure

Auxiliaire de recherche, révision : Farinaz Basmechi, Ph.D.

Coordonnateur du matériel didactique, révision : François Thibeault | ILRD

Traducteur : Matthieu Trudeau

Auditoire cible :

Cette série de tutoriels didactiques est destinée aux :

Personnel de recherche, scientifiques et professionnels des données impliqués dans des projets de recherche à forte concentration de données.
Étudiants et chercheurs du cycle supérieur, au corps professoral universitaire et aux administrateurs qui souhaitent rehausser leurs compétences en matière d’analyse et de gestion de données.
Professionnels qui souhaitent miser sur les techniques d’apprentissage-machine aux fins d’analyse de données de recherche et de découverte.

Comment cette ressource éducative libre fonctionne-t-elle ?

Cette série de tutoriels entend combler trois lacunes au niveau de la compréhension de l’IA et des méthodologies d’apprentissage-machine :

Proposer une introduction aux modèles d’intelligence artificielle et d’apprentissage-machine.
Préparer les données requises par ces modèles.
Intégrer les pratiques de gestion des données de recherche (GDR) aux méthodologies fondées sur l’IA et l’apprentissage-machine

Si l’on reconnait le potentiel de l’IA et de l’apprentissage-machine en termes d’automatisation de tâches, d’identification de modèles de données et de facilitation en matière d’analyse, bon nombre de chercheurs ont de la difficulté à utiliser de manière efficace ces méthodes computationnelles dans le cadre de leurs recherches. Parmi les difficultés rencontrées, notons celle de sélectionner le modèle adapté aux données, l’oubli fréquent d’épurer les données, ce qui engendre des disparités entre les modèles entrainés et la réalité, et la dissociation de l’IA et des techniques d’apprentissage-machine des pratiques de gestion des données de recherche. En intégrant les meilleures pratiques de gestion des données de recherche à l’entrainement de l’IA et à l’apprentissage-machine, le personnel de recherche peut mieux comprendre les méthodologies concernées, améliorer sa gestion de données et de projets afin de minimiser les biais et se conformer aux protocoles éthiques, favoriser la reproductibilité et gagner la confiance du public envers ces méthodes computationnelles.

Le matériel didactique proposé dans ce référentiel est composé de carnets Jupyter, de jeux de données et autres ressources soigneusement organisées et préparées par l’équipe de l’Université d’Ottawa. Chaque carnet est conçu de manière à offrir une expérience d’apprentissage, réunissant explications théoriques et exercices pratiques structurés pour une meilleure compréhension.

Outre une brève description du matériel didactique, chaque carnet mentionne les objectifs d’apprentissage, la durée moyenne d’exécution, les outils et documents requis pour compléter la formation, les meilleures pratiques de gestion des données de recherche et le contenu de la formation, étape par étape.

Cette série débute par quatre tutoriels fondamentaux. Nous continuerons à produire du matériel d’instruction et d’ateliers portant sur six nouvelles thématiques, en harmonie avec le cadre du plan de gestion de données de l’Assistant PGD, afin de mettre en évidence les techniques d’intelligence artificielle et d’apprentissage-machine ainsi que leur modélisation. Ces tutoriels aideront les apprenants à gérer les processus d’accès et d’épuration de données libres aux fins de mise en œuvre de modèles d’IA et d’apprentissage-machine. Chaque séance traitera d’un nouveau modèle d’IA ou d’apprentissage-machine, révélant ses avantages et ses limites, en fonction des meilleures pratiques de gestion des données de recherche, et ce, tout au long de la durée de vie des données de recherche.

Index des tutoriels

Les sujets suivants sont abordés dans le cadre de cette série de tutoriels :

Prérequis:

Les personnes participantes devront :

Avoir une connaissance élémentaire du langage de programmation Python.
Une connaissance préalable des meilleures pratiques de gestion des données de recherche est bénéfique mais pas obligatoire.

Comment démarrer :

Pour découvrir l’univers de la gestion des données de recherche, de l’intelligence artificielle et de l’apprentissage-machine, familiarisez-vous avez les carnets déjà disponibles dans notre Référentiel GitHub ou utilisez les liens directs fournis dans l’index ci-dessus.

Prenez connaissance du matériel, pratiquez-vous avec le code et vivez une expérience d’apprentissage transformatrice en matière de gestion de données de recherche, d’intelligence artificielle et d’apprentissage-machine !

Tous les carnets sont produits sous forme de carnets Jupyter, c.-à-d. un mélange de texte explicatif et de code Python exécutable. Vous pouvez d’ailleurs les exécuter de diverses façons. Quelques plateformes virtuelles sans configuration sont disponibles :

SyZyGy (https://syzygy.ca/)
- Une plateforme virtuelle via laquelle des chercheurs de différents établissements peuvent téléverser et exécuter leurs propres carnets. L’espace disque est toutefois limité à 1GB.
Alliance (https://docs.alliancecan.ca/wiki/JupyterHub)
- Une autre plateforme virtuelle comportant des engins plus puissants que SyZyGy mais vous devrez créer un compte.
Google Colab (https://colab.research.google.com/)
- Les carnets Jupyter sont compatibles avec Google Colab.
Amazon SageMaker (https://aws.amazon.com/sagemaker/)
- Les carnets Jupyter sont compatibles avec Amazon SageMaker.

Vous pouvez aussi exécuter les carnets localement, sur votre propre appareil. Sachez toutefois que certains carnets pourraient être exigeants pour votre appareil. C’est surtout le cas pour les carnets les plus récents.

La façon la plus simple de procéder à une installation locale est d’utiliser Anaconda ou Miniconda (https://www.anaconda.com/). Tous deux sont dotés de la même base mais Anaconda installera tout ce dont vous pourriez avoir besoin, incluant Python, Jupyter et plusieurs des trousses exigées par Python. Si vous ne disposez pas de beaucoup d’espace disque, Miniconda pourrait être la meilleure solution. Les instructions d’installation de Miniconda sont disponibles ici : https://docs.anaconda.com/free/miniconda/index.html

Si vous choisissez d’installer Miniconda plutôt qu’Anaconda, vous pouvez utiliser

conda install -c conda-forge jupyterlab

Remerciements

Ces modules didactiques ont été initialement développés pour la série didactique sur le calcul scientifique de l’Université d’Ottawa et les sections GDR des services de bibliothèque de l’Université d’Ottawa. Compute Ontario a assuré le financement de la série de tutoriels sur l’apprentissage-machine, pour publication sous forme de ressource éducative libre. L’Université d’Ottawa est propriétaire de cette série de tutoriels éducatifs. Cette formation est disponible sous licence Creative Commons CC-BY 4.0, ce qui en facilite le partage et l’adaptation tout en garantissant l’attribution aux créateurs originaux.

Soutien

Les membres de l’Université d’Ottawa peuvent faire une demande d’assistance concernant les projets d’apprentissage-machine ou l’accès aux ressources computationnelles via TOPdesk, à l’adresse https://topdesk.uottawa.ca.

Pour obtenir de l’aide concernant les ressources computationnelles mises à la disposition des personnes qui ne sont pas membres de l’Université d’Ottawa, consultez le site de l’Alliance de recherche numérique du Canada : https://docs.alliancecan.ca/wiki/Technical_support/fr