Introduction à l’apprentissage machine

Robot réfléchissant à un problème (PhonlamaiPhoto, iStockphoto)

Technologies et ingénierie

Let's Talk Science

10 novembre 2023

6.7

Quels sont les liens avec mon programme d'études?

Partager sur: facebook X/Twitter LinkedIn Pinterest

Dans ce document d’information, tu découvriras comment les ordinateurs peuvent apprendre et tu verras les trois types d’apprentissage machine.

Des mégadonnées à l’apprentissage machine

Les données ont une histoire à raconter – si tu sais comment la chercher! Dans le passé, les personnes analysaient des données pour trouver des régularités et des tendances. C’est plutôt facile avec une petite quantité de données. Mais quand il y a beaucoup de données, ça peut être très difficile. Utiliser des ordinateurs permet de faciliter et d’accélérer l’analyse de données.

Combien y a-t-il de données dans le monde? La réponse courte est qu’il y en a beaucoup! Les gens produisent beaucoup de données, surtout sur Internet. Ces données sont souvent appelées « mégadonnées ». Les experts et expertes en sciences des données et les ingénieures et ingénieurs informatiques ont dû concevoir des systèmes toujours plus gros et plus performants pour traiter toutes ces données. L’informatique en nuage (aussi parfois appelée infonuagique) est l’un de ces systèmes. Les concepteurs et conceptrices l’ont créée parce que les ordinateurs individuels ne pouvaient pas traiter de grandes quantités de données à eux seuls.

Toutes ces données ont modifié la relation entre les humains et les ordinateurs. Dans le passé, les humains se servaient des ordinateurs pour organiser et représenter les données. Mais les humains donnaient encore un sens aux données. Aujourd’hui, les machines nous aident à trouver comment comprendre et expliquer des données que les humains ont de la difficulté à bien saisir. C’est ce que nous appelons l’apprentissage machine (on dit aussi apprentissage automatique).

Attention aux fausses idées!

Les termes apprentissage machine et intelligence artificielle sont souvent utilisés ensemble. Mais ils ne signifient pas la même chose. L’apprentissage machine est un type d’intelligence artificielle.

Utilisations de l’apprentissage machine

L’apprentissage machine peut être utilisé dans toutes les situations mettant en jeu de grands volumes de données. C’est-à-dire presque partout! Les entreprises ont été parmi les premières à utiliser l’apprentissage machine. Elles l’ont surtout fait parce qu’elles pouvaient investir dans ces technologies qui étaient très coûteuses. Aujourd’hui, l’apprentissage machine coûte moins cher et est plus facile d’accès. En fait, des personnes partagent de nombreux programmes d’apprentissage machine en ligne en source libre.

Le savais-tu?

Le terme « source libre » signifie que des personnes partagent leur code sans restrictions en ligne. Les utilisateurs et les utilisatrices peuvent adapter le code source en fonction de leurs besoins. Ils et elles peuvent aussi contribuer à son amélioration.

L’apprentissage machine est utilisé dans les voitures autonomes, en recherche médicale et dans les campagnes de marketing. Mais savais-tu que l’apprentissage machine est aussi utilisé dans certains sports, dans des restaurants et même pour écrire des mélodies et paroles d’une chanson? Les utilisations possibles de l’apprentissage machine sont infinies. Et nous ne faisons que commencer à utiliser ce puissant outil.

Comment fonctionne l’apprentissage machine?

Il y a plusieurs types d’apprentissage machine. Chaque type a des points forts et des points faibles qui lui sont propres. Le tableau suivant donne un aperçu des différents types.

	Supervisé	Non-supervisé	Par renforcement (autosupervisé)
Caractéristique clé	Les données fournies aux ordinateurs ont été étiquetées par des humains.	Les ordinateurs cherchent des tendances dans les données qui sont difficiles à étiqueter pour les humains.	L’ordinateur crée ses propres données et supervise lui-même son apprentissage.
Utilisé surtout lorsque...	Nous avons une tâche bien définie qui exige un temps considérable.	Nous voulons découvrir de nouvelles tendances dans les données.	Nous avons un objectif, mais ignorons peut-être le meilleur moyen de l’atteindre.

L’apprentissage machine supervisé

Le premier type d’apprentissage machine est l’apprentissage machine supervisé. Comme tu l’as peut-être deviné, des personnes supervisent l’ordinateur pendant sa formation. Prenons un exemple.

Supposons que tu travailles à la conception d’une voiture autonome. Tu aimerais que la voiture arrive à distinguer les différents types de panneaux routiers. Dans ce cas, il te faudrait concevoir un modèle d’apprentissage machine. C’est un programme qui peut trouver des régularités et prendre des décisions en fonction d’un ensemble de données.

Pour aider le modèle à identifier correctement les panneaux d’arrêt, il faut lui apprendre à quoi ressemble un panneau d’arrêt. En premier lieu, on montre au modèle des images étiquetées correspondant à des panneaux d’arrêt et d’autres panneaux routiers. L’étiquette indique soit « arrêt » ou « non-arrêt ». En langage informatique, nous disons que ces images et leurs étiquettes sont les données d’entrée. Le nom de l’étiquette, « arrêt » ou « non-arrêt », est ce que nous voulons que le modèle reconnaisse plus tard. Il s’agit des données de sortie. Pour ce faire, le modèle peut apprendre à rechercher la forme d’un octogone.

Image - Version texte

Voici un schéma en couleur de l’apprentissage machine supervisé à l’aide de panneaux de signalisation.

Au centre de l’image se trouve un petit organigramme avec des formes non étiquetées reliées par des lignes noires. L’organigramme est intitulé « Algorithme ».

À gauche, on retrouve un groupe de six panneaux de signalisation, dont un panneau d’arrêt. Le groupe de panneaux est intitulé « Données brutes ». Une flèche noire pointe vers l’algorithme.

Au centre, en haut, se trouve un groupe de panneaux intitulé « Images d’entraînement ». Dans ce groupe, un rectangle rouge a été tracé autour de quatre panneaux. Ils correspondent à l’indication « Non-arrêt ». Un rectangle vert a été dessiné autour d’un panneau octogonal rouge. Il correspond à l’indication « Arrêt » et est intitulé « Données de sortie souhaitée ». Une flèche noire pointe vers l’algorithme. La flèche porte l’indication suivante : « Règle = les panneaux d’arrêt sont des octogones. »

Deux flèches noires partent de l’algorithme et se dirigent vers une zone située à droite de l’image. La zone est intitulée « Données de sortie ». À l’extrémité de la flèche supérieure se trouve un panneau octogonal rouge. Il est étiqueté « Panneaux d’arrêt ». À l’extrémité de la flèche inférieure se trouvent six autres panneaux de signalisation. Ces panneaux sont étiquetés « Panneaux non-arrêt ».

Une fois qu’il existe un modèle, les ingénieurs et ingénieures le mettent à l’essai à l’aide de nouvelles données. Le modèle devrait pouvoir identifier des images de panneaux d’arrêt qu’il n’a jamais vues auparavant. S’il n’y parvient pas, il a besoin d’une formation supplémentaire. Ça te rappelle quelque chose? La façon dont l’ordinateur apprend ressemble beaucoup à ta façon d’apprendre de nouvelles choses!

Le lien ci-dessous mène à une vidéo montrant une version simple de l’apprentissage machine supervisé. D’abord, on montre à l’ordinateur le résultat souhaité, c’est-à-dire des images de Charlie. Il analyse ensuite les images pour faire correspondre cette donnée de sortie avec les données d’entrée de son système de vision.

Vidéo montrant un robot avec intelligence artificielle capable d’identifier Charlie dans un livre Où est Charlie - Voilà Charlie est un robot qui trouve Charlie (2018) par redpepper (58 s).

Tu te demandes peut-être si l’apprentissage machine est bon pour accomplir cette tâche. Le pourcentage de solutions correctes est appelé exactitude. Par exemple, si l’apprentissage machine reconnaît 98 panneaux d’arrêt sur 100, l’exactitude est de 98 %. Mais l’exactitude n’est qu’une mesure imparfaite de l’efficacité d’un modèle. Imagine un système qui recevrait 98 images de chats et 2 images de chiens. Ce système pourrait reconnaître les chats avec une exactitude de 98 % en répondant seulement « chat » chaque fois! Pour obtenir des résultats significatifs, le système doit recevoir la même quantité de données d’entrée pour chaque objet.

Lorsqu’on utilise des images pour apprendre à un ordinateur à voir, il est question de vision par ordinateur. La vision par ordinateur aide les voitures autonomes. Elle aide aussi les ordinateurs à lire l’écriture écrite à la main.

Essaie ceci!

Tu trouves probablement qu’il est facile pour toi d’identifier un panneau d’arrêt, mais c’est pourtant une tâche difficile pour un ordinateur. Jette un coup d’œil à ces séries d’images et essaie de les décrire en n’utilisant que des formes et des couleurs!

Les exemples précédents utilisaient l’apprentissage machine pour classer des choses. Mais l’apprentissage machine supervisé peut également servir à faire des prévisions. Par exemple, une entreprise pourrait utiliser l’apprentissage machine pour prévoir le nombre d’années que ses employés resteront à son service. L’apprentissage machine pourrait alors analyser les données d’entrée, comme l’éducation et les années d’expérience d’un employé ou d’une employée. Les données de sortie seraient le nombre d’années pendant lesquelles il ou elle est resté(e) dans l’entreprise. Une fois que l’apprentissage automatique a créé un modèle à partir des données existantes sur les employés et employées, il peut être utilisé pour prédire la durée qu’ils et elles resteront dans l’entreprise.

Le plus grand inconvénient de l’apprentissage machine supervisé est qu’il a besoin de bonnes données étiquetées avec lesquelles s’entraîner. Une étude sur l’étiquetage de données a révélé que les ingénieurs et ingénieures de l’apprentissage machine consacraient jusqu’à 80 % de leur temps à s’assurer que les étiquettes étaient exactes.

L’apprentissage machine non supervisé

L’apprentissage machine non supervisé est utilisé pour trouver des tendances dans les ensembles de données qui sont difficiles à étiqueter. Le langage humain est un exemple de ce type de données. Chaque personne a son langage particulier. C’est pourquoi il est difficile de dire à un ordinateur exactement comment un mot devrait être prononcé. L’apprentissage machine non supervisé peut servir à analyser les mots prononcés.

La médecine est un autre exemple. Lorsqu’on cherche un traitement ou l’origine d’une maladie en particulier, les scientifiques essaient de déterminer si cette maladie implique des gènes spécifiques. Les gènes contiennent l’information qui fait de toi la personne que tu es. Chacune de tes cellules contient de 25 000 à 35 000 gènes. Les chercheurs et les chercheuses peuvent utiliser l’apprentissage machine non supervisé pour chercher des similitudes dans les gênes de personnes atteintes de cette maladie.

Pour comprendre comment fonctionne l’apprentissage automatique non supervisé, revenons à l’exemple de la voiture autonome. Dans ce cas-ci, le système ne reçoit pas d’images d’entraînement étiquetées et le résultat n’est pas prédéfini. Au lieu de cela, le système prend les données brutes et recherche lui-même des tendances. Une fois qu’il a trouvé une tendance, un humain peut développer un modèle qui inclut ces tendances. Cela peut conduire à des modèles pour des tâches spécifiques, comme éviter les autres véhicules sur la route ou ralentir en fonction de la circulation.

Image - Version texte

Voici un schéma en couleur de l’apprentissage automatique non supervisé avec des panneaux de signalisation.

En partant de la gauche, un groupe de neuf panneaux de signalisation correspond aux « Données brutes ». Une flèche pointe vers les mêmes panneaux, organisés en ligne devant un rectangle vert. Ce rectangle est intitulé « Sortie inconnue, pas d’images d’apprentissage ». Cette zone verte est intitulée « Interprétation ». Une flèche part du rectangle vert et pointe vers un petit organigramme intitulé « Algorithme ».

Trois flèches pointent de l’algorithme vers trois groupes de panneaux de signalisation sur le côté droit de l’image. Cette zone correspond aux « Données de sortie ». Le groupe du haut contient un panneau d’arrêt, un panneau d’interdiction d’accès et un panneau d’interdiction de demi-tour. Ces panneaux sont étiquetés « Panneaux contenant du rouge ». Le groupe du milieu contient un panneau de feu de circulation, un panneau de zone scolaire et un panneau de passage à niveau. Ces panneaux sont étiquetés « Panneaux contenant du jaune ». Le groupe du bas contient trois panneaux de limite de vitesse différents en noir et blanc. Ces panneaux sont étiquetés « Panneaux sans rouge ni jaune ».

L’apprentissage machine par renforcement ou autosupervisé

Le troisième type d’apprentissage machine est l’apprentissage machine par renforcement (aussi appelé apprentissage autosupervisé). Dans ce type d’apprentissage machine, la machine apprend par essais et erreurs. Elle crée de grands ensembles de données en exécutant divers scénarios. Elle évalue ensuite les stratégies qui ont produit les meilleurs résultats. Cela ressemble à la façon dont tu apprends à jouer à un jeu vidéo. Tu essaies différentes choses. Enfin, tu finis par apprendre quelles sont les stratégies qui fonctionnent le mieux. Comme un humain, la machine s’adapte et améliore ses stratégies en fonction de ses expériences. Mais elle est également peaufiné par de vrais humains.

Le lien ci-dessous mène à un exemple d’apprentissage machine autosupervisé en action. Cette vidéo montre comment un bras robotisé utilise la vision par ordinateur pour ramasser divers objets et les lancer dans un panier. La tâche du robot consiste à lancer chaque objet dans le panier aussi vite que possible.

Vidéo en anglais - Robots apprenant à lancer (2019) par Andy Zeng (3 min 5 s).

Encore une fois, cette tâche peut te sembler facile. Mais un robot doit être capable de prendre en considération beaucoup de choses pour exécuter cette tâche. Il doit d’abord localiser et ramasser un objet. Il doit aussi prendre en compte sa force de préhension, la force du lancer et le poids et la forme de l’objet. Tout cela exige de comprendre plusieurs principes de physique. Il serait difficile de créer un programme capable de tenir compte de tous ces critères. Mais c’est une bonne tâche pour l’apprentissage machine autosupervisé. Les robots utilisant l’apprentissage machine autosupervisé seraient utiles dans des endroits comme les centres de tri, où ils pourraient trier les matières.

Un autre exemple d’apprentissage machine est lorsqu’un humain se fait battre par un ordinateur à un jeu. Les ordinateurs peuvent utiliser l’apprentissage machine autosupervisé pour trouver le moyen le plus rapide de gagner. Deux ordinateurs peuvent même jouer l’un contre l’autre à l’aide de l’apprentissage machine autosupervisé. Par exemple, dans la vidéo ci-dessous, deux machines ont découvert une faille dans un jeu.

Vidéo en anglais avec sous-titres en français (à activer). Open Ai joue à cache-cache... et casse le jeu! (2019) par Two Minute Papers (10 m).

L’apprentissage machine autosupervisé est utilisé dans de nombreux domaines pour améliorer les systèmes. L’un de ces domaines est la sécurité informatique, aussi appelée cybersécurité. Il est très important de conserver en sécurité les données confidentielles, notamment les données utilisées par les banques et le gouvernement. Pour tester un système de cybersécurité, l’apprentissage machine autosupervisé peut faire semblant d’être un pirate informatique et montrer ainsi aux humains les failles du système avant qu’un vrai pirate ne les trouve!

Alors, comment l’apprentissage machine autosupervisé pourrait-il être utilisé dans notre exemple de voiture autonome? Le système pourrait utiliser des simulations de conduite virtuelle pour apprendre l’action la plus sûre à effectuer lorsque la caméra voit un octogone rouge.

Parmi les différents types d’apprentissage machine, lequel est le meilleur?

Le choix de la meilleure technique d’apprentissage machine dépendra du type de problème à résoudre. Pour certains problèmes, combiner certains types peut permettre d’obtenir de meilleurs résultats. Te souviens-tu de l’exemple donné plus haut avec les gènes? Nous pourrions utiliser l’apprentissage machine non supervisé pour identifier un gène ayant un rôle dans une maladie. Nous pourrions ensuite utiliser cette information pour entraîner un modèle d’apprentissage machine supervisé à détecter le gène en fonction de tendances identifiées par le modèle non supervisé. Nous pourrions enfin tester son exactitude à l’aide de données d’entrée provenant de personnes atteintes ou non atteintes de la maladie.

Autres réflexions sur l’apprentissage machine

Nous avons beaucoup appris sur le fonctionnement du cerveau humain, mais certaines choses sont encore un mystère. Cette situation ressemble beaucoup à l’apprentissage machine. C’est merveilleux que les machines fassent ce que nous voulons qu’elles fassent, mais ce n’est pas suffisant. Nous voulons aussi comprendre comment elles fonctionnent.

Si nous ignorons comment les machines prennent leurs décisions, comment savoir si leurs décisions sont justes et éthiques? C’est particulièrement vrai lorsque l’apprentissage machine est utilisé avec les données des gens. La capacité d’expliquer comment l’apprentissage machine fonctionne est appelée transparence ou intelligence artificielle explicable (X-IA ou XAI).

Tu te demandes peut-être si les humains sont encore nécessaires, puisque les machines sont capables d’apprendre. La réponse est oui! La qualité d’un algorithme d’apprentissage machine dépend de la qualité de ses données. C’est pourquoi de nombreux humains experts doivent s’assurer que l’algorithme est exact et pertinent. Nous avons aussi besoin que des personnes qualifiées veillent à ce que ces technologies soient utilisées de façon judicieuse et avec équité. De nombreuses personnes y travaillent actuellement, mais un plus grand nombre d’entre elles seront nécessaires à l’avenir.

Parlons sciences remercie la consultante en technologie Melissa Valdez de AI & Quantum pour sa contribution à la révision de ce document d’information.

L’intelligence artificielle et la communication humain-machine
Ce document d’information de Parlons sciences présente comment l’intelligence artificielle et l’apprentissage machine améliorent les communications entre les humains et les machines.

Intelligence artificielle et automobiles
Ce document d’information de Parlons sciences explore comment les systèmes d’intelligence artificielle sont utilisés dans le monde des transports et intégrés dans les véhicules autonomes.

Explorer l’apprentissage machine
Dans cette leçon de Parlons sciences, les élèves apprendront à explorer le fonctionnement des ordinateurs en étudiant la façon dont les données d’entrée sont traitées et apparaissent sous forme de données de sortie.

Le Machine Learning expliqué à ma grand-mère
Cette page de saagie.com explique ce qu’est l’apprentissage machine.