Introduction à l’apprentissage machine

Parlons sciences
Lisibilité
6.47

Dans ce document d’information, tu découvriras comment les ordinateurs peuvent apprendre et tu verras les trois types d’apprentissage machine.

Des mégadonnées à l’apprentissage machine

Les données ont une histoire à raconter – si tu sais comment la chercher! Dans le passé, les informaticiens et informaticiennes cherchaient des régularités et des tendances dans les données. Quand le nombre de données est très grand, cette recherche peut être difficile, mais les ordinateurs accélèrent ce processus.

Combien y a-t-il de données dans le monde? La réponse courte est qu’il y en a beaucoup! Les gens produisent de grandes quantités de données au moyen d’Internet et d’autres outils de communication. Ces grandes quantités de données sont souvent appelées « mégadonnées ». Les scientifiques ont dû inventer des systèmes toujours de plus en plus puissants pour traiter toutes ces données. L'informatique en nuage (aussi parfois appelé infonuagique) est un bon exemple. Ce système a été développé parce que les ordinateurs ordinaires ne pouvaient plus traiter efficacement l’énorme volume de données reçues.


Ces grandes quantités de données ont modifié la relation entre les humains et les ordinateurs. Dans le passé, les humains se servaient des ordinateurs pour organiser et représenter les données, mais c’était les humains qui donnaient un sens aux données. Aujourd’hui, les machines nous aident à trouver comment comprendre et expliquer de vastes quantités de données. C’est ce que nous appelons l’apprentissage machine (on dit aussi apprentissage automatique).

Attention aux fausses idées!

Les termes apprentissage machine et intelligence artificielle sont souvent utilisés ensemble, mais ils ne signifient pas la même chose. L’apprentissage machine est un type d’intelligence artificielle.

Utilisations de l’apprentissage machine

L’apprentissage machine peut être utilisé dans toutes les situations mettant en jeu de grands volumes de données, c’est-à-dire presque partout! Les entreprises ont été les premières à tirer avantage de l’apprentissage machine parce qu’elles pouvaient investir dans ces technologies. Aujourd’hui, l’apprentissage machine coûte moins cher et est plus facile d’accès. De nombreux programmes d’apprentissage machine sont partagés en ligne en source libre.

Le savais-tu?

L’expression « open source » est utilisé lorsqu’un code est partagé sans restrictions en ligne. Les utilisateurs peuvent adapter le code source en fonction de leurs besoins. Ils peuvent aussi contribuer à son amélioration.

Les véhicules autonomes, les chercheurs et chercheuses en médecine ainsi que les spécialistes en marketing utilisent tous l’apprentissage machine. Mais savais-tu que l’apprentissage machine est aussi utilisé dans certains sports, dans des restaurants et même pour écrire des mélodies et paroles d'une chanson? Les possibilités de l’apprentissage machine sont infinies, et nous ne faisons que commencer à apprendre comment utiliser ce puissant outil.

Comment fonctionne l’apprentissage machine?

Il y a plusieurs types d’apprentissage machine. Chaque type a des points forts et des points faibles qui lui sont propres. Le tableau suivant donne un aperçu des différents types.

Types d'apprentissage machine

 

Supervisé

Non-supervisé

Par renforcement (autosupervisé)

Caractéristique clé

Les données fournies aux ordinateurs ont été étiquetées par des humains.

Les ordinateurs cherchent des tendances dans les données qui sont difficiles à étiqueter pour les humains.

L’ordinateur crée ses propres données et supervise lui-même son apprentissage.

Utilisé surtout lorsque…

La tâche à exécuter est connue et exige un temps considérable.

Nous voulons découvrir des tendances inconnues dans les données.

Nous avons un objectif, mais ignorons peut-être le meilleur moyen de l’atteindre.

L’apprentissage machine supervisé

Le premier type d’apprentissage machine est l’apprentissage machine supervisé. Comme tu l’as peut-être deviné, ce type d’apprentissage machine nécessite que des humains supervisent ou entraînent l’ordinateur. Prenons un exemple.

Supposons que tu travailles à la conception d’une voiture autonome. Tu aimerais que la voiture arrive à distinguer les différents types de panneaux routiers. Le résultat voulu, soit la sortie définie pourrait être que la voiture connaisse la différence entre un panneau d’arrêt et les autres types de panneaux de signalisation. L’objectif du système d’apprentissage machine serait de créer un algorithme pour accomplir cette tâche. Un algorithme est une série d’étapes nécessaires pour résoudre un problème ou atteindre un objectif particulier.

Pour aider l’ordinateur à concevoir l’algorithme, les humains doivent enseigner à l’ordinateur à quoi ressemble un panneau d’arrêt. L’ordinateur reçoit premièrement des images de panneaux d’arrêt et d’autres panneaux routiers. Chaque image reçoit une étiquette, soit « arrêt » ou « non-arrêt ». Dans le langage informatique, chaque image est une donnée d’entrée. Le nom de l’étiquette, « arrêt » ou « non-arrêt », est ce que nous voulons que l’ordinateur réussisse à reconnaître plus tard. Pour les panneaux d’arrêt, l’algorithme pourrait dire à l’ordinateur de rechercher la forme d’un octogone.

Apprentissage machine supervisé
Apprentissage machine supervisé (Parlons sciences utilise des images provenant de Pop_jop via iStockphoto et d’Infografx via iStockphoto).
Missing élément de média.
Image - Version textuelle

Le système de ML supervisé reçoit une variété de panneaux de signalisation comme images d'entraînement. Un panneau d'arrêt est la sortie souhaitée. La règle est que les panneaux d'arrêt ont une forme octogonale. Le système reçoit de nouveaux panneaux de signalisation sous forme de données brutes. Après l'algorithme, si l'algorithme est correct, le système identifiera les panneaux octogonaux comme des panneaux d'arrêt et les autres panneaux comme des panneaux qui n'en sont pas.

 

Une fois qu’un algorithme a été créé, les ingénieurs et ingénieures en intelligence artificielle le mettent à l’essai à l’aide de nouvelles données. L’algorithme devrait pouvoir identifier des images de panneaux d’arrêt qu’il n’a jamais vues auparavant. S’il n’est pas capable de le faire, il a besoin d’une formation supplémentaire. Ça te rappelle quelque chose? La façon dont l’ordinateur apprend ressemble beaucoup à ta façon d’apprendre de nouvelles choses!

Le lien ci-dessous mène à une vidéo montrant une version simple de l’apprentissage machine supervisé. Comme tu peux voir, on montre premièrement à l’ordinateur le résultat attendu (images de Charlie). Ensuite, l’ordinateur analyse les images pour faire correspondre ses données de sortie avec les données d’entrée de son système de vision.

Vidéo démontrant un robot avec intelligence artificielle identifiant Charlie dans un livre Où est Charlie - There's Waldo is a robot that finds Waldo (2018) by redpepper (0:58 min.)

Tu te demandes peut-être si l’apprentissage machine est réellement efficace à accomplir cette tâche. Le pourcentage de solutions correctes est appelé exactitude. Par exemple, si l’apprentissage machine reconnaît 98 panneaux d’arrêt sur 100, l’exactitude est de 98 %. Afin d’obtenir les résultats les plus précis possible, le système doit recevoir la même quantité de données pour chaque objet. Imagine un système qui recevrait 98 images de chats et 2 images de chiens. Ce système pourrait reconnaître les chats avec une exactitude de 98 % en répondant « chat » chaque fois!

Quand les humains utilisent des images pour entraîner un ordinateur à voir, nous parlons alors de vision par ordinateur. La vision par ordinateur ne permet pas seulement de construire des voitures autonomes; elle aide aussi les ordinateurs à lire l'écriture écrite à la main.

Essaie ceci!

Tu trouves probablement qu’il est facile d’identifier un panneau d’arrêt, mais c’est pourtant une tâche difficile pour un ordinateur. Jette un coup d’œil à ces séries d'images et essaie de les décrire en n’utilisant que des formes et des couleurs!

Les exemples précédents demandaient à l’apprentissage machine de classer des choses. L’apprentissage machine supervisé peut également servir à faire des prévisions. Par exemple, une compagnie pourrait utiliser l’apprentissage machine pour prévoir le nombre d’années que ses employés resteront à son service. L’apprentissage machine pourrait alors analyser différents critères, comme l’éducation et les années d’expérience. L’algorithme qui sera créé par l’apprentissage machine pourra être utilisé lors de l’embauche de nouveaux employés.

Le plus grand inconvénient de l’apprentissage machine supervisé est qu’il doit disposer de données étiquetées correctement pour permettre au système de s’entraîner. Une étude sur l'étiquetage de données a révélé que les gens consacraient jusqu’à 80 % de leur temps à s’assurer que les étiquettes étaient exactes.

L’apprentissage machine non supervisé

L’apprentissage machine non supervisé est utilisé pour trouver des tendances dans les données qui sont difficiles à étiqueter. Le langage humain est un exemple de ce type de données. Chaque personne a son langage particulier. C’est pourquoi il est difficile de dire à un ordinateur exactement comment un mot devrait être prononcé. L’apprentissage machine non supervisé peut servir à analyser les mots prononcés.

La médecine est un autre exemple. Lorsqu’on cherche un traitement ou l 'origine d’une maladie en particulier, les scientifiques essaient de déterminer si cette maladie implique des gènes spécifiques. Les gènes contiennent l’information qui fait de toi la personne que tu es. Chacune de tes cellules contient de 25 000 à 35 000 gènes. Les chercheurs et les chercheuses peuvent utiliser l’apprentissage machine non supervisé pour chercher des similitudes dans les gênes de personnes atteintes de cette maladie.

Pour avoir une idée du fonctionnement de l’apprentissage machine non supervisé, revenons à l’exemple du véhicule autonome. Dans l’apprentissage machine non supervisé, le système ne reçoit pas d’images d’entraînement et le résultat attendu est inconnu. Ou autrement dit, la sortie n’est pas définie. Le système prend les données brutes et cherche ensuite des régularités par lui-même. Une fois qu’il a détecté une régularité, un algorithme est développé. L’algorithme peut ensuite être utilisé d’une façon comparable à l’apprentissage machine supervisé.

Apprentissage machine non-supervisé
Apprentissage machine non supervisé (Parlons sciences utilise des images provenant de Pop_jop via iStockphoto et d’Infografx via iStockphoto).
Image - Version textuelle

Un système ML non supervisé ne reçoit pas d'images d'entraînement ni de sortie désirée. Le système ML reçoit une variété de panneaux de signalisation comme données brutes. Le système cherche des modèles dans les données. Sur la base de ces modèles, un algorithme est développé. L'algorithme donne comme résultat des panneaux de signalisation dans différents groupes.

L’apprentissage machine par renforcement ou autosupervisé

Le troisième type d’apprentissage machine est l’apprentissage machine par renforcement (aussi appelé apprentissage autosupervisé). Dans ce type d’apprentissage automatique, la machine apprend par essais et erreurs. Contrairement aux deux autres types d’apprentissage machine, les systèmes d’apprentissage autosupervisés peuvent s’améliorer sans aucune supervision humaine.

Le lien ci-dessous mène à un exemple d’apprentissage machine autosupervisé en action. Cette vidéo montre comment un bras robotisé utilise la vision par ordinateur pour ramasser divers objets et les lancer dans un panier. La tâche du robot consiste à lancer chaque objet dans le panier aussi vite que possible.

Vidéo en anglais - Robots learning to toss (2019) by Andy Zeng (3:05 min.).

 

Encore une fois, cette tâche peut te sembler facile. Mais un robot doit être capable de prendre en considération beaucoup de choses pour exécuter cette tâche. Il doit d’abord être capable de localiser et de ramasser un objet. Il doit aussi prendre en compte sa force de préhension, la force du lancer, ainsi que le poids et la forme de l’objet. Tout cela exige de comprendre plusieurs principes de physique. Il serait difficile de créer un programme capable de tenir compte de tous ces critères. C’est pourquoi cette tâche convient bien à l’apprentissage machine autosupervisé. Des robots utilisant l’apprentissage machine autosupervisé seraient utiles dans des endroits comme les centres de tri, où ils pourraient trier les matières

Un autre exemple bien connu est lorsqu’un humain se fait battre par un ordinateur à un jeu. Les ordinateurs peuvent utiliser l’apprentissage machine autosupervisé pour trouver le moyen le plus rapide de gagner à un jeu. Deux ordinateurs peuvent même jouer l’un contre l’autre à l’aide de l’apprentissage machine autosupervisé. Par exemple, dans la vidéo suivante, tu verras comment des machines ont découvert une faille dans un jeu vidéo.

Vidéo en anglais avec sous-titres en français (à activer). Open Ai joue à cache-cache.. et casse le jeu ! (2019) par Two Minute Papers (10 min).

 

L’apprentissage machine autosupervisé est utilisé dans de nombreux domaines pour améliorer les systèmes. L’un de ces domaines est la sécurité informatique, aussi appelée cybersécurité. Il est très important de conserver en sécurité les données confidentielles, notamment les données utilisées par les banques et le gouvernement. Pour tester un système de sécurité de données, l’apprentissage machine autosupervisé peut faire semblant d’être un pirate informatique et montrer ainsi aux humains les failles du système avant qu’un vrai pirate ne les trouve!

Alors, comment l’apprentissage machine autosupervisé pourrait-il être utilisé dans notre exemple de voiture autonome? Il pourrait créer des simulations de conduite virtuelle pour vérifier si la voiture autonome s’arrête quand sa caméra voit un panneau octogonal rouge.

Parmi les différents types d’apprentissage machine, lequel est le meilleur?

Le choix de la meilleure technique d’apprentissage machine dépend du problème à résoudre. Il est aussi possible de combiner des solutions afin d’obtenir de meilleurs résultats. Te souviens-tu de l’exemple donné plus haut avec les gènes? Nous pourrions utiliser l’apprentissage machine non supervisé pour identifier un gène potentiel. Nous pourrions ensuite utiliser cette information pour créer un algorithme pour un apprentissage machine supervisé. Nous pourrions enfin tester son exactitude à l’aide de données d’entrée provenant de personnes atteintes ou non atteintes de la maladie en question.

Autres réflexions sur l’apprentissage machine

Nous avons beaucoup appris sur le fonctionnement du cerveau humain, mais certaines choses sont encore un mystère. Cette situation ressemble beaucoup à l’apprentissage machine. C’est merveilleux que les machines fassent ce que nous voulons qu’elles fassent, mais ce n’est pas suffisant. Nous voulons aussi comprendre comment elles fonctionnent. Si nous ignorons comment elles prennent leurs décisions, comment savoir si leurs décisions sont justes et éthiques? C’est particulièrement vrai lorsque l’apprentissage machine est utilisé avec des données concernant le grand public. La capacité d’expliquer comment l’apprentissage machine fonctionne est appelée transparence ou intelligence artificielle explicable (X-IA ou XAI).

Tu te demandes peut-être si les humains sont encore nécessaires, puisque les machines sont capables d’apprendre. La réponse est oui! La qualité d’un algorithme d’apprentissage machine dépend de la qualité de ses données. C’est pourquoi de nombreux experts doivent s’assurer que les données utilisées par les modèles d’apprentissage machine sont exactes et pertinentes. Nous avons aussi besoin que des personnes qualifiées veillent à ce que ces technologies soient utilisées de façon judicieuse et avec équité. De nombreux experts y travaillent actuellement, mais un plus grand nombre d’entre eux seront nécessaires à l’avenir.

Terminons cette leçon en beauté, avec l’histoire d’Abu…

Vidéo en anglais avec sous-titres en français (à activer). Abu's Story (2017) par Google (3:35 min.).

En savoir plus

Le Machine Learning expliqué à ma grand-mère

Cette page de saagie.com explique ce qu’est l’apprentissage machine.

Qu’est-ce que l’intelligence artificielle?
Ce document d’information de Parlons sciences explique ce qu’est l’intelligence artificielle et son historique.

L’intelligence artificielle et la communication humain-machine
Ce document d’information de Parlons sciences présente comment l’intelligence artificielle et l’apprentissage machine améliorent les communications entre humain et machine.

L’intelligence artificielle et la vision par ordinateur
Ce document d’information de Parlons sciences présente ce qu’est la vision par ordinateur, une division de l’intelligence artificielle qui utilise l’apprentissage machine.

Références

Heller, M. (2020, March 9). Data Labeling: AI’s Human Bottleneck. Medium.

New Tech Dojo. (2018, March 6). List of Machine Learning Algorithms.

Shankar, S. (2020, May 30). Types of Machine Learning Algorithms. The Startup. 

Vas3k Blog. (n.d.). Machine Learning for Everyone.

Wilson, A. (2019, September 29). A Brief Introduction to Supervised Learning. Towards Data Science.