L’IA et la vision par ordinateur

Jeune femme et téléphone intelligent avec reconnaissance faciale (RyanKing999, iStockphoto)

Affaires et économie, Informatique, Technologies et ingénierie

Parlons sciences

9 novembre 2023

6.49

Quels sont les liens avec mon programme d'études?

Partager sur: facebook X/Twitter LinkedIn Pinterest

Découvre comment les ordinateurs voient et apprennent à reconnaître les objets et les visages humains.

Technologies de reconnaissance visuelle et faciale

À travers l’histoire, les humains ont créé des machines pour faire le travail pour eux. Récemment, ce courant s’est développé pour inclure des machines qui imitent nos sens, comme notre vision. Les technologies de reconnaissance visuelle sont des technologies qui peuvent voir et identifier les choses. Ces technologies permettent aux machines, aux robots et aux applications de voir et de comprendre le monde tel que nous le voyons.

La vision par ordinateur (aussi appelée vision artificielle ou vision numérique) est un type d’ingénierie informatique. Elle consiste à apprendre aux ordinateurs à « voir » des images numériques comme des photos et des vidéos. Les ingénieurs et ingénieures qui travaillent dans ce domaine ont une variété de tâches. L’une d’entre elles est de trouver des façons d’utiliser les caméras numériques avec des appareils et des ordinateurs. Ils et elles trouvent aussi des manières d’enseigner aux ordinateurs à reconnaître des images et des vidéos. Ceci est effectué par l’entremise de la programmation ou de l’apprentissage machine (aussi appelé apprentissage automatique).

Il y a différents types de vision par ordinateur. Ils varient selon ce que l’ordinateur tente d’identifier. L’ordinateur peut chercher du texte, des images ou des visages. Nous nous pencherons sur ces trois catégories plus en détail.

Image - Version texte

Voici un schéma en couleur composé de rectangles imbriqués les uns dans les autres.

Le plus grand rectangle, à l’extérieur, est bleu et correspond à l’« Intelligence artificielle ». À l’intérieur de ce rectangle se trouve un autre plus petit, de couleur violet, qui correspond à l’« apprentissage machine ». À l’intérieur de ce dernier se trouve un autre rectangle vert encore plus petit, lequel correspond à la « vision par ordinateur ». Le plus petit rectangle, le plus à l’intérieur, est rose foncé. On peut lire « Reconnaissance visuelle » en grosses lettres. Trois textes plus petits en dessous indiquent : « Reconnaissance optique de caractères », « Reconnaissance de l’iris » et « reconnaissance faciale ».

Reconnaissance optique de caractères

La reconnaissance optique de caractères (ROC) est une technologie utilisée pour comprendre du texte. Le texte peut être écrit à la main ou dactylographié.

Examinons comment cela fonctionne avec l’écriture à la main.

La première étape de la ROC est de prendre des photos de l’écriture de diverses personnes. Ensuite, des personnes numérisent ces photos à l’aide d’un ordinateur. Par la suite, les personnes associent le texte écrit à la main avec des caractères sur un ordinateur. Un caractère peut être une lettre, un chiffre, un espace, un signe de ponctuation ou tout autre symbole. Ceci enseigne à l’ordinateur quelle lettre manuscrite correspond à quel caractère. Ceci permet à l’ordinateur d’identifier les caractères de l’écriture manuscrite et de l’associer à du texte.

Ceci est un exemple d’apprentissage machine supervisé. L’apprentissage automatique supervisé implique d’associer des étiquettes, comme des noms de fichiers, à des données, comme des images. En ROC, les machines apprennent à identifier les caractères en utilisant de nombreuses images de lettres écrites à la main. La machine peut alors rechercher des motifs dans toutes les images du même caractère.

Prenons par exemple le caractère un (1). On peut établir des règles pour rechercher les régularités suivantes concernant les manières d’écrire le caractère 1 que les humains utilisent.

Règles de régularités :

Souvent situé près d’autres chiffres.
Une longue ligne verticale, p. ex. l
Une courte ligne optionnelle reliée au sommet de la ligne verticale et qui descend vers l’arrière à un angle de 45 degrés, p. ex. 1
Une courte ligne horizontale optionnelle centrée à la base de la ligne verticale, p. ex. 1

Shown is a colour illustration of the number one, written four different ways. — Illustration de variations manuscrites du chiffre un (Source : Daranz via Wikimedia Commons).

Image - Version texte

Voici une illustration en couleur du chiffre un, écrit de quatre façons différentes.

Les chiffres sont écrits à la main en noir sur une ligne bleue. Le premier est une simple ligne verticale. Le second est une ligne verticale avec une courte ligne courbe partant du haut, et allant vers le bas à gauche. Le troisième est similaire au deuxième, mais la ligne courte est plus longue et inclinée plus bas. Le dernier a une ligne courte sur le dessus, comme le premier. Il a aussi une courte ligne horizontale au bas, comme une base.

Essaie ceci!

Comment décrirais-tu les régularités du chiffre 3? Ou du chiffre 9?

Des règles de régularité de ce genre peuvent être écrites sous forme de code informatique. Le code comprend un ensemble d’instructions et de règles, soit un algorithme. Une fois qu’un ordinateur a un code, un logiciel de ROC peut alors traduire de l’écriture manuscrite en texte électronique. Certains modèles de vision par ordinateur peuvent apprendre et enregistrer eux-mêmes les règles de régularités. Ensuite, lorsqu’ils voient un nouveau caractère, ils l’analysent de la même façon et trouvent à quel groupe il correspond.

Essaie ceci!

Tu peux l’essayer toi-même en utilisant le programme de ce site (en anglais).

Les technologies de ROC sont maintenant présentes dans certaines applications pour téléphone intelligent. Ces applications prennent des photos de tes notes écrites à la main. Elles les convertissent ensuite en texte numérique. Pouvoir prendre des notes à la main pour ensuite les convertir en texte est beaucoup plus simple que de les taper sur un petit appareil. Transformer de l’information visuelle, comme tes notes écrites à la main, en données texte présente plusieurs avantages. On peut effectuer des recherches dans des données texte, elles peuvent être classées en catégories et elles occupent beaucoup moins de mémoire sur ton téléphone ou ton ordinateur!

Image - Version texte

L’illustration en couleur montre un téléphone intelligent prenant une photo d’un texte écrit à la main, puis affichant un document dactylographié.

Le même téléphone intelligent est montré deux fois. Sur la gauche de l’illustration, il est représenté au-dessus d’un cahier ouvert rempli d’écriture. L’écran du téléphone intelligent indique qu’une photo est en train d’être prise. À droite, une flèche blanche étiquetée « ROC » pointe vers le même téléphone intelligent affichant un document soigneusement dactylographié. Ni le texte manuscrit ni le texte numérique ne sont lisibles.

Reconnaissance visuelle

De nombreux processus de fabrication impliquent des machines et des systèmes robotiques qui détectent et reconnaissent des objets. La détection d’objets peut être aussi simple qu’un capteur qui utilise la lumière pour voir si un article est passé devant lui. Pense à une machine d’étiquetage. Elle détecte si une boîte se déplaçant le long d’un convoyeur est dans la bonne position. Quand le système « voit » que le paquet est au bon endroit, il imprime une étiquette sur la boîte.

Aujourd’hui, les gens développent des systèmes de reconnaissance visuelle encore plus complexes pour les robots. Ceux-ci permettent aux robots de mieux identifier et manipuler les objets. Il est important que ces systèmes se rapprochent des capacités humaines. Par exemple, un robot doit pouvoir reconnaître un gobelet en papier d’un gobelet en verre afin de pouvoir ajuster la force utilisée pour le manipuler.

Les systèmes de détection visuelle d’objets simples détectent où se situe quelque chose. Comme la caméra de recul dans une voiture. Ce système utilise des capteurs de détection d’objets et des caméras pour détecter les objets. Mais il ne dit pas à la personne qui conduit quels sont ces objets.

Les systèmes de reconnaissance d’images déterminent ce que sont les objets. Il s’agit d’un des plus importants systèmes dans les voitures autonomes. Comme les les voitures équipées de capteurs, les voitures autonomes doivent pouvoir détecter les objets. Mais elles doivent aussi pouvoir décider de l’action à effectuer, en fonction de l’objet et de la situation. Par exemple, si la voiture reconnaît un panneau d’arrêt, elle doit s’arrêter. Mais si une voiture détecte une personne, elle doit analyser où la personne se trouve et ce qu’elle est en train de faire. La personne se trouve-t-elle en sécurité sur le trottoir? La personne traverse-t-elle la rue? Tu peux t’imaginer que ce système se doit d’être très bon pour faire son travail!

Shown is a colour photograph of cars on a highway with graphics of blue circles and rectangles. — **Image en trois dimensions de voitures autonomes. Les rectangles représentent les autres voitures détectées. (Source :** **3alexd** **via** **iStockphoto**).

Image - Version texte

L’image montre une illustration en couleur de voitures sur une autoroute avec des schémas de cercles et de rectangles bleus.

Une voiture rouge se trouve au premier plan. Des cercles bleus rayonnent sur la chaussée qui l’entoure. Les cercles se propagent sur toutes les surfaces routières de la photo, y compris les voies en sens inverse. Chacun des autres véhicules sur l’autoroute est entouré de rectangles plus pâles.

Les voitures autonomes ne sont pas les seuls systèmes qui utilisent la reconnaissance d’images. L’application pour téléphone intelligent PlantNet en est un autre exemple. Elle permet aux gens de trouver de l’information sur les différentes espèces de plantes. À l’aide de ton téléphone, tu prends une photo de la plante. Le système de reconnaissance d’image compare ta photo à beaucoup d’autres images de plantes qu’il connaît déjà. Il te fait ensuite des suggestions quant à l’identité de ta plante. Leafsnap et Florist sont des applications similaires. Elles aident les gens à identifier les arbres et les fleurs à partir d’images ou de leur appareil photo.

Technologies de reconnaissance faciale

La technologie de reconnaissance faciale (TRF) est une technologie qui identifie les visages humains. Le processus utilisé est semblable à la manière dont les humains se reconnaissent entre eux. Le système de reconnaissance faciale d’un ordinateur est semblable à ton propre système de reconnaissance faciale. Tu vois le visage de quelqu’un avec tes yeux. Un téléphone intelligent prend la photo du visage de quelqu’un avec sa caméra. Ton cerveau remarque les caractéristiques faciales et les emmagasine dans ta mémoire. C’est ce qui te permet de te souvenir des gens. Un ordinateur fait la même chose, mais à l’aide d’algorithmes.

Les visages sont uniques. Comme une empreinte digitale, on peut les mesurer et les comparer. Le terme utilisé pour la mesure des caractéristiques biologiques est la biométrie. Un logiciel de biométrie faciale mesure et schématise les parties d’un visage. Cela inclut des éléments tels que la couleur et la forme des yeux, du nez, de la bouche et du menton. On appelle ces mesures des points nodaux. Un schéma géométrique du visage d’une personne requiert environ 80 points nodaux.

Shown is a colour illustration of three photographs of the same person, overlaid with white dots, then lines connecting the dots. — **Concept de reconnaissance faciale illustrant les points nodaux et les mesures** **(Source :** **Grafissimo** **via** **iStockphoto**).

Image - Version texte

L’illustration en couleur montre trois photographies de la même personne, superposées de points blancs, puis de lignes reliant les points.

Les photographies s’affichent comme à un écran d’ordinateur. Chaque photographie correspond à la même photo, avec des ajouts différents. La personne sur les photos regarde directement l’appareil photo. Elle a la peau pâle, des cheveux blonds aux épaules et un chandail vert.

Sur la première photo, le visage de la personne est encadré par quatre lignes rouges indiquant les coins. Sur la seconde, son visage est couvert de petits points blancs, soulignant ses traits. Sur la troisième, ces points sont reliés par de courtes lignes blanches.

L’image et les points nodaux sont ensuite écrits sous forme de code. On nomme ce code l’empreinte faciale ou la signature faciale. Une fois qu’une empreinte faciale est créée, un ordinateur peut la comparer à d’autres codes d’empreinte faciale dans une base de données d’images. Les empreintes faciales sont plutôt uniques, mais elles ne le sont pas autant qu’une reconnaissance de l’iris ou un balayage de l’iris. Une reconnaissance de l’iris est une image de l’iris d’une personne. L’iris est la partie colorée de ton œil. Ton iris est unique, tout comme tes empreintes digitales. Il s’agit donc d’un bon moyen pour identifier quelqu’un.

Le savais-tu?

Les scanneurs d’iris utilisent environ 240 points nodaux.

De nombreux domaines utilisent maintenant les TRF. Le domaine principal est celui de la sécurité. Certains téléphones intelligents et verrous utilisent l’empreinte faciale ou le balayage de l’iris au lieu de mots de passe. L’avantage d’utiliser ainsi son visage est que tu n’as pas à te souvenir de ton mot de passe!

La police peut utiliser les TRF pour identifier des criminels à partir d’une séquence de vidéo de surveillance. Les gouvernements peuvent utiliser les TRF pour confirmer l’identité d’une personne. Ils peuvent aussi l’utiliser pour l’émission de passeports ou à des postes de sécurité aux frontières ou à l’aéroport. Contrairement à ton visage, ton iris ne change pas avec le temps. Il peut donc être utilisé pour t’identifier tout au long de ta vie. Mais les lectures de l’iris ne sont pas aussi faciles à prendre que les empreintes faciales.

Shown is a colour photograph of people in an airport, overlaid with squares and labels around their faces. — **Reconnaissance faciale utilisée dans un aéroport (Source :** **izusek** **via** **iStockphoto**).

Image - Version texte

La photo en couleur montre des personnes dans un aéroport, avec des carrés et de l’information autour de leurs visages.

En arrière-plan, en flou, on voit six personnes. Elles sont alignées le long d’un carrousel à bagages, en attente de leurs valises. Les visages des deux personnes à droite sont entourés de carrés rouges avec du texte en dessous. Les visages des quatre personnes à gauche ont des carrés et du texte jaunes. Le texte est trop petit pour être lu. Deux valises se trouvent sur un tapis roulant au premier plan.

Inquiétudes concernant les TRF

La TRF fonctionne plutôt bien, mais elle n’est pas toujours exacte. Le fait que les images ou les vidéos que nous prenons ne sont pas toujours claires est problématique. Les photos prises sous un mauvais éclairage peuvent influencer la capacité de la TRF à trouver une correspondance positive. Des changements de lunettes, de bijoux ou de cheveux ou barbe peuvent aussi affecter les TRF. Dans de telles situations, les correspondances résultantes peuvent être erronées. Grâce à de nouveaux logiciels pour les images 2D et 3D captées à partir de vidéos, les TRF sont en voie de s’améliorer. Certains systèmes permettent même de prendre en considération les changements au niveau des cheveux ou d’autres éléments utilisés pour se déguiser. Ces améliorations aideront à rendre les TRF plus exactes.

Un autre problème lié aux TRF concerne la qualité des données fournies à l’ordinateur. Les algorithmes utilisés pour analyser la biométrie sont alimentés avec des milliers de photos de personnes. Mais parfois, les ordinateurs ne reçoivent pas assez de données concernant certains groupes de personnes. Il s’agit notamment des personnes qui font partie des minorités visibles en Amérique du Nord et en Europe. Cet enjeu mène à de fausses identifications. Si elles sont utilisées dans le cadre de l’application de la loi, les fausses identifications peuvent avoir de graves répercussions sur la vie des gens. Voilà pourquoi on doit être prudents lorsqu’on utilise des technologies comme la TRF pour identifier des personnes.

Le respect de la vie privée est aussi une préoccupation importante lorsqu’il est question de TRF. Notre apparence constitue une partie importante de notre identité. Dans certains cas, on est d’accord à ce que les autres possèdent des images de nous. Cela inclut des groupes comme le gouvernement qui nous fournit des pièces d’identité avec photo. Ce que l’on ne veut pas, c’est que des gens se servent de photos de nous à notre insu ou sans notre consentement. Par exemple, certaines villes de Chine utilisent la TRF pour humilier les gens. Le nom et la photo de personnes ayant contrevenu à la loi sont affichés sur de grands écrans. Toutefois, en Amérique du Nord, certaines villes ont déjà banni la reconnaissance faciale.

Un des endroits où tu dois faire preuve de prudence en ce qui concerne la TRF, c’est sur les médias sociaux. Savais-tu que lorsque tu publies une image sur les médias sociaux, tu donnes la permission à l’entreprise du média social de l’utiliser à ses propres fins? Probablement pas. La TRF permet à ces compagnies de collecter et d’associer des visages avec des noms. Ce qu’ils font avec cette information n’est pas toujours très clair.

De plus en plus de systèmes de reconnaissance visuelle et d’objets sont introduits dans nos vies. Ces technologies peuvent nous offrir de la sécurité et nous permettre de faire des choses qu’on ne pouvait pas faire avant. Mais on doit être conscients que ces technologies peuvent aussi affecter notre liberté et notre vie privée. C’est à toi qu’il revient de contrôler quelle quantité d’informations personnelles tu partages. Cela inclut ton visage.

Il y a certaines choses que tu peux faire. Tu peux porter attention à qui prend des photos de toi et où ils et elles les publient. Et tu devrais toujours lire les politiques de protection des renseignements personnels pour toute plateforme de médias sociaux que tu utilises. Tu devrais aussi prêter attention aux nouvelles concernant les réglementations sur le respect de la vie privée dans ton pays. Être un citoyen informé ou une citoyenne informée, c’est toujours un choix intelligent!

Parlons sciences remercie la consultante en technologie Melissa Valdez de AI & Quantum pour sa contribution à la révision de ce document d’information.

Reconnaissance faciale, comment ça marche ? (2019)
Cette vidéo ( 1 min 29 s) de AFP explique le fonctionnement des logiciels de reconnaissance faciale et certains de leurs risques.

Comment l'intelligence artificielle va révolutionner la vie des malvoyants
Cet article Des Échos explique comment l’intelligence artificielle et la vision par ordinateur peut aider les personnes avec un handicap visuel dans leur vie quotidienne.

L’intelligence artificielle et les véhicules
Cet article de Parlons sciences présente comment on utilise les technologies de l’intelligence artificielle dans le monde des transports personnels.