L’intelligence artificielle et la vision par ordinateur

Parlons sciences
Lisibilité
6.2

Découvre comment les ordinateurs voient et apprennent à reconnaître les objets et les visages humains.

Technologies de reconnaissance visuelle et faciale

À travers l’histoire, les humains ont créé des machines pour faire le travail pour eux. Plus récemment, ce courant s’est développé pour inclure des machines qui imitent nos sens, comme notre vision. Les technologies de reconnaissance visuelle sont des technologies qui peuvent voir et identifier les choses. Ces technologies permettent aux machines, aux robots et aux applications de voir et de comprendre le monde tel que nous le voyons.

La vision par ordinateur (aussi appelée vision artificielle ou vision numérique) est un type d’ingénierie informatique. Elle consiste à apprendre aux ordinateurs à « voir » des images numériques telles que des photos et des vidéos. Les ingénieurs et ingénieures qui travaillent dans ce domaine ont une variété de tâches. L’une d’entre elles est de trouver des façons d’utiliser les caméras numériques avec des appareils et des ordinateurs. Ils et elles trouvent aussi des manières d’enseigner aux ordinateurs à reconnaître des images et des vidéos. Ceci est effectué par l’entremise de la programmation ou de lapprentissage machine (aussi appelé apprentissage automatique).

Il y a différents types de vision par ordinateur. Ils varient selon ce que l’ordinateur tente d’identifier. L’ordinateur peut chercher du texte, des images ou des visages. Nous nous pencherons sur ces trois catégories plus en détail.

Relation entre l’intelligence artificielle et différentes technologies de la vision par ordinateur
Image montrant la relation entre l’intelligence artificielle et différentes technologies de la vision par ordinateur (©2021 Parlons sciences. Utilisant une image de deepomatic).

Reconnaissance optique de caractères

La reconnaissance optique de caractères (ROC) est une technologie utilisée pour comprendre du texte. Le texte peut être écrit à la main ou dactylographié.

Examinons comment cela fonctionne avec l’écriture à la main.

La première étape de la ROC est de prendre des photos de l’écriture de diverses personnes. Ces images sont ensuite numérisées dans un ordinateur. Par la suite, des personnes associent le texte écrit à la main avec des caractères sur un ordinateur. Un caractère peut être une lettre, un chiffre, un espace, un signe de ponctuation ou tout autre symbole. Ceci enseigne à l’ordinateur quelle lettre manuscrite correspond à quel caractère. Ceci permet à l’ordinateur d’identifier les caractères de l’écriture manuscrite et de l’associer à du texte. Ceci est un exemple dapprentissage machine supervisé. L’apprentissage supervisé implique d’associer des étiquettes à des données. En ROC, les machines apprennent à identifier les caractères en utilisant de nombreuses images d’écriture manuscrite étiquetées. Cela fournit à la machine des régularités à chercher.

Prenons par exemple le chiffre un (1). On peut établir des règles pour rechercher les régularités suivantes concernant les manières d’écrire le chiffre 1 que les humains utilisent.

Règles de régularités :

  • Souvent situé près d’autres chiffres connus.
  • Une longue ligne verticale, p. ex. l
  • Une courte ligne optionnelle reliée au sommet de la ligne verticale et qui descend vers l’arrière à un angle de 45 degrés, p. ex. 1
  • Une courte ligne horizontale optionnelle centrée à la base de la ligne verticale, p. ex. 1
Variations manuscrites du chiffre un
Illustration de variations manuscrites du chiffre un (Source : Daranz via Wikimedia Commons).

Essaie ceci!

Comment décrirais-tu les régularités du chiffre 3? Ou du chiffre 9?

Des règles de régularité de ce genre sont écrites sous forme de code informatique. Le code comprend un ensemble d’instructions et de règles, soit un algorithme. Une fois qu’un ordinateur a un code, un logiciel de ROC peut alors traduire de l’écriture manuscrite en texte électronique.

Les technologies de ROC sont maintenant présentes dans certaines applications pour téléphone intelligent. Ces applications prennent des photos de tes notes écrites à la main. Elles les convertissent ensuite en texte électronique. Pouvoir prendre des notes à la main pour ensuite les convertir en texte est beaucoup plus simple que de les taper sur un petit appareil. Transformer de l’information visuelle, comme tes notes écrites à la main, en données texte présente plusieurs avantages. On peut effectuer des recherches dans des données texte, elles peuvent être classées en catégories et elles occupent beaucoup moins de mémoire sur ton téléphone ou ton ordinateur!

Image illustrant la conversion de l’écriture manuscrite en texte dactylographié par la ROC
Image illustrant la conversion de l’écriture manuscrite en texte dactylographié par la ROC (Source : Piscine via iStockphoto).

 

Reconnaissance visuelle

De nombreux processus de fabrication impliquent des machines et des systèmes robotiques qui détectent et reconnaissent des objets. La détection d’objets peut être aussi simple qu’un capteur qui utilise la lumière pour voir si un article est passé devant lui. Pense à une machine d’étiquetage. Elle détecte si une boîte se déplaçant le long d’un convoyeur est dans la bonne position. Quand le système « voit » que le paquet est au bon endroit, il imprime une étiquette sur la boîte.

Les gens d’aujourd’hui développent des systèmes de reconnaissance visuelle encore plus complexes pour les robots. Ceux-ci permettent aux robots de mieux identifier et manipuler les objets. Il est important que ces systèmes se rapprochent des capacités humaines. Par exemple, un robot doit pouvoir reconnaître un gobelet en papier et d’un gobelet en verre afin de pouvoir ajuster la force utilisée pour la manipuler.

Les systèmes de détection visuelle d’objets simples détectent se situe quelque chose. Comme la caméra de recul dans une voiture. Ce système utilise des capteurs de détection d’objets et des caméras pour détecter les objets. Mais il ne dit pas à la personne qui conduit quels sont ces objets.

Les systèmes de reconnaissance d’images déterminent ce que sont les objets. Il s’agit d’un des plus importants systèmes dans les voitures autonomes. Comme les autres voitures, les voitures autonomes doivent pouvoir détecter les objets. Mais elles doivent aussi pouvoir décider de l’action à effectuer en fonction de l’objet et de la situation. Par exemple, si la voiture reconnaît un panneau d’arrêt, elle doit s’arrêter. Mais si une voiture détecte une personne, elle doit analyser où la personne se trouve et ce qu’elle est en train de faire. La personne se trouve-t-elle en sécurité sur le trottoir? La personne traverse-t-elle la rue? Tu peux t’imaginer que ce système se doit d’être très bon à faire son travail!

Voiture autonome détectant les véhicules autour d'elle
Voiture autonome détectant les véhicules autour d'elle. Les rectangles représentent les autres voitures détectées. (Source : 3alexd via iStockphoto).

Les voitures autonomes ne sont pas les seuls systèmes qui utilisent la reconnaissance d’images. L’application pour téléphone intelligent PlantNet en est un autre exemple. Elle permet aux gens d’identifier et trouver de l’information sur les différentes espèces de plantes. À l’aide de ton téléphone, tu prends une photo de la plante. Le système de reconnaissance d’image compare ta photo à beaucoup d’autres images de plantes. Il te fait ensuite des suggestions quant à l’identité de ta plante. Seek est une application similaire qui aide à identifier les animaux.

Devenez un citoyen scientifique avec iNaturalist (1 min) de la Fédération canadienne de la Faune (2018)

Technologies de reconnaissance faciale

La technologie de reconnaissance faciale (TRF) est une technologie qui identifie les visages humains. Le processus utilisé est semblable à la manière dont les humains se reconnaissent entre eux. Le système de reconnaissance faciale d’un ordinateur est semblable à ton propre système de reconnaissance faciale. Tu vois le visage de quelqu’un avec tes yeux. Un téléphone intelligent prend la photo du visage de quelqu’un avec sa caméra. Ton cerveau remarque les caractéristiques faciales et les emmagasine dans ta mémoire. C’est ce qui te permet de te souvenir des gens. Un ordinateur fait la même chose, mais à l’aide d’algorithmes.

Les visages sont uniques. Comme une empreinte digitale, on peut les mesurer et les comparer. Le terme utilisé pour la mesure des caractéristiques biologiques est la biométrie. Un logiciel de biométrie faciale mesure et schématise les parties d’un visage. Cela inclut des éléments tels que la couleur et la forme des yeux, du nez, de la bouche et du menton. On appelle ces mesures des points nodaux. Un schéma géométrique du visage d’une personne requiert environ 80 points nodaux.

Concept de reconnaissance faciale illustrant les points nodaux et les mesures
Concept de reconnaissance faciale illustrant les points nodaux et les mesures (Source : Grafissimo via iStockphoto).

 

L’image et les points nodaux sont ensuite écrits sous forme de code. On nomme ce code l’empreinte faciale ou la signature faciale. Une fois qu’une empreinte faciale est créée, elle peut être comparée à d’autres codes d’empreinte faciale dans une base de données d’images. Les empreintes faciales sont plutôt uniques, mais elles ne le sont pas autant qu’un balayage de l’iris. Un balayage de l’iris est une image de l’iris d’une personne. L’iris est la partie colorée de ton œil. Ton iris est unique, tout comme tes empreintes digitales. Il s’agit donc d’un bon moyen pour identifier quelqu’un.

Le savais-tu?

Les scanneurs d’iris utilisent environ 240 points nodaux.

De nombreux domaines utilisent maintenant les TRF. Leur domaine d’utilisation principal est la sécurité. Certains téléphones intelligents et verrous utilisent l’empreinte faciale ou le balayage de l’iris au lieu de mots de passe. L’avantage d’utiliser ainsi sa propre personne est que tu n’as pas à te souvenir de ton mot de passe!
 
La police peut utiliser les TRF pour identifier des criminels à partir d’une séquence de vidéo de surveillance. Les gouvernements peuvent utiliser les TRF pour confirmer l’identité d’une personne. Cela peut aussi être utilisé lors de l’émission de passeports ou à des postes de sécurité aux frontières ou à l’aéroport. Contrairement à ton visage, ton iris ne change pas avec le temps. Il peut donc être utilisé pour t’identifier tout au long de ta vie. Mais les lectures de l’iris ne sont pas aussi faciles à prendre que les empreintes faciales.

Reconnaissance faciale dans un aéroport
Reconnaissance faciale utilisée dans un aéroport (Source : izusek via iStockphoto).

Inquiétudes concernant les TRF

La TRF fonctionne plutôt bien, mais elle n’est pas toujours exacte. Le fait que les images ou les vidéos que nous prenons ne sont pas toujours claires est problématique. Les photos prises sous un mauvais éclairage peuvent influencer la capacité de la TRF à trouver une correspondance positive. Des changements de lunettes, de bijoux ou de cheveux ou barbe peuvent aussi affecter les TRF. Dans de telles situations, les correspondances résultantes peuvent être erronées. Grâce à de nouveaux logiciels pour les images 2D et 3D captées à partir de vidéos, les TRF sont en voie de s’améliorer. Certains systèmes permettent même de prendre en considération les changements au niveau des cheveux ou d’autres éléments utilisés pour se déguiser. Ces améliorations aideront à rendre les TRF plus exactes.

Un autre problème lié aux TRF concerne la qualité des données fournies à l’ordinateur. Les algorithmes utilisés pour analyser la biométrie sont alimentés avec des milliers de photos de personnes. Mais parfois, les ordinateurs ne reçoivent pas assez de données concernant certains groupes de personnes, notamment les groupes minoritaires. Cela peut mener à de fausses identifications. Si elles sont utilisées par la police, cela peut avoir de très graves répercussions sur la vie de ces gens. Voilà pourquoi on doit être prudents lorsqu’on utilise des technologies comme la TRF pour identifier des personnes. 

Le respect de la vie privée est aussi une préoccupation importante lorsqu’il est question de TRF. Notre apparence constitue une partie importante de notre identité. Dans certains cas, on est d’accord à ce que les autres possèdent des images de nous. Cela inclut des groupes comme le gouvernement qui nous fournit des pièces d’identité avec photo. Ce que l’on ne veut pas, c’est que des gens se servent de photos de nous à notre insu ou sans notre consentement. Par exemple, certaines villes de Chine utilisent la TRF pour humilier les gens. Le nom et la photo de personnes ayant contrevenu à la loi sont affichés sur de grands écrans. Toutefois, en Amérique du Nord, certaines villes ont déjà banni la reconnaissance faciale.

Quand la Chine identifiera 1,4 milliard d’habitants en une seconde (4 min 35 s) de Paris Match (2018)

Un des endroits où tu dois être prudent en ce qui concerne la TRF, c’est sur les médias sociaux. Savais-tu que lorsque tu publies une image sur les médias sociaux, tu leur donnes la permission de l’utiliser à leurs propres fins? Probablement pas. La TRF permet à ces compagnies de collecter et d’associer des visages avec des noms. Ce qu’ils font avec cette information n’est pas toujours très clair.

De plus en plus de systèmes de reconnaissance visuelle et d’objets sont introduits dans nos vies. Ces technologies peuvent nous offrir de la sécurité et nous permettre de faire des choses qu’on ne pouvait pas faire avant. Mais on doit être conscients que ces technologies peuvent aussi affecter notre liberté et notre vie privée. C’est à toi qu’il revient de contrôler quelle quantité d’informations personnelles tu partages. Cela inclut ton visage.

Il y a certaines choses que tu peux faire. Tu peux être attentif à qui prend des photos de toi et où ils et elles les publient. Et tu devrais toujours lire les politiques de protection des renseignements personnels pour toute plateforme de médias sociaux que tu utilises. Tu devrais aussi prêter attention aux nouvelles concernant les réglementations sur le respect de la vie privée dans ton pays. Être un citoyen informé ou une citoyenne informée, c’est toujours un choix intelligent!

Les opportunités

La vision par ordinateur offre des outils pouvant nous aider à résoudre certains problèmes et à améliorer nos vies. C’est le cas dans l’analyse d’imagerie médicale, avec certains systèmes qui diagnostiquent plus efficacement les cancers que les médecins. Ou encore, la technologie peut être utilisée pour aider les personnes malvoyantes à être plus autonomes.

OrCam MyEye2 (1 min 55 s) de I-MED Pharma

En savoir plus

Biométrie : pour le meilleur ou pour le pire ? (2016)
Cette vidéo (18 min 18 s) de Futurmag présente comment la biométrie est utilisée pour identifier les gens.

Comment l'intelligence artificielle va révolutionner la vie des malvoyants
Cet article Des Échos explique comment l’intelligence artificielle et la vision par ordinateur peut aider les personnes avec un handicap visuel dans leur vie quotidienne.

L’intelligence artificielle et les véhicules
Cet article de Parlons sciences présente comment on utilise les technologies de l’intelligence artificielle dans le monde des transports personnels.

Références

Bonsor, K. & Johnson, R. (n.d.) How Facial Recognition Systems Work. How Stuff Works.

Electronic identification (n.d.) (2020) Face Recognition: how it works and its safety.

Panda Security. (2019, October) The Complete Guide to Facial Recognition Technology

Symanovich, S. (2019, February 8th). How does facial recognition work? NortonLifeLock.