Aller au contenu principal

Découvrir des médicaments à l’aide de l’apprentissage machine

Personne en blouse blanche pointant vers le bouton AI

Personne en blouse blanche pointant vers le bouton AI (Suriphon Singha, Getty Images)

Personne en blouse blanche pointant vers le bouton AI

Personne en blouse blanche pointant vers le bouton AI (Suriphon Singha, Getty Images)

Quels sont les liens avec mon programme d'études?

Partager sur:

Découvre comment l’apprentissage machine est utilisé dans la découverte de protéines médicaments.

Chaque cellule dans le corps humain contient des protéines. Ces molécules font partie des éléments constitutifs du vivant. Le corps humain est composé de milliards de protéines, et elles sont essentielles pour nous aider à digérer la nourriture, à effectuer des mouvements et même à réfléchir. Les protéines contribuent à la construction et à la réparation des tissus de l’organisme. Elles permettent également au corps de fonctionner comme il le devrait. Il y a des milliers de protéines différentes dans le corps humain. Chacune a une ou plusieurs fonctions spécifiques.

Les protéines comme médicaments

De plus en plus de protéines sont maintenant utilisées dans le développement de médicaments pour traiter les maladies. Trouver une nouvelle protéine pour un médicament est souvent comme trouver une aiguille dans une meule de foin. Les scientifiques examinent des milliers de protéines présentes dans la nature jusqu’à en découvrir une qui se comporte au plus proche de leurs attentes. Puis vient le long et difficile processus de faire en sorte que la protéine produise ce qui est recherché dans le corps sans aucun effet négatif. Tout cela est ardu et nécessite beaucoup de temps et de ressources. Plus de la moitié du temps, le processus ne parvient pas à produire une protéine qui fonctionne.

Le problème du repliement des protéines

Les protéines sont fabriquées à partir de longues chaînes d’éléments constitutifs moléculaires appelés acides aminés. La plupart des protéines sont constituées de 20 types d’acides aminés différents. Les acides aminés peuvent se lier de différentes manières pour former des protéines ayant une variété de formes et de tailles. L’ordre des acides aminés détermine la structure tridimensionnelle d’une protéine. La structure détermine la fonction de la protéine dans le corps.

Shown is a colour illustration of proteins in dozens of shapes, sizes and colours, on a white background.
Images 3D d’une variété de protéines naturelles à l’intérieur et à l’extérieur d’une cellule (Source: Capture d’écran de la Protein Data Bank https://cdn.rcsb.org/pdb101/molecular-machinery/).
Image - Version texte

Une illustration en couleur montre des protéines dans des dizaines de formes, de tailles et de couleurs, sur un fond blanc.
Toutes les protéines ont une texture granuleuse, mais c’est la seule chose qu’elles ont en commun.
A gauche se trouvent de longues structures minces qui ressemblent à des fils bleus et violets torsadés. À côté, il y a des amas de ce qui ressemble à de la chapelure orange dispersée. Entre ceux-ci, il y a un enchevêtrement d’épais brins rouges. En dessous se trouve une sphère rose avec un motif qui ressemble à des fleurs floues. À droite se trouve quelque chose qui ressemble à un tube creux gris autour duquel des brins de différentes couleurs sont enroulés en amas. À droite, il y a des amas bleus et violets en forme de triangles, de carrés, d’anneaux et de flocons de neige. Au centre se trouve une bande épaisse qui ressemble à un damier sarcelle et violet. À côté, il y a deux brins épais et grumeleux torsadés bleu sarcelle et violet. À droite, il y a un épais brin grumeleux et rouge, torsadé à une extrémité. Totalement à droite se trouve ce qui ressemble à une longue vigne brune avec des amas verts sur sa longueur. Entre les deux, il y a des amas de petite et moyenne taille et de différentes formes. Leur couleur va du violet et rouge au violet et bleu sarcelle.

Déterminer l’ordre des acides aminés codés par les gènes humains représentait auparavant un travail considérable. Mais grâce au projet sur le génome humain, les scientifiques sont maintenant en mesure de le faire très rapidement. En revanche, ce qui ne peut être fait rapidement est de comprendre comment les chaînes d’acides aminés se replient et remplissent la fonction d’une protéine. C’est parce qu’il y a énormément de façons dont une protéine peut se replier.

Une illustration en couleur montre des protéines pendant les quatre étapes du repliement.
Étapes du repliement des protéines (Source: Adaptée d’une image par AMGEN. Utilisation avec permission).
Image - Version texte

Une illustration en couleur montre des protéines pendant les quatre étapes du repliement.
Le titre « Repliement d’une protéine » apparaît en caractères gras dans le haut au centre. En dessous se trouvent quatre petites illustrations comportant des descriptions.
La première illustration montre un mince brin noir avec des points espacés aux couleurs vives, comme des perles dans un collier. Les perles sont étiquetées « Acide aminé », et les brins entre elles sont étiquetés « Liaison peptidique ». La description se lit comme suit : « Structure primaire : La séquence linéaire des acides aminés forme une chaîne. »
Dans la deuxième illustration, les perles colorées sont maintenant espacées sur deux nouvelles surfaces. La première est un ruban bleu vif, enroulé en spirale. Elle est étiquetée « Hélice alpha ». La seconde est une longue feuille bleu pâle avec une flèche pointant vers le haut. Elle semble pliée comme un accordéon. Elle est étiquetée « Feuillet plissé bêta ». La description en dessous se lit comme suit : « Structure secondaire : De courts segments de la chaîne forment des structures 3D qui comprennent des hélices alpha et des feuillets bêta. »
Dans la troisième illustration, une spirale bleu vif et deux feuillets bleu pâle comme ceux de l’image précédente sont empilés, l’un sur les deux autres, à l’intérieur de ce qui ressemble à un nuage blanc floconneux. De minces brins noirs relient les extrémités de chaque feuillet, ainsi que de la spirale. La description se lit comme suit : « Structure tertiaire : La chaîne entière adopte sa forme 3D lorsque les segments se replient les uns à côté des autres. »
Dans la quatrième illustration, deux piles de feuillets et de spirales sont assemblées côte à côte dans un nuage blanc plus grand. La description se lit comme suit : « Structure quaternaire : Souvent plus d’une chaîne se réunissent pour former une structure protéique finale. »

Pour prédire comment une protéine pourrait se replier, il faut une énorme quantité de puissance de calcul. C’est là que l’intelligence artificielle (IA) et l’apprentissage machine (AM) peuvent aider.

L’apprentissage machine et le repliement des protéines

Le 22 juillet 2021, DeepMind, qui fait partie de Google, a publié une recherche sur les protéines et l’AM. L’AM a été utilisé pour prédire les structures d’environ 100 000 protéines. Les chercheurs ont utilisé un système appelé AlphaFold. AlphaFold utilise des données sur les protéines pour apprendre à prédire les structures protéiques. Même si les prédictions du modèle demeurent imparfaites, elles s’améliorent de jour en jour. RoseTTAFold est un outil similaire. Il a été développé par l’Institute for Protein Design (IPD) de l’Université de Washington.

Il est important de noter qu’il faut une très grande quantité de données sur les protéines pour aider à concevoir de nouvelles protéines médicaments. Ces données sont principalement recueillies à partir de tests de laboratoire et d’études cliniques sur des patients.

Protein folding explained (2020) par Google DeepMind (1 min 51 s) sous-titrés en français.

Les protéines et la biologie générative

Trouver et comprendre les protéines naturelles nécessite beaucoup de temps. Et si les scientifiques pouvaient trouver un moyen de concevoir des protéines médicaments plus rapidement et avec plus de succès? Ou mieux encore, et s’il leur était possible de sauter le processus de trouver une protéine dans la nature et de simplement en concevoir une à partir de zéro? C’est là qu’intervient la biologie générative.

La biologie générative consiste à utiliser des ordinateurs pour apprendre à partir de données à générer de nouvelles données.

Une illustration en couleur montre les étapes impliquées dans deux approches différentes de la découverte de protéines médicaments.
La découverte classique de protéines médicaments versus la biologie générative (Source: Adaptée d’une image par AMGEN. Utilisation avec permission).
Image - Version texte

Une illustration en couleur montre les étapes impliquées dans deux approches différentes de la découverte de protéines médicaments.


Le titre « Découverte de protéines médicaments » apparaît en caractères gras dans le haut. En dessous, l’illustration est divisée en deux sections.


La section de gauche est intitulée : « L’approche classique ». En commençant par le haut, la première illustration est une meule de foin étiquetée « Molécules à tester ». Une flèche verte pointe vers le bas jusqu’à trois éprouvettes remplies de liquide rouge. Ceux-ci sont étiquetés « Expériences en laboratoire humide ». Une autre flèche verte pointe vers le bas jusqu’à l’illustration finale, une unique aiguille à coudre. Celle-ci est étiquetée « Conception finale du médicament ».


La section de droite est intitulée : « L’approche générative : Dites à un modèle calculatoire ce que vous souhaitez et laissez-le proposer des conceptions à tester. » Autour de ce titre, un diagramme de forme ovale comporte des illustrations jointes par des flèches bleues.
Dans le haut de l’ovale se trouve une illustration d’une planchette à pince et d’un stylo. Celle-ci est étiquetée « Spécifications (liste de souhaits) ». À droite de celle-ci, une flèche pointe plus bas vers une illustration qui ressemble à deux toiles d’araignée reliées par des engrenages. Celle-ci est étiquetée « Modèle calculatoire ». L’étape suivante présente une illustration de trois aiguilles à coudre. Celle-ci est étiquetée « Conceptions de médicaments candidats ». Viennent ensuite trois éprouvettes de liquide rouge étiquetées « Expériences en laboratoire humide ». L’illustration finale est une unique aiguille à coudre. Celle-ci est étiquetée « Conception finale du médicament ». En haut de celle-ci, une flèche rejoint la première illustration.

Par exemple, les scientifiques peuvent utiliser des données sur les protéines pour entraîner des modèles calculatoires (ou modèles informatiques). Plus ces modèles seront alimentés en données, plus ils seront efficaces, rapides et performants. À l’avenir, les modèles calculatoires pourraient apprendre comment fabriquer n’importe quelle protéine que les gens pourraient vouloir.

Le savais-tu?

Le terme biologie générative vient des modèles que les scientifiques utilisent, lesquels sont désignés sous le nom de modèles informatiques génératifs.

Faire des liens

Prédire la structure des protéines n’est pas tout ce que RoseTTAFold et AlphaFold peuvent faire. Ils peuvent maintenant également modéliser comment les protéines se connectent (se lient) les unes aux autres. Être capable de voir comment les protéines se lient les unes aux autres est un aspect clé du développement de médicaments.

L’AM pourrait être utilisé pour créer des protéines spécifiques qui se lieraient à une cible spécifique, ce qui serait beaucoup plus rapide que de les fabriquer à partir de zéro en laboratoire.

Shown is a colour computer rendering of protein molecules at the membrane of a nerve cell.
Petites protéines se liant à une grande protéine réceptrice dans la membrane d’une cellule nerveuse (Source: JUAN GAERTNER/SCIENCE PHOTO LIBRARY via Getty Images).
Image - Version texte

Un rendu informatique en couleur montre des molécules de protéines à la membrane d’une cellule nerveuse.


Étirée horizontalement à travers l’illustration se trouve une épaisse couche de brins dorés serrés les uns contre les autres avec de petits amas mauve violacé le long des surfaces supérieure et inférieure. Celle-ci représente la couche de phospholipides d’une cellule. Au-dessus de cette couche, de petits groupes d’amas dorés flottent sur un fond bleu pâle. Ceux-ci représentent de petites protéines. Plus bas, deux grandes piles d’amas violets reposent sur la surface horizontale. Celles-ci représentent de plus grandes protéines incrustées dans la couche de phospholipides. En dessous de la couche, d’autres groupes d’amas violets flottent sur un fond bleu foncé, près de la surface horizontale inférieure. Ils représentent des protéines flottantes. Au centre de l’image, quelques amas dorés et quelques amas violets se sont joints à travers la couche horizontale. Ceux-ci représentent des protéines se liant ensemble dans la membrane (protéines transmembranaires).

L’espoir est que l’AM peut aider à déterminer quelles protéines sont utiles en moins d’étapes et avec moins de surprises. En diminuant le temps de recherche, les entreprises pharmaceutiques peuvent fournir des traitements aux personnes encore plus rapidement qu’auparavant.

Parlons sciences apprécie les contributions de Natasha Bond d’Amgen dans l’élaboration de ce document d’information.

Protéines - Qu’est-ce que c’est et quelle est leur fonction dans l’organisme
Cet article d'Eufic explique quels sont les éléments qui composent les protéines et leur fonction.

Protein Structure and Folding (2018)
Cette vidéo (7 min 45 s) réalisée par Amoeba sisters explore la structure et le repliement des protéines.

Introduction aux acides aminés
Cette série de ressources comprend des informations sur les acides aminés et la structure des protéines.

Références

Amgen. (2022, July 6). Generative Biology: Designing Biologic Medicines with Greater Speed and Success.

Beam, A. & Gibson, M. (2019, Nov. 11). The Coming Age of Generative Biology. Flagship Pioneering.

Callaway, E. (2020, November 30). “it will change everything”: Deepmind’s ai makes gigantic leap in solving protein structures. Nature News. https://www.nature.com/articles/d41586-020-03348-4

Dill, Ken A et al. The protein folding problem. Annual review of biophysics vol. 37 (2008): 289-316. DOI: 10.1146/annurev.biophys.37.092707.153558