Nos codes génétiques contrôlent non seulement les protéines produites par nos cellules, mais aussi – dans une large mesure – la quantité produite. C’est la découverte, révolutionnaire, applicable à toute vie biologique, d’une équipe de bioingénieurs de la Chalmers University of Technology (Suède). Menés avec l’aide de supercalculateurs et de l’intelligence artificielle (IA), ces recherches publiées dans la revue Nature Communications, contribuent également à dissiper certains « mystères du cancer ».
Les chercheurs ont d’abord travaillé sur de l'ADN de levure. Ils ont développé des algorithmes d'auto-apprentissage, sous forme de réseaux de neurones artificiels, pour prédire la relation entre ces données génétiques et la quantité moyenne de protéines dans les cellules. Ils ont pu ainsi constater que l’ADN déterminait en grande partie l’expression des gènes, soit la quantité de protéines produite.
Alors que jusqu'à présent, le facteur déterminant la quantité de protéines produite restait mal compris, une seule cellule pouvant contenir de quelques molécules d'une protéine donnée à des dizaines de milliers, cette nouvelle recherche ajoute doublement à la compréhension des processus sous-jacents à l'expression génique : non seulement la recherche décrypte les liens entre le code ADN lui-même et l’expression génique mais démontre que ces données peuvent être lues à l'aide de superordinateurs et de l’IA.
82% de la variation de l'expression génique peut être prédite à partir de l’ADN.
Les chercheurs ont ensuite testé leur principe d’algorithme sur 6 autres organismes, dont les humains, et ont abouti à une association moyenne entre l'expression génique et le code génétique de 60%. D'autres analyses de l'expression de gènes individuels montrent que ce qui contrôle le niveau est la présence de certaines combinaisons de motifs dans le code ADN, qui peuvent être trouvées dans différentes parties du code – à la fois dans les régions codantes et non codantes.
Des combinaisons et des motifs récurrents : des modèles constitués des 4 blocs de construction moléculaires ou nucléobases A, C, G et T, sont associés à l'expression des gènes, c’est-à-dire à la quantité de protéines produites. L’auteur principal, le Pr Aleksej Zelezniak, du département de biologie et de génie biologique de Chalmers, commente la découverte : « On pourrait comparer cela à une partition d’orchestre. Les notes décrivent les hauteurs que les différents instruments doivent jouer. Mais les notes à elles seules ne font pas la musique. Des informations sur le tempo et la dynamique sont également nécessaires. Ici, la génétique diffuse cette information sur de larges zones de la molécule d'ADN. Auparavant, nous pouvions lire les notes, mais nous ne savions pas comment jouer la musique. Maintenant, nous pouvons faire les deux ».
« Nous avons trouvé les règles de grammaire du langage génétique »
Quelle est donc cette grammaire, qui détermine la quantité d'expression génique ? Cette grammaire prend la forme de combinaisons et motifs récurrents construits à partir des blocs de construction moléculaires désignés A, C, G et T. Les relations entre ces motifs, c’est-à-dire à quelle fréquence ils se répètent et à quelles positions exactes ils apparaissent dans le code ADN sont essentielles. Et ces informations figurent à la fois sur les parties codantes et non codantes de l'ADN (Junk ADN ou ADN poubelle).
Une règle de toute vie biologique : s’il existe d'autres facteurs qui affectent également l'expression des gènes des cellules (dont les facteurs épigénétiques), ces informations incorporées dans le code génétique représentent environ 80% du processus. L’équipe valide ce mécanisme sur 7 organismes modèles différents (levure, bactéries, mouche des fruits, souris et humains). La découverte est donc universelle, valable pour toute vie biologique.
Encore une fois, la découverte n’aurait pas été possible sans le recours à l’IA et aux supercalculateurs qui ont permis l’analyse de milliers de positions en même temps et « une sorte d'examen automatisé de l'ADN ». Grâce à l'IA en effet, le système peut apprendre par lui-même, en identifiant les différents motifs et combinaisons de motifs pertinents pour l'expression des gènes. Une méthode qui pourrait devenir un outil important dans plusieurs domaines de recherche, génétique et recherche évolutive, biologie des systèmes, médecine et biotechnologie.
Des implications pour le traitement et la prévention des cancers : ces travaux vont permettre de mieux comprendre aussi, et avec des applications plus immédiates, comment les mutations peuvent affecter l'expression des gènes dans la cellule et donc, à terme, comment les cancers apparaissent et se développent.
Source: Nature Communications December 2020 DOI : 10.1038/s41467-020-19921-4 Deep learning suggests that gene expression is encoded in all parts of a co-evolving interacting gene regulatory structure
Plus sur Cancer Blog
Laisser un commentaire