Une IA de Google s’attèle à décrypter le « Dark genome », une des parties les plus mystérieuses de l’ADN

4 min de lecture

AlphaGenome est un nouveau modèle d’intelligence artificielle développé par Google DeepMind qui a pour but de décrypter le génome humain. Présenté comme « surpass[ant] les meilleurs modèles existants sur 22 des 24 tâches de prédiction de signaux moléculaires », il fait l’objet d’une publication dans Nature.

Comprendre l’impact des variants non codants

Au sein de nos 23 paires de chromosomes, « seuls 1% à 2% de ces longues séquences codent directement pour la fabrication des protéines ». Les 98% restants, parfois appelés « dark genome », jouent un rôle de régulateur. L’impact des variants non codants est « particulièrement difficile à prédire » « en raison de la diversité des effets moléculaires qu’ils peuvent induire ».

L’enjeu pour AlphaGenome est de comprendre « comment des modifications dans cette partie du génome se traduisent en effets biologiques ». Dans un communiqué, les chercheurs affirment qu’« AlphaGenome peut être une ressource précieuse pour la communauté scientifique, aidant les scientifiques à mieux comprendre la fonction du génome, la biologie des maladies et, en fin de compte, à stimuler de nouvelles découvertes biologiques et le développement de nouveaux traitements ».

AlphaGenome a ainsi été entraîné sur un génome humain de référence et un de souris, « enrichi par des milliers de mesures expérimentales décrivant l’activité de l’ADN ». Ernest Mordret, bio-informaticien à l’Institut Pasteur, explique : « Les auteurs ont ensuite relié plusieurs éléments pour comprendre l’impact des modifications génétiques. Que ce soit l’expression des gènes, l’organisation spatiale du génome ou encore l’ouverture de la chromatine (processus qui régule l’expression des gènes) ».

La détection de variants rares impliqués dans certaines maladies génétiques

AlphaGenome a la faculté de prédire simultanément 5 930 signaux génétiques humains pouvant être liés à l’expression des gènes, comme à toutes les parties non codantes de l’ADN. Or, jusqu’à présent, « les méthodes existantes [devaient] arbitrer entre la longueur de la séquence en entrée et la finesse de la résolution des prédictions, ce qui limitaient la diversité des signaux qu’elles pouvaient modéliser et leurs performances », expliquent les auteurs. Désormais, on peut « prédire avec précision les fonctions de longs brins d’ADN allant jusqu’à un million de paires de bases » et il est donc possible de détecter des variants rares impliqués dans certaines maladies ou encore de comprendre des mécanismes pathologiques comme l’activation d’un gène impliqué dans certaines leucémies.

Des maladies génétiques telles que l’amyotrophie spinale et certaines formes de mucoviscidose peuvent être causées par des erreurs d’épissage [1] de l’ADN. Les chercheurs affirment qu’AlphaGenome aurait permis de « modéliser avec précision la localisation et le niveau d’expression de ces modifications ».

Un outil d’interprétation, pas de diagnostic

L’IA est disponible sur les serveurs Google et sert d’outil de recherche. DeepMind souhaiterait en élargir l’accès afin de le rendre opérationnel pour les équipes scientifiques. Les chercheurs précisent néanmoins que ce type de modèle n’a pas pour vocation un usage médical direct, les prédictions servant à interpréter des variants, non à poser des diagnostics individuels.

« La diversité génétique entre deux individus fait qu’un même variant ne produira pas forcément le même effet chez l’un et chez l’autre, ce que le modèle ne peut pas vraiment capturer tant qu’il reste calé sur ce génome de référence », pointe Ernest Mordret. Par ailleurs l’outil « se limite aux conséquences moléculaires des variants sans permettre, à lui seul, de prédire des traits complexes ou des maladies à l’échelle de l’organisme ».

Des pistes d’améliorations

Une autre approche utilise des modèles « entraînés sur d’immenses collections de génomes de bactéries et d’eucaryotes, qui apprennent surtout à reconnaître si une séquence paraît « normale » ou « surprenante » dans son contexte évolutif ». « Une démarche complémentaire, selon Ernest Mordret. Ce sont des approches moins ciblées sur le génome humain qui cherchent plutôt à capturer les grandes régularités de l’ADN à l’échelle du vivant, avant de les transférer à des tâches plus spécifiques. »

AlphaGenome pourrait, lui, être amélioré par l’augmentation des données d’entraînement, le nombre d’espèces prises en compte ou encore la gamme des séquences non codantes reconnues par l’IA.

[1] Etape de la fabrication des protéines

Sources de la synthèse de presse : Trust my science, Valisoa Rasolofo (29/01/2026) ; Le Figaro, Vincent Bordenave (29/01/2026)