L’IA va bien au-delà d’un simple chatbot, elle transforme l’étude de la génétique

La IA es mucho más que un chatbot que te responde, este modelo puede revolucionar el estudio de la genética

Evo 2 se distingue comme un modèle d’intelligence artificielle spécialisé dans le langage de l’ADN. Son ambition est d’interpréter des séquences génétiques et de proposer des séquences nouvelles avec une pertinence biologique, offrant des applications prometteuses dans divers domaines.

LIA va bien au dela dun simple chatbot elle transforme letude

Evo 2 est un modèle d’intelligence artificielle conçu pour travailler avec le langage de l’ADN. Comme un grand modèle de langage qui apprend des motifs à partir de textes, ici les lettres sont des nucléotides : A, C, G et T. Son objectif est d’interpréter la signification d’une séquence génétique et, dans certains cas, de proposer de nouvelles séquences biologiquement pertinentes.

La nouveauté réside non seulement dans l’ampleur du projet, mais aussi dans l’approche du modèle généralisé appliqué à la biologie. Plutôt que de créer une IA pour une tâche précise, l’idée est d’entraîner une base généraliste utilisant un grand nombre de génomes, afin de la réutiliser pour la prédiction de variantes, l’analyse de régions régulatrices, ou la conception de séquences pour la biotechnologie et la santé.

Une IA de dimensions colossales

Evo 2 a été entraîné sur un volume immense de données génomiques. Dans l’étude concernant ce modèle d’IA, ses auteurs décrivent un entraînement sur plus de 9 billions de nucléotides et l’utilisation du dataset OpenGenome2, incluant environ 8,8 billions de tokens d’origines diverses. Ce qui est essentiel, c’est qu’il ne se limite pas aux micro-organismes, mais couvre des bactéries, archées, eucaryotes et virus, avec un vaste catalogue de génomes complets. Selon l’étude, cette échelle permet de capturer des motifs invisibles dans de petits fragments.

De plus, il peut traiter jusqu’à un million de nucléotides simultanément, l’équivalent d’environ une méga-base. Ceci permet de modéliser des relations à longue distance au sein d’un génome, ce qui est pertinent car de nombreux effets biologiques dépendent de la régulation de régions éloignées dans la séquence, et non d’un seul gène. Cette capacité repose sur une architecture nommée StripedHyena 2, conçue pour gérer des séquences très longues plus efficacement que les méthodes classiques.

Comment cela peut-il aider l’humanité

Mais, quelles en sont les retombées pour nous ? D’une part, pour les tâches de prédiction, puisque le modèle peut évaluer l’impact de changements génétiques et détecter des signaux fonctionnels tels que des sites de splicing, des régions régulatrices ou des limites d’éléments génétiques. Il peut également être utilisé pour analyser des variantes de gènes liés à des maladies, comme BRCA1 et le cancer du sein, où l’on cherche à différencier les mutations susceptibles d’être problématiques de celles qui ne le sont pas.

D’autre part, l’aspect génératif. Evo 2 ne se limite pas à classer ou prédire, il propose aussi de nouvelles séquences. Cela permet la génération à grande échelle de séquences génomiques dans différents types d’organismes. L’application typique consiste à concevoir des fragments d’ADN ayant une fonction précise, comme des éléments régulateurs pour activer ou désactiver des gènes dans des contextes spécifiques. En laboratoire, cela n’est pas validé uniquement par les réponses du modèle, mais par des expériences, et une IA de ce type peut considérablement réduire la phase d’essais et erreurs.

Enfin, un point crucial du travail est l’ouverture. L’équipe déclare avoir publié les poids, le code d’entraînement et d’inférence ainsi que le dataset, dans le but que d’autres chercheurs reproduisent les résultats et construisent des outils supplémentaires. Ils mettent également en avant des mesures de biosécurité, telles que l’exclusion de certains pathogènes humains du processus d’entraînement, afin de limiter les usages abusifs. À l’heure actuelle, la science est entravée par des licences, donc cette approche pourrait faciliter le travail d’autres chercheurs et bénéficier à l’humanité sur le long terme.