Les scientifiques du Big Data Institute de l’Université d’Oxford au Royaume-Uni ont fait un grand pas vers le suivi de l’intégralité des relations génétiques entre les humains. Ils ont réussi à cartographier le plus grand arbre généalogique connu, dans une étude publiée ce vendredi (25), dans la revue scientifique la science.

Au cours des deux dernières décennies, des progrès extraordinaires ont été réalisés dans la recherche génétique humaine, permettant d’identifier et de stocker des données génomiques pour des centaines de milliers d’individus, y compris des personnes préhistoriques.

Visualiser les lignées ancestrales humaines déduites à travers le temps et l’espace. Chaque ligne représente une relation ancêtre-descendant dans notre généalogie déduite des génomes modernes et anciens. La largeur des lignes correspond au nombre de fois où la relation est observée et les couleurs sont déterminées en fonction de l’âge estimé de l’ancêtre. Image : Yan Wong et son équipe via Science

Cela signifie un fort espoir de retracer les origines de la diversité génétique humaine pour produire une carte complète de la façon dont les individus à travers le monde sont liés les uns aux autres.

Trouver un moyen de combiner des séquences génomiques à partir de nombreuses bases de données différentes et développer des algorithmes pour gérer autant d’informations semblaient être deux grands défis. Cependant, cette nouvelle approche a pu combiner facilement des données provenant de plusieurs sources et échelles pour accueillir des millions de séquences génomiques.

Yan Wong, généticien évolutionniste pour Big Data, est l’un des principaux auteurs de l’étude. « Nous avons essentiellement construit un immense arbre généalogique, une généalogie pour toute l’humanité, qui modélise exactement l’histoire qui a généré toutes les variations génétiques que nous trouvons chez les humains aujourd’hui », dit-il. « Cette généalogie nous permet de voir comment la séquence génétique de chaque personne se rapporte à toutes les autres, le long de tous les points du génome. »

Étant donné que les régions génomiques individuelles sont héritées d’un seul parent, soit la mère, soit le père, l’ascendance de chaque point du génome peut être considérée comme un arbre. L’ensemble d’arbres, connu sous le nom de «séquence d’arbres» ou «graphe de recombinaison ancestrale», relie les régions génétiques dans le temps aux ancêtres où la variation génétique est apparue pour la première fois.

« Essentiellement, nous reconstruisons les génomes de nos ancêtres et les utilisons pour former un vaste réseau de relations. Nous pouvons alors estimer quand et où ces ancêtres ont vécu », a déclaré Anthony Wilder Wohns, auteur principal, qui a fait la recherche pour son doctorat en Big Data et est maintenant chercheur postdoctoral à Harvard. « La puissance de notre approche est qu’elle fait très peu d’hypothèses sur les données sous-jacentes et peut également inclure des échantillons d’ADN modernes et anciens. »

L’étude a intégré des données sur les génomes humains modernes et anciens provenant de huit bases de données différentes et comprenait un total de 3 609 séquences génomiques individuelles de 215 populations.

Le plus grand arbre généalogique de l’histoire remonte à plus de 100 000 ans

Parmi les anciens génomes se trouvaient des échantillons trouvés dans le monde entier dont l’âge variait de 1 000 à plus de 100 000 ans. Les algorithmes ont prédit où les ancêtres communs doivent être présents dans les arbres évolutifs pour expliquer les modèles de variation génétique. Le réseau résultant contenait près de 27 millions d’ancêtres.

Après avoir ajouté des données de localisation à partir de ces échantillons de génomes, les auteurs ont utilisé le réseau pour estimer où les ancêtres communs prédits avaient vécu. Les résultats ont capturé avec succès des événements clés de l’histoire de l’évolution humaine, y compris la migration hors d’Afrique.

Alors que la carte généalogique est déjà une ressource extrêmement riche, l’équipe de recherche compte la rendre encore plus complète en continuant d’y intégrer les données génétiques au fur et à mesure de leur disponibilité.

Comme les séquences d’arbres stockent les informations de manière très efficace, la base de données pourrait facilement accueillir des millions de génomes supplémentaires. « Cette étude jette les bases de la prochaine génération de séquençage d’ADN. Au fur et à mesure que la qualité des séquences génomiques des échantillons d’ADN modernes et anciens s’améliore, les arbres deviendront encore plus précis et nous pourrons éventuellement générer une seule carte unifiée qui explique la descendance de toutes les variations génétiques humaines que nous voyons aujourd’hui. Wang.

