Échantillons et séquençage

Nous avons généré des séquences génomiques pour 10 échantillons qui ont été recueillis sur trois sites de l’Est de l’Angleterre près de Cambridge : Hinxton (cinq échantillons, figure supplémentaire 1), Oakington (quatre échantillons, figure supplémentaire 2) et Linton (1 échantillon), qui ont été sélectionnés parmi un total de 23 échantillons sélectionnés sur la base de la préservation de l’ADN (figure 1b, tableau 1, tableau supplémentaire 1, note supplémentaire 1). Tous les échantillons séquencés ont été datés au radiocarbone (tableau supplémentaire 2), et se répartissent en trois périodes : l’échantillon de Linton et deux échantillons de Hinxton datent de la fin de l’âge du fer (∼100 avant notre ère), les quatre échantillons d’Oakington du début de la période anglo-saxonne (cinquième à sixième siècle), et trois échantillons de Hinxton du milieu de la période anglo-saxonne (septième à neuvième siècle ; Fig. 1c). Les deux échantillons de l’âge du fer provenant de Hinxton sont masculins, tous les autres échantillons sont féminins, sur la base de la couverture du chromosome Y et en accord avec l’archéologie. Tous les échantillons ont été séquencés à une couverture génomique allant de 1x à 12x (Tableau 1). Tous présentent des taux de contamination inférieurs à 2 %, estimés à la fois à partir de l’ADN mitochondrial et de l’ADN nucléaire (tableau supplémentaire 3, note supplémentaire 2). Les haplogroupes mitochondriaux et du chromosome Y de tous les échantillons font partie des haplogroupes les plus courants dans l’Europe du Nord-Ouest actuelle (tableau 1)11,12 et, dans ce cas, ne sont pas informatifs pour distinguer l’ascendance immigrée de l’ascendance indigène.

Tableau 1 Un résumé de tous les échantillons séquencés dans cette étude.

Nous avons généré un graphique en composantes principales des 10 échantillons anciens avec les populations européennes pertinentes sélectionnées à partir de données publiées13,14 (figure supplémentaire 3). Les échantillons anciens se situent dans la gamme des échantillons anglais et écossais modernes, les échantillons de l’âge du fer de Hinxton et de Linton étant plus proches des échantillons anglais et français modernes, tandis que la plupart des échantillons de l’ère anglo-saxonne sont plus proches des échantillons écossais et norvégiens modernes. Dans l’ensemble, cependant, les différences génétiques de population entre ces échantillons à des allèles communs sont faibles.

Estimation de la composante anglo-saxonne dans la Grande-Bretagne moderne

Alors que l’analyse en composantes principales peut révéler une structure de population relativement ancienne, telle que générée par des modèles d’isolement par distance à long terme15, les séquences du génome entier nous permettent d’étudier des variantes rares pour avoir un aperçu de la structure de population plus récente. Nous avons identifié des variants rares dont la fréquence allélique peut atteindre 1 % dans un panel de référence de 433 individus européens provenant de la Finlande, de l’Espagne, de l’Italie, des Pays-Bas et du Danemark modernes, pour lesquels des données de séquences pangénomiques sont disponibles16,17,18. Nous avons déterminé pour chaque échantillon ancien le nombre de variants rares partagés avec chaque population de référence (note supplémentaire 3). Il existe des différences frappantes dans les schémas de partage des échantillons, illustrées par le rapport entre le nombre d’allèles rares partagés avec les individus néerlandais et le nombre partagé avec les individus espagnols (Fig. 2a). Les échantillons anglo-saxons moyens de Hinxton (HS1, HS2 et HS3) partagent relativement plus de variantes rares avec le néerlandais moderne que les échantillons de l’âge du fer de Hinxton (HI1 et HI2) et de Linton (L). Les échantillons anglo-saxons précoces d’Oakington sont plus diversifiés, O1 et O2 étant plus proches des échantillons anglo-saxons moyens, O4 présentant le même schéma que les échantillons de l’âge du fer, et O3 montrant un niveau intermédiaire de partage d’allèles, suggérant une ascendance mixte. Les différences entre les échantillons sont les plus élevées dans les allèles de basse fréquence et diminuent avec l’augmentation de la fréquence de l’allèle. Cela est cohérent avec les mutations de fréquence plus faible en moyenne étant plus jeunes, reflétant une ascendance distincte plus récente, par rapport aux mutations de fréquence plus élevée reflétant une ascendance partagée plus ancienne.

Figure 2 : Partage relatif des allèles rares entre les échantillons anciens et modernes.
figure2

(a) Le rapport du nombre d’allèles rares partagés avec les échantillons modernes néerlandais et espagnols en fonction du nombre d’allèles dans l’ensemble des échantillons modernes. Les codes des échantillons anciens (sections de gauche et du milieu) sont définis dans le tableau 1. Les résultats des individus britanniques actuels (section de droite) sont une moyenne sur 10 individus de chaque sous-population. Les résultats d’un individu néerlandais et d’un individu espagnol sont présentés à titre de comparaison. Les barres d’erreur sont calculées à partir des statistiques de comptage brutes et en utilisant la propagation s.e. (section Méthodes). (b) La fraction relative des allèles rares partagés avec les allèles néerlandais modernes par rapport aux allèles espagnols, intégrés jusqu’au nombre d’allèles cinq dans les échantillons modernes. Les échantillons de l’âge du fer et anglo-saxons marquent les deux extrêmes sur cette projection, tandis que les échantillons modernes sont répartis entre eux, ce qui indique des niveaux mixtes d’ascendance anglo-saxonne, qui est en moyenne plus élevée dans l’est de l’Angleterre qu’au Pays de Galles et en Écosse, avec un large chevauchement. Deux échantillons anglo-saxons précoces provenant d’Oakington ont été exclus du calcul de la moyenne, indiqués par des cercles vides, car ils présentent des signes de mélange (O3) ou d’ascendance non immigrée (O4). Un échantillon moderne d’Écosse est également exclu, indiqué par un cercle vide, car il est clairement aberrant par rapport à tous les autres échantillons écossais. Les échantillons sont représentés avec un décalage vertical aléatoire pour une meilleure clarté. Les barres d’erreur (section Méthodes) pour les échantillons modernes sont omises ici, mais du même ordre de grandeur que pour les échantillons anciens. Les données pour cette figure sont disponibles en tant que données supplémentaires 1.

Nous avons également examiné en utilisant la même méthode 30 échantillons modernes du projet UK10K19, 10 chacun avec des lieux de naissance dans l’est de l’Angleterre, au Pays de Galles et en Écosse. Dans l’ensemble, ces échantillons sont plus proches des échantillons de l’âge du fer que de ceux de l’ère anglo-saxonne (Fig. 2a). Il existe une différence faible mais significative entre les valeurs moyennes dans les trois groupes d’échantillons britanniques modernes, les échantillons de l’Angleterre de l’Est partageant légèrement plus d’allèles avec les Néerlandais, et les échantillons écossais ressemblant davantage aux échantillons de l’âge du fer.

Pour quantifier les fractions d’ascendance, nous avons ajusté les échantillons britanniques modernes avec un modèle de mélange de composants anciens, en plaçant tous les échantillons sur un axe linéaire de partage relatif des allèles néerlandais qui intègre les données des nombres d’allèles 1-5 (Fig. 2b, note supplémentaire 3). Selon cette mesure, les échantillons de l’Est de l’Angleterre sont cohérents avec 38% d’ascendance anglo-saxonne en moyenne, avec un écart important entre 25 et 50%, et les échantillons gallois et écossais sont cohérents avec 30% d’ascendance anglo-saxonne en moyenne, là encore avec un écart important (tableau supplémentaire 4). Ces chiffres sont inférieurs en moyenne si l’on exclut du groupe anglo-saxon l’individu HS3 à faible couverture (35% pour les échantillons de l’est de l’Angleterre). Un résultat similaire est obtenu lorsque nous analysons les échantillons britanniques modernes du projet 1 000 génomes, qui présentent une forte sous-structure (note supplémentaire 4, figure supplémentaire 4). Nous constatons que les échantillons du Kent présentent une composante anglo-saxonne similaire de 37% lorsqu’ils sont comparés aux outgroups finlandais et espagnols, avec une valeur inférieure pour les échantillons de Cornouailles (figure supplémentaire 5a, tableau supplémentaire 4).

Une approche alternative et potentiellement plus directe pour estimer ces fractions consiste à mesurer le partage des allèles rares directement entre les échantillons britanniques modernes et les échantillons anciens. Bien qu’elle soit beaucoup plus bruyante que l’analyse utilisant les outgroupes néerlandais et espagnols, cette méthode donne des résultats cohérents (figure supplémentaire 5b, note supplémentaire 3). En résumé, cette analyse suggère qu’en moyenne 25-40% de l’ascendance des Britanniques modernes a été apportée par des immigrants anglo-saxons, avec un nombre plus élevé dans l’Est de l’Angleterre, plus proche de la source d’immigration. La différence entre les groupes au sein de la Grande-Bretagne est étonnamment faible par rapport aux grandes différences observées dans les échantillons anciens. Cela est vrai à la fois pour les échantillons UK10K et pour les échantillons britanniques du projet 1 000 génomes, même si nous notons que les emplacements des échantillons UK10K peuvent ne pas refléter pleinement la structure géographique historique de la population en raison du mélange récent de la population.

Une mise en garde de notre analyse est que nous utilisons les trois échantillons de l’âge du fer du Cambridgeshire comme proxies pour la population britannique indigène, qui était sans doute structurée, bien qu’il semble raisonnable de les prendre comme représentants au moins pour l’est de l’Angleterre. En outre, toute contribution génétique continentale de la période romano-britannique serait prise en compte dans la composante anglo-saxonne attribuée, tout comme une contribution scandinave ou normande de la fin de l’Anglo-Saxon. Cependant, ces effets ne seraient forts que si la contribution était importante et fortement biaisée sur l’axe néerlandais-espagnol.

Construction d’un modèle d’histoire de la population à partir de variantes rares

Pour obtenir un meilleur aperçu de l’histoire sous-jacente à ces modèles de partage, nous avons développé une nouvelle méthode sensible, rarecoal, qui ajuste un modèle démographique à la distribution conjointe des allèles rares dans un grand nombre d’échantillons (notes supplémentaires 5 et 6). Notre stratégie consiste à construire un modèle sous la forme d’une phylogénie de population de la relation entre les populations européennes modernes, dans lequel nous pouvons placer les échantillons anciens. Nous reconnaissons qu’un modèle sans mélange et sans flux génétique post-split est inadéquat comme description complète de l’histoire de la population européenne. Cependant, il s’agit d’un modèle naturel simplifié, et l’objectif de cette étude est de comprendre les relations génétiques des immigrants et des populations indigènes en Angleterre, pour lesquelles ce modèle de phylogénie de population fournit un échafaudage raisonnable.

L’idée clé est de modéliser explicitement l’incertitude du passé de la distribution des allèles dérivés, mais d’approcher la distribution correspondante pour les allèles non dérivés par son espérance (figure 3a). Comme rarecoal modélise explicitement les mutations rares, il estime les séparations dans le temps de l’horloge des mutations plutôt que dans le temps de la dérive génétique, contrairement aux méthodes basées sur les changements de fréquence des allèles dans les variants communs20. Nous avons d’abord testé rarecoal sur des données simulées et nous avons constaté qu’il était capable de reconstruire les temps de séparation et les tailles de population des branches avec une bonne précision (figure 3b), en faisant correspondre presque exactement le partage des allèles (figure supplémentaire 6). Nous avons également testé sa robustesse avec une taille d’échantillon plus petite dans une seule population (comme dans les échantillons danois étudiés ici), et sous admixture (note supplémentaire 5, figure supplémentaire 7).

Figure 3 : Modélisation de l’histoire européenne avec rarecoal.
figure3

(a) Rarecoal suit les probabilités pour les lignées d’allèles rares (rouge) dans un cadre coalescent en remontant dans le temps, et approxime la distribution des allèles non dérivés (bleu foncé) par sa moyenne. (b) En optimisant la vraisemblance des données sous le modèle, nous pouvons estimer la taille des populations et les temps de division. Testées avec des données simulées, les estimations correspondent étroitement aux valeurs réelles (entre parenthèses). (c) Appliqué à des centaines d’individus européens, rarecoal estime les temps de division comme indiqué sur l’axe du temps et les tailles de population pour chaque branche. (d) Identique à c, mais en utilisant des échantillons du Kent au lieu des Cornouailles comme substitut de la population britannique. La topologie différente de l’arbre entre c et d reflète des histoires de population différentes en Cornouailles par rapport au Kent dans le sud de l’Angleterre.

Nous avons ensuite appliqué rarecoal à 524 échantillons provenant de six populations en Europe (Fig. 3c,d) pour estimer un arbre démographique européen dans lequel nous pourrions placer les échantillons anciens. Étant donné que les échantillons britanniques du projet 1 000 génomes se répartissent en trois groupes distincts, reflétant trois emplacements d’échantillons (du Kent, des Cornouailles et des îles Orcades, dans le cadre du projet Peoples of the British Isles4,21, note supplémentaire 4)16, nous avons adapté différents arbres à ces différents groupes (figure supplémentaire 8). La caractéristique commune aux trois arbres est une première séparation entre l’Europe du Sud et l’Europe du Nord avec un temps médian ∼7 000 ans, suivie de trois autres séparations proches dans le temps ∼5 000 ans entre les Pays-Bas, le Danemark, la Finlande et la Grande-Bretagne. Il est intéressant de noter qu’en utilisant les échantillons britanniques de Cornouailles, nous avons obtenu un arbre où la Cornouaille forme un outgroupe à la population néerlandaise, danoise et finlandaise (Fig. 3c). En revanche, lorsque nous utilisons le Kent, il forme un clade avec la population néerlandaise (Fig. 3d), ce qui est cohérent avec une ascendance anglo-saxonne plus élevée dans le sud de l’Angleterre qu’en Cornouailles. Lorsque nous utilisons la population des Orcades comme branche britannique, nous trouvons une topologie d’arbre similaire à celle de la Cornouaille. Ces résultats montrent que la Cornouailles et les Orcades ont une parenté plus lointaine avec l’Europe continentale que le Kent. La taille effective de la population de la branche de pointe est la plus faible en Finlande (∼12 000), ce qui correspond aux observations précédentes22,23, et la plus élevée dans le Kent (∼191 000) et aux Pays-Bas (∼184 000). Pour les données européennes, l’ajustement du partage des allèles est moins bon que pour les données simulées (figure supplémentaire 9), vraisemblablement en raison des hypothèses simplificatrices du modèle, à savoir une taille de population constante dans chaque branche et l’absence de migration.

L’estimation relativement récente du moment de la séparation entre l’Italie et l’Espagne, ∼2 600 ans, peut être une conséquence de la migration après une séparation antérieure ; la taille de la population ancestrale italo-espagnole a été estimée comme étant extrêmement importante et une limite supérieure n’a pas pu être déterminée, ce qui pourrait être un artefact de sous-structure ancestrale ou d’admixture. Une autre explication serait une source commune de mélange dans la population espagnole et italienne, résultant en une ascendance commune relativement récente. Nous montrons dans la figure supplémentaire 7 comment l’admixture peut modifier les estimations de rarecoal de la taille effective de la population et les temps de division.

Modélisation de l’ascendance des génomes anciens à l’aide de rarecoal

En plus de reconstruire la relation européenne plus large à partir d’un grand ensemble d’échantillons, rarecoal peut être utilisé pour évaluer la relation d’un seul échantillon ancien avec l’arbre européen. Pour ce faire, nous supposons un modèle dans lequel la population ancestrale de l’échantillon unique fusionne avec l’arbre européen sur une branche particulière à un moment particulier avant la date d’origine de l’échantillon. Nous pouvons alors utiliser rarecoal pour évaluer la probabilité des données de partage d’allèles conjointes entre l’échantillon ancien et les populations modernes sous chaque modèle, spécifié par la branche et le moment de fusion dans l’arbre (Fig. 4, note supplémentaire 5). Il y a une différence marquée entre les échantillons de l’âge du fer et ceux de l’ère anglo-saxonne : les échantillons de l’ère anglo-saxonne ont principalement fusionné sur les branches néerlandaise et danoise, alors que les échantillons de l’âge du fer ont préférentiellement fusionné à la base de la branche ancestrale pour tous les échantillons modernes d’Europe du Nord. L’exception est que l’échantillon O4 du début de la période anglo-saxonne présente le même signal que les échantillons de l’âge du fer, ce qui est cohérent avec l’analyse du partage des allèles rares (Fig. 2). Pour l’échantillon O3, qui semblait être d’ascendance mixte dans l’analyse de partage des allèles, nous trouvons la plus forte probabilité de fusion avec la branche danoise. Cependant, dans cet échantillon, il y a également une probabilité nettement plus élevée de fusionner avec le même point de branchement ancestral d’Europe du Nord que celui observé pour les échantillons de l’âge du fer. Ceci est cohérent avec le fait que O3 est d’origine mixte indigène et anglo-saxonne récente, bien que nous ne puissions pas exclure des scénarios plus complexes impliquant une ascendance mixte antérieure de cet individu pendant la période romano-britannique. Il existe une certaine différenciation parmi les échantillons de l’ère anglo-saxonne, les échantillons O1, O2, HS1 et HS3 ayant la plus forte probabilité de fusionner avec la branche néerlandaise, tandis que O3 et HS2 ont la plus forte probabilité de fusionner avec la branche danoise, bien que dans certains cas la différence de probabilité entre ces deux possibilités soit faible. Les signaux de HS3, HI1 et L sont plus étalés en raison de la faible couverture, mais cohérents avec les autres résultats.

Figure 4 : Placer les échantillons anciens dans l’arbre européen.
figure4

Donné l’arbre européen avec la Cornouailles comme branche de la population britannique, nous cartographions les échantillons anciens sur cet arbre. Nous colorons chaque point de l’arbre en fonction de la probabilité que la branche ancestrale de l’échantillon ancien fusionne à ce point. Le point de fusion à probabilité maximale est marqué par un cercle noir. L’analyse montre que les échantillons de l’âge du fer L, HI1 et HI2 ont la plus forte probabilité de fusionner sur la branche ancestrale de toutes les populations d’Europe du Nord analysées, tandis que les échantillons anglo-saxons fusionnent dans les branches néerlandaise et danoise, respectivement. Les échantillons à faible couverture L, HI1 et HS3 présentent le plus grand écart de probabilité, mais sont cohérents avec les échantillons à plus forte couverture.

La cartographie des échantillons anciens sur l’arbre est similaire pour l’arbre utilisant le Kent comme population britannique (figure supplémentaire 10) et pour l’arbre utilisant la Cornouailles comme proxy britannique (figure 4). En particulier, les échantillons de l’âge du fer se retrouvent sur la branche ancestrale des populations d’Europe du Nord, que l’on utilise le Kent ou la Cornouailles comme proxy britannique. Cela suggère qu’aucune des populations actuelles de notre ensemble de données, y compris la population de Cornouailles, n’est aussi étroitement liée aux échantillons de l’âge du fer que le Danemark et les Pays-Bas le sont aux échantillons anglo-saxons.

Nous avons validé notre approche de cartographie des échantillons individuels dans un arbre en plaçant des échantillons modernes sur le même arbre que dans la Fig. 4. Nous trouvons tous les échantillons des populations utilisées dans la construction de l’arbre placés sur l’extrémité de leur branche respective comme prévu (figure supplémentaire 11). Lors de la cartographie d’échantillons provenant de groupes non présents dans l’arbre, comme c’est le cas pour les échantillons du Kent et des Orcades, nous constatons qu’ils se placent sur le même emplacement ancestral que les échantillons de l’âge du fer (figure 11 supplémentaire), ce qui confirme qu’ils ont une ascendance distincte de la population des Cornouailles et des autres populations utilisées dans la construction de l’arbre, tout comme les échantillons de l’âge du fer. Comme le détaille la note supplémentaire 5, notre approche de cartographie dépend de manière cruciale d’un modèle approprié pour les populations de référence. Lorsque nous utilisons la population du Kent pour construire l’arbre (Fig. 3c), nous constatons que la cartographie des échantillons britanniques devient moins bonne (Fig. 12 supplémentaire), sans doute parce que la population du Kent est moins définie génétiquement et plus mélangée que le groupe de Cornouailles. Dans de tels cas, nous devons modéliser les phylogénies de population avec le mélange et le flux génétique, et la poursuite du développement sur rarecoal nous permettra d’étudier ces scénarios plus complexes.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.