Proben und Sequenzierung
Wir erstellten Genomsequenzen für 10 Proben, die an drei Orten in Ostengland in der Nähe von Cambridge gesammelt wurden: Hinxton (fünf Proben, ergänzende Abb. 1), Oakington (vier Proben, ergänzende Abb. 2) und Linton (eine Probe), die aus insgesamt 23 untersuchten Proben anhand der DNA-Erhaltung ausgewählt wurden (Abb. 1b, Tabelle 1, ergänzende Tabelle 1, ergänzende Anmerkung 1). Alle sequenzierten Proben wurden mit Radiokohlenstoff datiert (ergänzende Tabelle 2) und lassen sich in drei Zeitabschnitte einteilen: Die Linton-Probe und zwei Hinxton-Proben stammen aus der späten Eisenzeit (∼100 v. Chr.), die vier Proben aus Oakington aus der frühen angelsächsischen Zeit (fünftes bis sechstes Jahrhundert) und drei Hinxton-Proben aus der mittleren angelsächsischen Zeit (siebtes bis neuntes Jahrhundert; Abb. 1c). Die beiden eisenzeitlichen Proben aus Hinxton sind männlich, alle anderen Proben sind weiblich, basierend auf der Abdeckung des Y-Chromosoms und in Übereinstimmung mit der Archäologie. Alle Proben wurden mit einer genomweiten Abdeckung von 1x bis 12x sequenziert (Tabelle 1). Alle haben Kontaminationsraten von weniger als 2 %, sowohl bei der mitochondrialen als auch bei der nuklearen DNA (ergänzende Tabelle 3, ergänzende Anmerkung 2). Die mitochondrialen und Y-Chromosomen-Haplogruppen aller Proben gehören zu den häufigsten Haplogruppen im heutigen Nordwesteuropa (Tabelle 1)11,12 und sind in diesem Fall nicht aussagekräftig für die Unterscheidung zwischen eingewanderter und einheimischer Abstammung.
Wir erstellten eine Hauptkomponentendarstellung der 10 alten Proben zusammen mit relevanten europäischen Populationen, die aus veröffentlichten Daten13,14 ausgewählt wurden (ergänzende Abb. 3). Die antiken Proben liegen im Bereich der modernen englischen und schottischen Proben, wobei die eisenzeitlichen Proben aus Hinxton und Linton näher an den modernen englischen und französischen Proben liegen, während die meisten angelsächsischen Proben näher an den modernen schottischen und norwegischen Proben liegen. Insgesamt sind die populationsgenetischen Unterschiede zwischen diesen Proben bei gemeinsamen Allelen jedoch gering.
Schätzung der angelsächsischen Komponente im modernen Britannien
Während die Hauptkomponentenanalyse eine relativ alte Populationsstruktur aufzeigen kann, wie sie sich aus langfristigen Modellen der Isolation durch Entfernung15 ergibt, können wir mit Hilfe von Ganzgenomsequenzen seltene Varianten untersuchen, um einen Einblick in die jüngere Populationsstruktur zu erhalten. Wir identifizierten seltene Varianten mit einer Allelhäufigkeit von bis zu 1 % in einem Referenzpanel von 433 europäischen Individuen aus dem modernen Finnland, Spanien, Italien, den Niederlanden und Dänemark, für die genomweite Sequenzdaten verfügbar sind16,17,18. Wir bestimmten für jede alte Probe die Anzahl der seltenen Varianten, die mit jeder Referenzpopulation geteilt wurden (Anmerkung 3). Es gibt auffällige Unterschiede in den Sharing-Mustern der Proben, wie das Verhältnis der Anzahl der seltenen Allele, die mit niederländischen Individuen geteilt werden, zu der Anzahl, die mit spanischen Individuen geteilt werden, zeigt (Abb. 2a). Die mittelangelsächsischen Proben aus Hinxton (HS1, HS2 und HS3) teilen relativ mehr seltene Varianten mit modernen Niederländern als die eisenzeitlichen Proben aus Hinxton (HI1 und HI2) und Linton (L). Die frühangelsächsischen Proben aus Oakington sind vielfältiger, wobei O1 und O2 näher an den mittelangelsächsischen Proben liegen, O4 das gleiche Muster wie die eisenzeitlichen Proben aufweist und O3 ein mittleres Niveau der gemeinsamen Nutzung von Allelen zeigt, was auf eine gemischte Abstammung schließen lässt. Die Unterschiede zwischen den Proben sind bei niedrigfrequenten Allelen am größten und nehmen mit zunehmender Allelfrequenz ab. Dies steht im Einklang mit Mutationen niedrigerer Häufigkeit, die im Durchschnitt jünger sind und eine jüngere, getrennte Abstammung widerspiegeln, im Vergleich zu Mutationen höherer Häufigkeit, die eine ältere, gemeinsame Abstammung widerspiegeln.
Wir untersuchten mit der gleichen Methode auch 30 moderne Proben aus dem UK10K-Projekt19, jeweils 10 mit Geburtsorten in Ostengland, Wales und Schottland. Insgesamt liegen diese Proben näher bei den eisenzeitlichen als bei den angelsächsischen Proben (Abb. 2a). Es besteht ein kleiner, aber signifikanter Unterschied zwischen den Mittelwerten in den drei modernen britischen Probengruppen, wobei die ostenglischen Proben etwas mehr Allele mit den Niederländern teilen und die schottischen Proben den eisenzeitlichen Proben ähnlicher sind.
Um die Abstammungsanteile zu quantifizieren, haben wir die modernen britischen Proben mit einem Mischungsmodell altertümlicher Komponenten angepasst, indem wir alle Proben auf einer linearen Achse der relativen niederländischen Allelteilung platziert haben, die die Daten der Allelzahlen 1-5 integriert (Abb. 2b, ergänzende Anmerkung 3). Nach diesem Maßstab sind die ostenglischen Proben im Durchschnitt mit 38 % angelsächsischer Abstammung konsistent, mit einer großen Streuung von 25 bis 50 %, und die walisischen und schottischen Proben sind im Durchschnitt mit 30 % angelsächsischer Abstammung konsistent, ebenfalls mit einer großen Streuung (ergänzende Tabelle 4). Diese Zahlen sind im Durchschnitt niedriger, wenn wir das Individuum HS3 mit niedrigem Erfassungsgrad aus der angelsächsischen Gruppe ausschließen (35 % für die ostenglischen Proben). Ein ähnliches Ergebnis erhalten wir, wenn wir moderne britische Proben aus dem 1.000 Genomes Project analysieren, die eine starke Substruktur aufweisen (ergänzende Anmerkung 4, ergänzende Abb. 4). Wir stellen fest, dass Proben aus Kent eine ähnliche angelsächsische Komponente von 37 % aufweisen, wenn man sie mit finnischen und spanischen Outgroups vergleicht, mit einem niedrigeren Wert für Proben aus Cornwall (Supplementary Fig. 5a, Supplementary Table 4).
Eine alternative und potenziell direktere Methode zur Schätzung dieser Anteile ist die direkte Messung des Austauschs seltener Allele zwischen den modernen britischen und den alten Proben. Dies ist zwar wesentlich unruhiger als die Analyse mit den niederländischen und spanischen Outgroups, führt aber zu konsistenten Ergebnissen (ergänzende Abb. 5b, ergänzende Anmerkung 3). Zusammenfassend deutet diese Analyse darauf hin, dass durchschnittlich 25-40 % der Abstammung der modernen Briten von angelsächsischen Einwanderern stammt, wobei der Anteil in Ostengland, das näher an der Einwanderungsquelle liegt, höher ist. Der Unterschied zwischen den Gruppen innerhalb Großbritanniens ist überraschend gering, verglichen mit den großen Unterschieden, die in den alten Stichproben festgestellt wurden. Dies gilt sowohl für die UK10K-Proben als auch für die britischen Proben aus dem 1.000-Genome-Projekt, obwohl wir anmerken, dass die Standorte der UK10K-Proben die historische geografische Bevölkerungsstruktur aufgrund der jüngsten Bevölkerungsdurchmischung möglicherweise nicht vollständig widerspiegeln.
Eine Einschränkung unserer Analyse besteht darin, dass wir die drei eisenzeitlichen Proben aus Cambridgeshire als Stellvertreter für die einheimische britische Bevölkerung verwenden, die zweifellos strukturiert war, obwohl es vernünftig erscheint, diese zumindest für Ostengland als repräsentativ anzusehen. Außerdem würde jeder kontinentale genetische Beitrag aus der römisch-britischen Zeit in die zugewiesene angelsächsische Komponente einfließen, ebenso wie ein spätangelsächsischer skandinavischer oder normannischer Beitrag. Diese Effekte wären jedoch nur dann stark, wenn der Beitrag groß und stark auf der niederländisch-spanischen Achse verzerrt wäre.
Erstellung eines populationsgeschichtlichen Modells aus seltenen Varianten
Um weitere Einblicke in die Geschichte zu erhalten, die diesen Verteilungsmustern zugrunde liegt, haben wir eine empfindliche neue Methode, rarecoal, entwickelt, die ein demographisches Modell an die gemeinsame Verteilung seltener Allele in einer großen Anzahl von Proben anpasst (Ergänzende Anmerkungen 5 und 6). Unsere Strategie besteht darin, ein Modell in Form einer Populationsphylogenie der Beziehungen zwischen modernen europäischen Populationen zu erstellen, in das wir die alten Proben einordnen können. Wir sind uns darüber im Klaren, dass ein Modell ohne Vermischung und Genfluss nach der Aufspaltung als vollständige Beschreibung der europäischen Bevölkerungsgeschichte unzureichend ist. Es handelt sich jedoch um ein natürliches, vereinfachtes Modell, und der Schwerpunkt dieser Studie liegt auf dem Verständnis der genetischen Beziehungen zwischen Einwanderern und einheimischen Populationen in England, für die dieses Modell der Populationsphylogenie ein vernünftiges Gerüst bietet.
Die Schlüsselidee besteht darin, die Unsicherheit in der Vergangenheit der Verteilung abgeleiteter Allele explizit zu modellieren, die entsprechende Verteilung für nicht abgeleitete Allele jedoch durch ihre Erwartung anzunähern (Abb. 3a). Da rarecoal seltene Mutationen explizit modelliert, schätzt es im Gegensatz zu Methoden, die auf Änderungen der Allelhäufigkeit bei häufigen Varianten beruhen20, Trennungen in der Mutationsuhrzeit und nicht in der genetischen Driftzeit. Wir testeten rarecoal zunächst an simulierten Daten und stellten fest, dass es in der Lage war, die Trennungszeiten und die Größe der Zweigpopulationen mit guter Genauigkeit zu rekonstruieren (Abb. 3b), wobei die Verteilung der Allele fast genau übereinstimmte (ergänzende Abb. 6). Wir testeten auch seine Robustheit bei einer kleineren Stichprobengröße in nur einer Population (wie in den hier untersuchten dänischen Stichproben) und unter Vermischung (Ergänzende Anmerkung 5, Ergänzende Abb. 7).
Als nächstes wendeten wir Rarecoal auf 524 Proben aus sechs Populationen in Europa an (Abb. 3c,d), um einen europäischen demografischen Baum zu schätzen, in den wir die alten Proben einordnen konnten. Da die britischen Proben des 1.000-Genome-Projekts in drei verschiedene Cluster fallen, die drei Probenstandorte widerspiegeln (aus Kent, Cornwall und den Orkney-Inseln, als Teil des Peoples of the British Isles-Projekts4,21, ergänzende Anmerkung 4)16, haben wir diesen verschiedenen Gruppen unterschiedliche Bäume zugeordnet (ergänzende Abb. 8). Das gemeinsame Merkmal aller drei Bäume ist eine erste Trennung zwischen Süd- und Nordeuropa mit einem mittleren Zeitpunkt vor ∼7.000 Jahren, gefolgt von drei weiteren zeitnahen Trennungen vor ∼5.000 Jahren zwischen den Niederlanden, Dänemark, Finnland und Großbritannien. Interessanterweise erhalten wir bei Verwendung der britischen Proben aus Cornwall einen Baum, in dem Cornwall eine Nebengruppe der niederländischen, dänischen und finnischen Population bildet (Abb. 3c). Im Gegensatz dazu bildet Kent eine Klade mit der niederländischen Bevölkerung (Abb. 3d), was auf eine höhere angelsächsische Abstammung in Südengland als in Cornwall schließen lässt. Wenn wir die Orkney-Bevölkerung als britischen Zweig verwenden, finden wir eine ähnliche Baumtopologie wie für Cornwall. Diese Ergebnisse zeigen, dass sowohl Cornwall als auch Orkney stärker mit Kontinentaleuropa verwandt sind als Kent. Die effektive Populationsgröße des Spitzenastes ist in Finnland am niedrigsten (∼12.000), was mit früheren Beobachtungen übereinstimmt22,23, und am höchsten in Kent (∼191.000) und in den Niederlanden (∼184.000). Für die europäischen Daten ist die Anpassung der Allelverteilung schlechter als für die simulierten Daten (ergänzende Abb. 9), was vermutlich auf die vereinfachenden Modellannahmen einer konstanten Populationsgröße in jedem Zweig und das Fehlen von Migration zurückzuführen ist.
Die relativ junge Schätzung für den Zeitpunkt der Trennung zwischen Italien und Spanien, vor ∼2.600 Jahren, könnte eine Folge der Migration nach einer früheren Trennung sein; die Populationsgröße der italienisch-spanischen Vorfahrenpopulation wurde als extrem groß geschätzt, und eine Obergrenze konnte nicht bestimmt werden, was ein Artefakt der Substruktur der Vorfahren oder der Vermischung sein könnte. Eine andere Erklärung wäre eine gemeinsame Quelle der Beimischung in die spanische und die italienische Bevölkerung, die zu einer relativ jungen gemeinsamen Abstammung führt. Wir zeigen in der ergänzenden Abb. 7, wie Vermischung die Rarecoal-Schätzungen der effektiven Populationsgröße und der Split-Zeiten verändern kann.
Modellierung der Abstammung alter Genome mit Rarecoal
Zusätzlich zur Rekonstruktion der breiteren europäischen Verwandtschaft aus einem großen Probensatz kann Rarecoal verwendet werden, um die Beziehung einer einzelnen alten Probe mit dem europäischen Baum zu bewerten. Dazu gehen wir von einem Modell aus, bei dem sich die Vorfahren der einzelnen Probe mit dem europäischen Stammbaum an einem bestimmten Zweig zu einem bestimmten Zeitpunkt vor dem Ursprungsdatum der Probe vermischen. Wir können dann rarecoal verwenden, um die Wahrscheinlichkeit der gemeinsamen Allel-Sharing-Daten zwischen der alten Probe und den modernen Populationen unter jedem Modell zu bewerten, das durch den Zweig und den Verschmelzungszeitpunkt im Baum spezifiziert wird (Abb. 4, ergänzende Anmerkung 5). Es gab einen deutlichen Unterschied zwischen den Proben aus der Eisenzeit und der angelsächsischen Ära: Die Proben aus der angelsächsischen Ära verschmolzen größtenteils mit den niederländischen und dänischen Zweigen, während die Proben aus der Eisenzeit bevorzugt an der Basis des Ahnenzweigs für alle modernen nordeuropäischen Proben verschmolzen. Die Ausnahme ist, dass die frühe angelsächsische Probe O4 das gleiche Signal wie die eisenzeitlichen Proben aufweist, was mit der Analyse des seltenen Allel-Sharings übereinstimmt (Abb. 2). Bei der Probe O3, die in der Allel-Sharing-Analyse gemischter Abstammung zu sein schien, finden wir die höchste Wahrscheinlichkeit für eine Verschmelzung mit dem dänischen Zweig. Bei dieser Probe ist jedoch auch die Wahrscheinlichkeit einer Verschmelzung mit demselben nordeuropäischen Ahnenzweig deutlich höher als bei den eisenzeitlichen Proben. Dies spricht dafür, dass O3 erst kürzlich gemischten einheimischen und angelsächsischen Ursprungs war, obwohl wir komplexere Szenarien nicht ausschließen können, die eine frühere gemischte Abstammung dieses Individuums während der römisch-britischen Periode beinhalten. Es gibt eine gewisse Differenzierung unter den angelsächsischen Proben, wobei die Proben O1, O2, HS1 und HS3 die höchste Wahrscheinlichkeit für eine Verschmelzung mit dem niederländischen Zweig aufweisen, während O3 und HS2 die höchste Wahrscheinlichkeit für eine Verschmelzung mit dem dänischen Zweig haben, obwohl in einigen Fällen der Unterschied in der Wahrscheinlichkeit zwischen diesen beiden Möglichkeiten gering ist. Die Signale von HS3, HI1 und L sind aufgrund der geringen Abdeckung breiter gestreut, stimmen aber mit den anderen Ergebnissen überein.
Die Zuordnung der antiken Proben zum Stammbaum ist ähnlich für den Baum, der Kent als britische Population verwendet (ergänzende Abb. 10) und für den Baum, der Cornwall als britischen Proxy verwendet (Abb. 4). Insbesondere die eisenzeitlichen Proben sind dem Stammbaum der nordeuropäischen Populationen zuzuordnen, unabhängig davon, ob Kent oder Cornwall als britischer Proxy verwendet wird. Dies deutet darauf hin, dass keine der heutigen Populationen in unserem Datensatz, einschließlich der Population aus Cornwall, so eng mit den eisenzeitlichen Proben verwandt ist wie Dänemark und die Niederlande mit den angelsächsischen Proben.
Wir validierten unseren Ansatz, einzelne Proben in einem Baum abzubilden, indem wir moderne Proben in denselben Baum wie in Abb. 4 einordneten. Alle Proben aus den Populationen, die bei der Erstellung des Baumes verwendet wurden, befinden sich erwartungsgemäß an der Spitze des jeweiligen Zweiges (ergänzende Abb. 11). Bei der Zuordnung von Proben aus Gruppen, die nicht im Baum vorhanden sind, wie z. B. Proben aus Kent und Orkney, stellen wir fest, dass sie an der gleichen Abstammungsposition wie die eisenzeitlichen Proben liegen (ergänzende Abb. 11), was bestätigt, dass sie ähnlich wie die eisenzeitlichen Proben von der kornischen Bevölkerung und anderen Populationen, die bei der Erstellung des Baums verwendet wurden, abstammen. Wie in der ergänzenden Anmerkung 5 dargelegt, hängt unser Kartierungsansatz entscheidend von einem geeigneten Modell für die Referenzpopulationen ab. Wenn wir die Population von Kent für die Erstellung des Stammbaums verwenden (Abb. 3c), stellen wir fest, dass sich die Kartierung der britischen Proben verschlechtert (ergänzende Abb. 12), was wohl daran liegt, dass die Population von Kent genetisch weniger definiert und stärker vermischt ist als die Gruppe aus Cornwall. In solchen Fällen müssen wir Populationsphylogenien mit Vermischung und Genfluss modellieren, und die weitere Entwicklung von Rarecoal wird es uns ermöglichen, diese komplexeren Szenarien zu untersuchen.