Prover och sekvensering
Vi har genererat genomsekvenser för tio prover som samlats in från tre platser i östra England nära Cambridge: Hinxton (fem prover, kompletterande figur 1), Oakington (fyra prover, kompletterande figur 2) och Linton (1 prov), som valdes ut från totalt 23 undersökta prover baserat på DNA-bevarande (figur 1b, tabell 1, kompletterande tabell 1, kompletterande anmärkning 1). Alla sekvenserade prover har daterats med radiokarbon (kompletterande tabell 2) och faller in i tre tidsperioder: Linton-provet och två Hinxton-prover är från sen järnålder (∼100 BCE), de fyra proverna från Oakington från den tidiga anglosaxiska perioden (femte till sjätte århundradet) och tre Hinxton-prover från den mellersta anglosaxiska perioden (sjunde till nionde århundradet; fig. 1c). De två järnåldersproverna från Hinxton är manliga, alla andra prover är kvinnliga, baserat på Y-kromosomtäckning och i överensstämmelse med arkeologin. Alla prover sekvenserades till en genomomfattande täckning från 1x till 12x (tabell 1). Alla har en kontaminationsgrad på under 2 %, enligt uppskattning både från mitokondrie-DNA och från kärn-DNA (kompletterande tabell 3, kompletterande anmärkning 2). Mitokondriella och Y-kromosomala haplogrupper i alla prover är bland de vanligaste haplogrupperna i dagens nordvästra Europa (tabell 1)11,12 och är i detta fall inte informativa för att särskilja invandrare från ursprungsbefolkningens härkomst.
Vi genererade en principalkomponentplott av de 10 gamla proverna tillsammans med relevanta europeiska populationer som valts ut från publicerade data13,14 (kompletterande figur 3). De antika proverna ligger inom intervallet för moderna engelska och skotska prover, där järnåldersproverna från Hinxton och Linton ligger närmare moderna engelska och franska prover, medan de flesta prover från anglosaxisk tid ligger närmare moderna skotska och norska prover. På det hela taget är dock de populationsgenetiska skillnaderna mellan dessa prover vid gemensamma alleler små.
Skattning av den anglosaxiska komponenten i det moderna Storbritannien
Men medan huvudkomponentanalys kan avslöja relativt gamla befolkningsstrukturer, som till exempel genereras av långvariga isolering-efter-distans-modeller15, kan vi med hjälp av helgenomsekvenser studera sällsynta varianter för att få en inblick i nyare befolkningsstrukturer. Vi identifierade sällsynta varianter med en allelfrekvens på upp till 1 % i en referenspanel med 433 europeiska individer från det moderna Finland, Spanien, Italien, Nederländerna och Danmark, för vilka genomövergripande sekvensdata finns tillgängliga16,17,18 . Vi fastställde för varje gammalt prov antalet sällsynta varianter som delas med varje referenspopulation (kompletterande anmärkning 3). Det finns slående skillnader i provens delningsmönster, vilket illustreras av förhållandet mellan antalet sällsynta alleler som delas med nederländska individer och antalet som delas med spanska individer (fig. 2a). De medelangelsaxiska proverna från Hinxton (HS1, HS2 och HS3) delar relativt sett fler sällsynta varianter med moderna holländare än järnåldersproverna från Hinxton (HI1 och HI2) och Linton (L). De tidiga anglosaxiska proverna från Oakington är mer varierade där O1 och O2 ligger närmare de medelangelsaxiska proverna, O4 uppvisar samma mönster som järnåldersproverna och O3 uppvisar en mellannivå av alleldelning, vilket tyder på blandad härstamning. Skillnaderna mellan proverna är störst i lågfrekventa alleler och minskar med ökande allelfrekvens. Detta stämmer överens med att mutationer med lägre frekvens i genomsnitt är yngre, vilket återspeglar nyare distinkt härstamning, jämfört med mutationer med högre frekvens som återspeglar äldre delad härstamning.
Vi undersökte också med samma metod 30 moderna prover från UK10K-projektet19, 10 vardera med födelseplatser i östra England, Wales och Skottland. Överlag ligger dessa prover närmare proverna från järnåldern än proverna från den anglosaxiska eran (fig. 2a). Det finns en liten men signifikant skillnad mellan medelvärdena i de tre moderna brittiska provgrupperna, där de östengelska proven delar något fler alleler med holländarna, och de skotska proven liknar mer järnåldersproven.
För att kvantifiera anhörigfraktionerna anpassar vi de moderna brittiska proven med en blandningsmodell av forntida komponenter, genom att placera alla proverna på en linjär axel för relativ holländsk alleldelning som integrerar data från allelantal 1-5 (Fig. 2b, Supplementary Note 3). Med detta mått överensstämmer proverna från östra England med 38 % anglosaxiskt ursprung i genomsnitt, med en stor spridning från 25 till 50 %, och proverna från Wales och Skottland överensstämmer med 30 % anglosaxiskt ursprung i genomsnitt, återigen med en stor spridning (kompletterande tabell 4). Dessa siffror är i genomsnitt lägre om vi utesluter individen HS3 med låg täckning från den anglosaxiska gruppen (35 % för östengelska prover). Ett liknande resultat erhålls när vi analyserar moderna brittiska prover från 1000 Genomes Project, som uppvisar en stark substruktur (kompletterande anmärkning 4, kompletterande figur 4). Vi finner att prover från Kent uppvisar en liknande anglosaxisk komponent på 37 % när de jämförs med finska och spanska utgrupper, med ett lägre värde för prover från Cornwall (Supplementary Fig. 5a, Supplementary Table 4).
Ett alternativt och potentiellt mer direkt tillvägagångssätt för att uppskatta dessa fraktioner är att mäta delning av sällsynta alleler direkt mellan de moderna brittiska och de antika proven. Även om detta är mycket mer brusande än analysen med hjälp av nederländska och spanska utgrupper ger detta konsekventa resultat (kompletterande figur 5b, kompletterande anmärkning 3). Sammanfattningsvis tyder denna analys på att i genomsnitt 25-40 % av de moderna britternas anor bidrog med anglosaxiska invandrare, med det högre antalet i östra England närmare invandrarkällan. Skillnaden mellan grupper inom Storbritannien är förvånansvärt liten jämfört med de stora skillnader som man såg i de gamla proverna. Detta gäller både för UK10K-proverna och för de brittiska proverna från 1 000 Genomes-projektet, även om vi noterar att UK10K-provets placering kanske inte helt och hållet återspeglar den historiska geografiska befolkningsstrukturen på grund av den senaste tidens befolkningsblandning.
En invändning i vår analys är att vi använder de tre järnåldersproverna från Cambridgeshire som proxys för den inhemska brittiska befolkningen, som utan tvekan var strukturerad, även om det förefaller rimligt att ta dessa som representanter åtminstone för östra England. Dessutom skulle eventuella kontinentala genetiska bidrag från den romersk-brittiska perioden vägas in i den tilldelade anglosaxiska komponenten, liksom ett sent anglosaxiskt skandinaviskt eller normandiskt bidrag. Dessa effekter skulle dock bara vara starka om bidraget var stort och kraftigt förskjutet på den holländsk-spanska axeln.
Byggande av en befolkningshistorisk modell från sällsynta varianter
För att få ytterligare insikt i den historia som ligger till grund för dessa delningsmönster har vi utvecklat en känslig ny metod, rarecoal, som anpassar en demografisk modell till den gemensamma fördelningen av sällsynta alleler i ett stort antal prover (Supplementary Notes 5 och 6). Vår strategi är att bygga upp en modell i form av en populationsfylogeni av förhållandet mellan moderna europeiska populationer, i vilken vi kan placera de gamla proverna. Vi inser att en modell utan blandning och genflöde efter splittring är otillräcklig som en fullständig beskrivning av den europeiska befolkningshistorien. Detta är dock en naturlig förenklad modell, och fokus i den här studien ligger på att förstå de genetiska relationerna mellan invandrare och ursprungsbefolkningar i England, för vilka denna populationsfylogenimodell utgör en rimlig ställning.
Nyckelidén är att explicit modellera osäkerheten i det förflutna för fördelningen av härledda alleler, men att approximera motsvarande fördelning för icke härledda alleler med hjälp av dess förväntan (fig. 3a). Eftersom rarecoal explicit modellerar sällsynta mutationer uppskattar den separationer i mutationsklockans tid snarare än i den genetiska driftens tid, i motsats till metoder som bygger på förändringar i allelfrekvensen hos vanliga varianter20. Vi testade först rarecoal på simulerade data och fann att den kunde rekonstruera separationstider och grenpopulationsstorlekar med god noggrannhet (fig. 3b) och matcha alleldelning nästan exakt (kompletterande fig. 6). Vi testade också dess robusthet med en mindre provstorlek i endast en population (som i de danska prover som studeras här), och under inblandning (kompletterande anmärkning 5, kompletterande figur 7).
Vi tillämpade därefter rarecoal på 524 prover från sex populationer i Europa (fig. 3c,d) för att skatta ett europeiskt demografiskt träd där vi kunde placera de gamla proverna. Eftersom de brittiska proverna i 1 000 genomprojektet faller in i tre olika kluster, som återspeglar tre provplatser (från Kent, Cornwall och Orkneyöarna, som en del av projektet Peoples of the British Isles4,21, kompletterande anmärkning 4)16 , passade vi in olika träd i dessa olika grupper (kompletterande fig. 8). Det gemensamma draget i alla tre träden är en första uppdelning mellan södra och norra Europa med en mediantid ∼7 000 år sedan, följt av ytterligare tre separationer nära i tiden ∼5 000 år sedan mellan Nederländerna, Danmark, Finland och Storbritannien. Intressant nog fick vi, när vi använde de brittiska proverna från Cornwall, ett träd där Cornwall utgör en outgroup till den nederländska, danska och finska populationen (fig. 3c). När vi däremot använder Kent bildar det en klad med den nederländska befolkningen (fig. 3d), vilket stämmer överens med högre anglosaxisk härstamning i södra England än i Cornwall. När vi använder Orkneypopulationen som brittisk gren finner vi en liknande trädtopologi som för Cornwall. Dessa resultat visar att både Cornwall och Orkney är mer avlägset besläktade med kontinentaleuropa än vad Kent är. Spetsgrenens effektiva befolkningsstorlek är lägst i Finland (∼12 000), vilket stämmer överens med tidigare observationer22,23 , och högst i Kent (∼191 000) och i Nederländerna (∼184 000). För de europeiska uppgifterna är anpassningen av allelfördelningen sämre än för de simulerade uppgifterna (kompletterande figur 9), vilket förmodligen beror på förenklade modellantaganden om en konstant populationsstorlek i varje gren och avsaknad av migration.
Den relativt nya uppskattningen av delningstiden mellan Italien och Spanien, ∼2 600 år sedan, kan vara en följd av migration efter en tidigare separation; populationsstorleken hos den italiensk-spanska förfäderspopulationen uppskattades vara extremt stor och en övre gräns kunde inte bestämmas, vilket skulle kunna vara en artefakt av förfädernas substruktur eller inblandning. En annan förklaring skulle vara en gemensam källa till inblandning i både den spanska och den italienska populationen, vilket resulterar i en relativt ny gemensam härstamning. Vi visar i kompletterande figur 7 hur inblandning kan modifiera rarecoal-skattningar av effektiva populationsstorleksskattningar och splittningstider.
Modellering av anhöriginvandring hos gamla genomer med hjälp av rarecoal
Förutom att rekonstruera det bredare europeiska förhållandet från en stor provuppsättning kan rarecoal användas för att utvärdera förhållandet mellan ett enskilt gammalt prov och det europeiska trädet. För att göra detta utgår vi från en modell där det enskilda provets förfäderspopulation går samman med det europeiska trädet vid en viss gren vid en viss tidpunkt före provets ursprungsdatum. Vi kan sedan använda rarecoal för att utvärdera sannolikheten för de gemensamma uppgifterna om alleldelning mellan det gamla provet och de moderna populationerna enligt varje modell, som specificeras av grenen och sammanslagningstidpunkten i trädet (fig. 4, kompletterande anmärkning 5). Det fanns en tydlig skillnad mellan proverna från järnåldern och den anglosaxiska eran: proverna från den anglosaxiska eran slogs mestadels samman på de holländska och danska grenarna, medan proverna från järnåldern företrädesvis slogs samman vid basen av förfädersgrenen för alla moderna nordeuropeiska prover. Undantaget är att den tidiga anglosaxiska O4 visar samma signal som proverna från järnåldern, vilket stämmer överens med analysen av delning av sällsynta alleler (fig. 2). För prov O3, som verkade vara av blandad härstamning i analysen av alleldelning, finner vi högsta sannolikhet för sammanslagning med den danska grenen. I detta prov finns det dock också en anmärkningsvärt högre sannolikhet för sammanslagning med samma nordeuropeiska stamförgreningspunkt som för proverna från järnåldern. Detta stämmer överens med att O3 har ett nyligen blandat inhemskt och anglosaxiskt ursprung, även om vi inte kan utesluta mer komplexa scenarier som inbegriper tidigare blandad härstamning hos denna individ under den romersk-brittiska perioden. Det finns en viss differentiering bland proverna från den anglosaxiska eran där proverna O1, O2, HS1 och HS3 har störst sannolikhet att smälta samman med den nederländska grenen medan O3 och HS2 har störst sannolikhet att smälta samman med den danska grenen, även om skillnaden i sannolikhet mellan dessa två möjligheter i vissa fall är liten. Signalerna från HS3, HI1 och L är mer spridda på grund av låg täckning, men överensstämmer med de andra resultaten.
Kartläggningen av de forntida proverna på trädet är likartad för trädet som använder Kent som brittisk population (kompletterande fig. 10) och för trädet som använder Cornwall som brittisk proxy (fig. 4). I synnerhet kartläggs proverna från järnåldern på den nordeuropeiska befolkningens stamgren, oavsett om man använder Kent eller Cornwall som brittisk proxy. Detta tyder på att ingen av de nuvarande populationerna i vår datamängd, inklusive populationen från Cornwall, är lika nära besläktad med järnåldersproverna som Danmark och Nederländerna är med de anglosaxiska proverna.
Vi validerade vårt tillvägagångssätt att kartlägga enskilda prover i ett träd genom att placera moderna prover i samma träd som i fig. 4. Vi finner att alla prover från populationer som användes vid uppbyggnaden av trädet placeras på spetsen av respektive gren som förväntat (kompletterande fig. 11). När vi kartlägger prover från grupper som inte finns med i trädet, vilket är fallet med prover från Kent och Orkney, finner vi att de kartläggs på samma förfädersplats som proverna från järnåldern (kompletterande fig. 11), vilket bekräftar att de har skilda förfäder från Cornish-populationen och andra populationer som använts för att bygga trädet, på samma sätt som proverna från järnåldern. Såsom beskrivs i kompletterande anmärkning 5 är vår kartläggningsmetod avgörande beroende av en lämplig modell för referenspopulationerna. När vi använder Kent-populationen för att bygga trädet (fig. 3c) finner vi att kartläggningen av brittiska prover blir sämre (kompletterande fig. 12), troligen på grund av att Kent-populationen är mindre genetiskt definierad och mer blandad än gruppen från Cornwall. I sådana fall måste vi modellera populationsfylogenier med blandning och genflöde, och ytterligare utveckling av rarecoal kommer att göra det möjligt för oss att studera dessa mer komplexa scenarier.