Prover og sekventering
Vi genererede genomsekvenser for 10 prøver, der blev indsamlet fra tre steder i Østengland tæt på Cambridge: Hinxton (fem prøver, Supplerende fig. 1), Oakington (fire prøver, Supplerende fig. 2) og Linton (1 prøve), som blev udvalgt fra i alt 23 screenede prøver baseret på DNA-bevaring (Fig. 1b, Tabel 1, Supplerende tabel 1, Supplerende tabel 1, Supplerende note 1). Alle sekventerede prøver blev radiokarbondateret (Supplerende tabel 2) og falder i tre tidsperioder: Linton-prøven og to Hinxton-prøver er fra den sene jernalder (∼100 BCE), de fire prøver fra Oakington fra den tidlige angelsaksiske periode (femte til sjette århundrede), og tre Hinxton-prøver fra den midterste angelsaksiske periode (syvende til niende århundrede; Fig. 1c). De to jernalderprøver fra Hinxton er mænd, mens alle andre prøver er kvinder, baseret på Y-kromosomdækning og i overensstemmelse med arkæologien. Alle prøver blev sekventeret til genomdækning på tværs af genomet fra 1x til 12x (tabel 1). Alle har en kontaminationsgrad på under 2 %, som anslået både fra mitokondrie-DNA og fra kerne-DNA (Supplerende tabel 3, Supplerende note 2). Mitokondrielle og Y-kromosomale haplogrupper i alle prøver er blandt de mest almindelige haplogrupper i det nuværende Nordvesteuropa (tabel 1)11,12 og er i dette tilfælde ikke informative med hensyn til at skelne mellem indvandrer- og indfødte forfædre.
Vi genererede et hovedkomponentplot af de 10 gamle prøver sammen med relevante europæiske populationer udvalgt fra offentliggjorte data13,14 (Supplerende fig. 3). De gamle prøver falder inden for intervallet af moderne engelske og skotske prøver, med jernalderprøverne fra Hinxton og Linton, der falder tættere på moderne engelske og franske prøver, mens de fleste prøver fra den angelsaksiske æra ligger tættere på moderne skotske og norske prøver. Samlet set er de populationsgenetiske forskelle mellem disse prøver på fælles alleler dog små.
Stimulering af den angelsaksiske komponent i det moderne Storbritannien
Mens hovedkomponentanalyser kan afsløre relativt gamle befolkningsstrukturer, som f.eks. genereret af langtidsisolation-by-distance-modeller15, giver helgenomsekvenser os mulighed for at studere sjældne varianter for at få indsigt i nyere befolkningsstrukturer. Vi identificerede sjældne varianter med en allelfrekvens på op til 1 % i et referencepanel bestående af 433 europæiske individer fra det moderne Finland, Spanien, Italien, Nederlandene og Danmark, for hvilke der findes genomdækkende sekvensdata16,17,18. Vi bestemte for hver gammel prøve antallet af sjældne varianter, der deles med hver referencepopulation (Supplerende note 3). Der er slående forskelle i prøvernes delingsmønstre, hvilket illustreres af forholdet mellem antallet af sjældne alleler, der deles med hollandske individer, og antallet, der deles med spanske individer (fig. 2a). De midterste angelsaksiske prøver fra Hinxton (HS1, HS2 og HS3) deler relativt flere sjældne varianter med moderne hollandske end jernalderprøverne fra Hinxton (HI1 og HI2) og Linton (L). De tidlige angelsaksiske prøver fra Oakington er mere forskelligartede med O1 og O2 tættere på de midterste angelsaksiske prøver, O4 udviser samme mønster som jernalderprøverne, og O3 viser et mellemliggende niveau af alleldeling, hvilket tyder på blandet afstamning. Forskellene mellem prøverne er størst i lavfrekvente alleler og falder med stigende allelfrekvens. Dette er i overensstemmelse med, at mutationer med lavere frekvens i gennemsnit er yngre, hvilket afspejler nyere særskilt forfædre, sammenlignet med mutationer med højere frekvens, der afspejler ældre delt forfædre.
Vi undersøgte også ved hjælp af samme metode 30 moderne prøver fra UK10K-projektet19, 10 hver med fødesteder i Østengland, Wales og Skotland. Samlet set ligger disse prøver tættere på jernalderprøverne end på prøverne fra den angelsaksiske æra (fig. 2a). Der er en lille, men signifikant forskel mellem gennemsnitsværdierne i de tre moderne britiske prøvegrupper, idet de østengelske prøver deler lidt flere alleler med de hollandske, og de skotske prøver ligner mere jernalderprøverne.
For at kvantificere afstamningsfraktionerne tilpassede vi de moderne britiske prøver med en blandingsmodel af gamle komponenter ved at placere alle prøverne på en lineær akse af relativ hollandsk alleldeling, der integrerer data fra alleltællinger 1-5 (Fig. 2b, Supplerende note 3). Efter dette mål er de østengelske prøver i overensstemmelse med 38 % angelsaksisk herkomst i gennemsnit, med en stor spredning fra 25 til 50 %, og de walisiske og skotske prøver er i overensstemmelse med 30 % angelsaksisk herkomst i gennemsnit, igen med en stor spredning (Supplerende tabel 4). Disse tal er lavere i gennemsnit, hvis vi udelukker individet HS3 med lav dækning fra den angelsaksiske gruppe (35 % for de østengelske prøver). Et lignende resultat opnås, når vi analyserer moderne britiske prøver fra 1000-genomprojektet, som udviser en stærk understruktur (Supplerende note 4, Supplerende fig. 4). Vi finder, at prøver fra Kent viser en lignende angelsaksisk komponent på 37 %, når de sammenlignes med finske og spanske udgrupper, med en lavere værdi for prøver fra Cornwall (Supplerende fig. 5a, Supplerende tabel 4).
En alternativ og potentielt mere direkte metode til at estimere disse fraktioner er at måle den sjældne alleldeling direkte mellem de moderne britiske og de gamle prøver. Selv om det er meget mere støjende end analysen ved hjælp af hollandske og spanske outgroups, giver dette konsistente resultater (Supplerende fig. 5b, Supplerende note 3). Sammenfattende tyder denne analyse på, at i gennemsnit 25-40 % af de moderne briteres forfædre blev bidraget af angelsaksiske indvandrere, med det højere antal i Østengland tættere på indvandrerkilden. Forskellen mellem grupper inden for Storbritannien er overraskende lille sammenlignet med de store forskelle, der er set i de gamle prøver. Dette gælder både for UK10K-prøverne og for de britiske prøver fra 1.000 Genomes-projektet, selv om vi bemærker, at UK10K-prøvernes placering måske ikke fuldt ud afspejler den historiske geografiske befolkningsstruktur på grund af nyere befolkningsblanding.
Et forbehold ved vores analyse er, at vi bruger de tre jernalderprøver fra Cambridgeshire som proxies for den oprindelige britiske befolkning, som uden tvivl var struktureret, selv om det synes rimeligt at tage disse som repræsentanter i det mindste for Østengland. Desuden vil ethvert kontinentalt genetisk bidrag fra den romersk-britiske periode blive indregnet i den tildelte angelsaksiske komponent, ligesom et sen-angelsaksisk skandinavisk eller normannisk bidrag ville blive indregnet i den tildelte angelsaksiske komponent. Disse virkninger ville dog kun være stærke, hvis bidraget var stort og stærkt skævt fordelt på den hollandsk-spanske akse.
Bygning af en populationshistorisk model ud fra sjældne varianter
For at få yderligere indsigt i den historie, der ligger til grund for disse delingsmønstre, udviklede vi en følsom ny metode, rarecoal, som tilpasser en demografisk model til den fælles fordeling af sjældne alleler i et stort antal prøver (Supplerende noter 5 og 6). Vores strategi er at opbygge en model i form af en populationsfylogeni af forholdet mellem moderne europæiske populationer, som vi kan placere de gamle prøver ind i. Vi erkender, at en model uden blanding og genstrøm efter opsplitning er utilstrækkelig som en fuldstændig beskrivelse af den europæiske befolkningshistorie. Dette er imidlertid en naturlig forenklet model, og fokus i denne undersøgelse er på at forstå de genetiske relationer mellem indvandrere og indfødte befolkninger i England, for hvilke denne populationsfylogenimodel giver et rimeligt stillads.
Den centrale idé er at modellere eksplicit usikkerheden i fortiden af fordelingen af afledte alleler, men tilnærme den tilsvarende fordeling for ikke-afledte alleler ved dens forventning (Fig. 3a). Fordi rarecoal eksplicit modellerer sjældne mutationer, estimerer den adskillelser i mutationsklokketid snarere end genetisk drifttid, i modsætning til metoder baseret på ændringer i allelfrekvensen i almindelige varianter20. Vi testede først rarecoal på simulerede data og fandt, at det var i stand til at rekonstruere opdelingstider og grenpopulationsstørrelser med god nøjagtighed (Fig. 3b), idet det matchede allelfordelingen næsten nøjagtigt (Supplerende Fig. 6). Vi testede også dens robusthed med en mindre stikprøvestørrelse i kun én population (som i de danske prøver, der er undersøgt her) og under iblanding (Supplerende note 5, Supplerende fig. 7).
Vi anvendte herefter rarecoal på 524 prøver fra seks populationer i Europa (fig. 3c,d) for at estimere et europæisk demografisk træ, som vi kunne placere de gamle prøver i. Da de britiske prøver i 1000-genomprojektet falder i tre forskellige klynger, der afspejler tre prøveplaceringer (fra Kent, Cornwall og Orkneyøerne, som en del af projektet Peoples of the British Isles4,21, Supplerende note 4)16 , tilpassede vi forskellige træer til disse forskellige grupper (Supplerende fig. 8). Det fælles træk i alle tre træer er en første opsplitning mellem Syd- og Nordeuropa med et mediantidspunkt ∼7.000 år siden, efterfulgt af yderligere tre adskillelser tæt i tid ∼5.000 år siden mellem Holland, Danmark, Finland og Storbritannien. Interessant nok opnåede vi ved brug af de britiske prøver fra Cornwall et træ, hvor Cornwall udgør en outgroup til den hollandske, danske og finske befolkning (Fig. 3c). Når vi derimod bruger Kent, danner det en klade med den hollandske befolkning (Fig. 3d), hvilket er i overensstemmelse med en højere angelsaksisk afstamning i det sydlige England end i Cornwall. Når vi bruger Orkney-populationen som den britiske gren, finder vi en lignende træ-topologi som for Cornwall. Disse resultater viser, at både Cornwall og Orkney er mere fjernt beslægtet med det europæiske fastland, end Kent er. Spidsgrenens effektive befolkningsstørrelse er lavest i Finland (∼12.000), hvilket er i overensstemmelse med tidligere observationer22,23 , og højest i Kent (∼191.000) og i Nederlandene (∼184.000). For de europæiske data er tilpasningen af allelfordelingen dårligere end for de simulerede data (Supplerende fig. 9), hvilket formentlig skyldes forenklende modelantagelser om en konstant populationsstørrelse i hver gren og fraværet af migration.
Det relativt nye estimat for opdelingstidspunktet mellem Italien og Spanien, ∼2.600 år siden, kan være en konsekvens af migration efter en tidligere adskillelse; populationsstørrelsen af den italiensk-spanske forfaderpopulation blev anslået til at være ekstremt stor, og en øvre grænse kunne ikke bestemmes, hvilket kunne være en artefakt af forfædrenes substruktur eller blanding. En anden forklaring kunne være en fælles blandingskilde i både den spanske og den italienske befolkning, hvilket har resulteret i relativt ny fælles forfædre. Vi viser i supplerende figur 7, hvordan iblanding kan ændre rarecoal-estimater af estimater af effektiv populationsstørrelse og splittider.
Modellering af forfædre af gamle genomer ved hjælp af rarecoal
Ud over at rekonstruere det bredere europæiske forhold fra et stort prøvesæt kan rarecoal bruges til at evaluere forholdet mellem en enkelt gammel prøve og det europæiske træ. For at gøre dette antager vi en model, hvor den enkelte prøves stammepopulation smelter sammen med det europæiske træ på en bestemt gren på et bestemt tidspunkt før prøvens oprindelsesdato. Vi kan derefter bruge rarecoal til at evaluere sandsynligheden for de fælles alleldelingsdata mellem den gamle prøve og de moderne populationer under hver model, specificeret ved grenen og sammenlægningstidspunktet i træet (fig. 4, supplerende note 5). Der var en markant forskel mellem jernalderprøverne og prøverne fra den angelsaksiske æra: prøverne fra den angelsaksiske æra smeltede for det meste sammen på de hollandske og danske grene, mens jernalderprøverne fortrinsvis smeltede sammen ved bunden af forfædrenes gren for alle moderne nordeuropæiske prøver. Undtagelsen er, at den tidlige angelsaksiske O4 viser det samme signal som jernalderprøverne, hvilket stemmer overens med analysen af den sjældne alleldeling (Fig. 2). For prøve O3, som viste sig at være af blandet herkomst i alleldelinganalysen, finder vi den største sandsynlighed for at fusionere med den danske gren. I denne prøve er der imidlertid også en markant større sandsynlighed for at fusionere med det samme nordeuropæiske forfædreforgreningssted, som det ses for jernalderprøverne. Dette er i overensstemmelse med, at O3 er af nyligt blandet indfødt og angelsaksisk oprindelse, selv om vi ikke kan udelukke mere komplekse scenarier, der involverer tidligere blandede forfædre hos denne person i den romersk-britiske periode. Der er en vis differentiering blandt prøverne fra den angelsaksiske æra, idet prøverne O1, O2, HS1 og HS3 har den største sandsynlighed for at fusionere med den nederlandske gren, mens O3 og HS2 har den største sandsynlighed for at fusionere med den danske gren, selv om forskellen i sandsynlighed mellem disse to muligheder i nogle tilfælde er lille. Signalerne fra HS3, HI1 og L er mere spredte på grund af lav dækning, men stemmer overens med de andre resultater.
Kortlægningen af de gamle prøver på træet er ens for træet, der bruger Kent som britisk befolkning (Supplerende fig. 10) og for træet, der bruger Cornwall som britisk proxy (fig. 4). Især kortlægger jernalderprøverne på den forfædte gren af nordeuropæiske befolkninger, uanset om man bruger Kent eller Cornwall som britisk proxy. Dette tyder på, at ingen af de nutidige populationer i vores datasæt, herunder populationen fra Cornwall, er så tæt beslægtet med jernalderprøverne som Danmark og Nederlandene er med de angelsaksiske prøver.
Vi validerede vores fremgangsmåde med at kortlægge individuelle prøver i et træ ved at placere moderne prøver på det samme træ som i Fig. 4. Vi finder alle prøver fra populationer, der er anvendt ved opbygningen af træet, placeret på spidsen af deres respektive gren som forventet (Supplerende fig. 11). Når vi kortlægger prøver fra grupper, der ikke er til stede i træet, som det er tilfældet for prøver fra Kent og Orkney, finder vi, at de kortlægges på samme forfædres placering som jernalderprøverne (Supplerende fig. 11), hvilket bekræfter, at de er af forskellig forfædre fra Cornish-populationen og andre populationer, der er anvendt ved opbygningen af træet, på samme måde som jernalderprøverne. Som beskrevet i supplerende note 5 afhænger vores kortlægningsmetode i afgørende grad af en passende model for referencepopulationerne. Når vi bruger Kent-populationen til at opbygge træet (Fig. 3c), finder vi, at kortlægningen af britiske prøver bliver dårligere (Supplerende fig. 12), hvilket kan skyldes, at Kent-populationen er mindre genetisk defineret og mere blandet end gruppen fra Cornwall. I sådanne tilfælde er vi nødt til at modellere populationsfylogenier med blanding og genflow, og yderligere udvikling på rarecoal vil gøre det muligt for os at undersøge disse mere komplekse scenarier.