Prover og sekventering

Vi genererede genomsekvenser for 10 prøver, der blev indsamlet fra tre steder i Østengland tæt på Cambridge: Hinxton (fem prøver, Supplerende fig. 1), Oakington (fire prøver, Supplerende fig. 2) og Linton (1 prøve), som blev udvalgt fra i alt 23 screenede prøver baseret på DNA-bevaring (Fig. 1b, Tabel 1, Supplerende tabel 1, Supplerende tabel 1, Supplerende note 1). Alle sekventerede prøver blev radiokarbondateret (Supplerende tabel 2) og falder i tre tidsperioder: Linton-prøven og to Hinxton-prøver er fra den sene jernalder (∼100 BCE), de fire prøver fra Oakington fra den tidlige angelsaksiske periode (femte til sjette århundrede), og tre Hinxton-prøver fra den midterste angelsaksiske periode (syvende til niende århundrede; Fig. 1c). De to jernalderprøver fra Hinxton er mænd, mens alle andre prøver er kvinder, baseret på Y-kromosomdækning og i overensstemmelse med arkæologien. Alle prøver blev sekventeret til genomdækning på tværs af genomet fra 1x til 12x (tabel 1). Alle har en kontaminationsgrad på under 2 %, som anslået både fra mitokondrie-DNA og fra kerne-DNA (Supplerende tabel 3, Supplerende note 2). Mitokondrielle og Y-kromosomale haplogrupper i alle prøver er blandt de mest almindelige haplogrupper i det nuværende Nordvesteuropa (tabel 1)11,12 og er i dette tilfælde ikke informative med hensyn til at skelne mellem indvandrer- og indfødte forfædre.

Tabel 1 En oversigt over alle sekventerede prøver i denne undersøgelse.

Vi genererede et hovedkomponentplot af de 10 gamle prøver sammen med relevante europæiske populationer udvalgt fra offentliggjorte data13,14 (Supplerende fig. 3). De gamle prøver falder inden for intervallet af moderne engelske og skotske prøver, med jernalderprøverne fra Hinxton og Linton, der falder tættere på moderne engelske og franske prøver, mens de fleste prøver fra den angelsaksiske æra ligger tættere på moderne skotske og norske prøver. Samlet set er de populationsgenetiske forskelle mellem disse prøver på fælles alleler dog små.

Stimulering af den angelsaksiske komponent i det moderne Storbritannien

Mens hovedkomponentanalyser kan afsløre relativt gamle befolkningsstrukturer, som f.eks. genereret af langtidsisolation-by-distance-modeller15, giver helgenomsekvenser os mulighed for at studere sjældne varianter for at få indsigt i nyere befolkningsstrukturer. Vi identificerede sjældne varianter med en allelfrekvens på op til 1 % i et referencepanel bestående af 433 europæiske individer fra det moderne Finland, Spanien, Italien, Nederlandene og Danmark, for hvilke der findes genomdækkende sekvensdata16,17,18. Vi bestemte for hver gammel prøve antallet af sjældne varianter, der deles med hver referencepopulation (Supplerende note 3). Der er slående forskelle i prøvernes delingsmønstre, hvilket illustreres af forholdet mellem antallet af sjældne alleler, der deles med hollandske individer, og antallet, der deles med spanske individer (fig. 2a). De midterste angelsaksiske prøver fra Hinxton (HS1, HS2 og HS3) deler relativt flere sjældne varianter med moderne hollandske end jernalderprøverne fra Hinxton (HI1 og HI2) og Linton (L). De tidlige angelsaksiske prøver fra Oakington er mere forskelligartede med O1 og O2 tættere på de midterste angelsaksiske prøver, O4 udviser samme mønster som jernalderprøverne, og O3 viser et mellemliggende niveau af alleldeling, hvilket tyder på blandet afstamning. Forskellene mellem prøverne er størst i lavfrekvente alleler og falder med stigende allelfrekvens. Dette er i overensstemmelse med, at mutationer med lavere frekvens i gennemsnit er yngre, hvilket afspejler nyere særskilt forfædre, sammenlignet med mutationer med højere frekvens, der afspejler ældre delt forfædre.

Figur 2: Relativ sjælden alleldeling mellem gamle og moderne prøver.
Figur2

(a) Forholdet mellem antallet af sjældne alleler, der deles med moderne hollandske og spanske prøver, som en funktion af allelantallet i sættet af moderne prøver. Koder for gamle prøver (venstre og midterste afsnit) er defineret i tabel 1. Resultaterne fra nutidige britiske individer (højre panel) er et gennemsnit over 10 individer fra hver delpopulation. Resultater fra et hollandsk og et spansk individ er vist til sammenligning. Fejlstænger er beregnet ud fra rå tællestatistik og ved hjælp af s.e.-forplantning (afsnittet Metoder). (b) Den relative andel af sjældne alleler, der deles med moderne hollandske alleler sammenlignet med spanske alleler, integreret op til allelantal fem i de moderne prøver. Jernalder- og angelsaksiske prøver markerer de to yderpunkter på denne projektion, mens moderne prøver er spredt mellem dem, hvilket indikerer blandede niveauer af angelsaksisk afstamning, som i gennemsnit er højere i Østengland end i Wales og Skotland, med et stort overlap. To tidlige angelsaksiske prøver fra Oakington er blevet udelukket fra beregningen af gennemsnittet, angivet med tomme cirkler, fordi de viser tegn på at være blandede (O3) eller af ikke-indvandrerforfædre (O4). En moderne prøve fra Skotland er også udelukket, markeret med en tom cirkel, fordi den er en klar outlier i forhold til alle andre skotske prøver. Prøverne er vist med en tilfældig vertikal forskydning for at gøre det mere overskueligt. Fejlstængerne (metodeafsnittet) for de moderne prøver er udeladt her, men er af samme størrelsesorden som for de gamle prøver. Data til denne figur er tilgængelige som Supplerende data 1.

Vi undersøgte også ved hjælp af samme metode 30 moderne prøver fra UK10K-projektet19, 10 hver med fødesteder i Østengland, Wales og Skotland. Samlet set ligger disse prøver tættere på jernalderprøverne end på prøverne fra den angelsaksiske æra (fig. 2a). Der er en lille, men signifikant forskel mellem gennemsnitsværdierne i de tre moderne britiske prøvegrupper, idet de østengelske prøver deler lidt flere alleler med de hollandske, og de skotske prøver ligner mere jernalderprøverne.

For at kvantificere afstamningsfraktionerne tilpassede vi de moderne britiske prøver med en blandingsmodel af gamle komponenter ved at placere alle prøverne på en lineær akse af relativ hollandsk alleldeling, der integrerer data fra alleltællinger 1-5 (Fig. 2b, Supplerende note 3). Efter dette mål er de østengelske prøver i overensstemmelse med 38 % angelsaksisk herkomst i gennemsnit, med en stor spredning fra 25 til 50 %, og de walisiske og skotske prøver er i overensstemmelse med 30 % angelsaksisk herkomst i gennemsnit, igen med en stor spredning (Supplerende tabel 4). Disse tal er lavere i gennemsnit, hvis vi udelukker individet HS3 med lav dækning fra den angelsaksiske gruppe (35 % for de østengelske prøver). Et lignende resultat opnås, når vi analyserer moderne britiske prøver fra 1000-genomprojektet, som udviser en stærk understruktur (Supplerende note 4, Supplerende fig. 4). Vi finder, at prøver fra Kent viser en lignende angelsaksisk komponent på 37 %, når de sammenlignes med finske og spanske udgrupper, med en lavere værdi for prøver fra Cornwall (Supplerende fig. 5a, Supplerende tabel 4).

En alternativ og potentielt mere direkte metode til at estimere disse fraktioner er at måle den sjældne alleldeling direkte mellem de moderne britiske og de gamle prøver. Selv om det er meget mere støjende end analysen ved hjælp af hollandske og spanske outgroups, giver dette konsistente resultater (Supplerende fig. 5b, Supplerende note 3). Sammenfattende tyder denne analyse på, at i gennemsnit 25-40 % af de moderne briteres forfædre blev bidraget af angelsaksiske indvandrere, med det højere antal i Østengland tættere på indvandrerkilden. Forskellen mellem grupper inden for Storbritannien er overraskende lille sammenlignet med de store forskelle, der er set i de gamle prøver. Dette gælder både for UK10K-prøverne og for de britiske prøver fra 1.000 Genomes-projektet, selv om vi bemærker, at UK10K-prøvernes placering måske ikke fuldt ud afspejler den historiske geografiske befolkningsstruktur på grund af nyere befolkningsblanding.

Et forbehold ved vores analyse er, at vi bruger de tre jernalderprøver fra Cambridgeshire som proxies for den oprindelige britiske befolkning, som uden tvivl var struktureret, selv om det synes rimeligt at tage disse som repræsentanter i det mindste for Østengland. Desuden vil ethvert kontinentalt genetisk bidrag fra den romersk-britiske periode blive indregnet i den tildelte angelsaksiske komponent, ligesom et sen-angelsaksisk skandinavisk eller normannisk bidrag ville blive indregnet i den tildelte angelsaksiske komponent. Disse virkninger ville dog kun være stærke, hvis bidraget var stort og stærkt skævt fordelt på den hollandsk-spanske akse.

Bygning af en populationshistorisk model ud fra sjældne varianter

For at få yderligere indsigt i den historie, der ligger til grund for disse delingsmønstre, udviklede vi en følsom ny metode, rarecoal, som tilpasser en demografisk model til den fælles fordeling af sjældne alleler i et stort antal prøver (Supplerende noter 5 og 6). Vores strategi er at opbygge en model i form af en populationsfylogeni af forholdet mellem moderne europæiske populationer, som vi kan placere de gamle prøver ind i. Vi erkender, at en model uden blanding og genstrøm efter opsplitning er utilstrækkelig som en fuldstændig beskrivelse af den europæiske befolkningshistorie. Dette er imidlertid en naturlig forenklet model, og fokus i denne undersøgelse er på at forstå de genetiske relationer mellem indvandrere og indfødte befolkninger i England, for hvilke denne populationsfylogenimodel giver et rimeligt stillads.

Den centrale idé er at modellere eksplicit usikkerheden i fortiden af fordelingen af afledte alleler, men tilnærme den tilsvarende fordeling for ikke-afledte alleler ved dens forventning (Fig. 3a). Fordi rarecoal eksplicit modellerer sjældne mutationer, estimerer den adskillelser i mutationsklokketid snarere end genetisk drifttid, i modsætning til metoder baseret på ændringer i allelfrekvensen i almindelige varianter20. Vi testede først rarecoal på simulerede data og fandt, at det var i stand til at rekonstruere opdelingstider og grenpopulationsstørrelser med god nøjagtighed (Fig. 3b), idet det matchede allelfordelingen næsten nøjagtigt (Supplerende Fig. 6). Vi testede også dens robusthed med en mindre stikprøvestørrelse i kun én population (som i de danske prøver, der er undersøgt her) og under iblanding (Supplerende note 5, Supplerende fig. 7).

Figur 3: Modellering af Europas historie med rarecoal.
Figur3

(a) Rarecoal sporer sandsynlighederne for afstamninger af sjældne alleler (rød) inden for en koalescentramme tilbage i tiden og tilnærmer sig fordelingen af ikke-afledte alleler (mørkeblå) ved dens gennemsnit. (b) Ved at optimere sandsynligheden for dataene under modellen kan vi estimere populationsstørrelser og opdelingstider. Testet med simulerede data stemmer estimaterne nøje overens med de sande værdier (i parentes). (c) Anvendt på hundredvis af europæiske individer estimerer rarecoal splittider som angivet på tidsaksen og populationsstørrelser for hver gren. (d) Samme som c, men med prøver fra Kent i stedet for Cornwall som en proxy for den britiske befolkning. Den forskellige trætopologi mellem c og d afspejler forskellige befolkningshistorier i Cornwall sammenlignet med Kent i Sydengland.

Vi anvendte herefter rarecoal på 524 prøver fra seks populationer i Europa (fig. 3c,d) for at estimere et europæisk demografisk træ, som vi kunne placere de gamle prøver i. Da de britiske prøver i 1000-genomprojektet falder i tre forskellige klynger, der afspejler tre prøveplaceringer (fra Kent, Cornwall og Orkneyøerne, som en del af projektet Peoples of the British Isles4,21, Supplerende note 4)16 , tilpassede vi forskellige træer til disse forskellige grupper (Supplerende fig. 8). Det fælles træk i alle tre træer er en første opsplitning mellem Syd- og Nordeuropa med et mediantidspunkt ∼7.000 år siden, efterfulgt af yderligere tre adskillelser tæt i tid ∼5.000 år siden mellem Holland, Danmark, Finland og Storbritannien. Interessant nok opnåede vi ved brug af de britiske prøver fra Cornwall et træ, hvor Cornwall udgør en outgroup til den hollandske, danske og finske befolkning (Fig. 3c). Når vi derimod bruger Kent, danner det en klade med den hollandske befolkning (Fig. 3d), hvilket er i overensstemmelse med en højere angelsaksisk afstamning i det sydlige England end i Cornwall. Når vi bruger Orkney-populationen som den britiske gren, finder vi en lignende træ-topologi som for Cornwall. Disse resultater viser, at både Cornwall og Orkney er mere fjernt beslægtet med det europæiske fastland, end Kent er. Spidsgrenens effektive befolkningsstørrelse er lavest i Finland (∼12.000), hvilket er i overensstemmelse med tidligere observationer22,23 , og højest i Kent (∼191.000) og i Nederlandene (∼184.000). For de europæiske data er tilpasningen af allelfordelingen dårligere end for de simulerede data (Supplerende fig. 9), hvilket formentlig skyldes forenklende modelantagelser om en konstant populationsstørrelse i hver gren og fraværet af migration.

Det relativt nye estimat for opdelingstidspunktet mellem Italien og Spanien, ∼2.600 år siden, kan være en konsekvens af migration efter en tidligere adskillelse; populationsstørrelsen af den italiensk-spanske forfaderpopulation blev anslået til at være ekstremt stor, og en øvre grænse kunne ikke bestemmes, hvilket kunne være en artefakt af forfædrenes substruktur eller blanding. En anden forklaring kunne være en fælles blandingskilde i både den spanske og den italienske befolkning, hvilket har resulteret i relativt ny fælles forfædre. Vi viser i supplerende figur 7, hvordan iblanding kan ændre rarecoal-estimater af estimater af effektiv populationsstørrelse og splittider.

Modellering af forfædre af gamle genomer ved hjælp af rarecoal

Ud over at rekonstruere det bredere europæiske forhold fra et stort prøvesæt kan rarecoal bruges til at evaluere forholdet mellem en enkelt gammel prøve og det europæiske træ. For at gøre dette antager vi en model, hvor den enkelte prøves stammepopulation smelter sammen med det europæiske træ på en bestemt gren på et bestemt tidspunkt før prøvens oprindelsesdato. Vi kan derefter bruge rarecoal til at evaluere sandsynligheden for de fælles alleldelingsdata mellem den gamle prøve og de moderne populationer under hver model, specificeret ved grenen og sammenlægningstidspunktet i træet (fig. 4, supplerende note 5). Der var en markant forskel mellem jernalderprøverne og prøverne fra den angelsaksiske æra: prøverne fra den angelsaksiske æra smeltede for det meste sammen på de hollandske og danske grene, mens jernalderprøverne fortrinsvis smeltede sammen ved bunden af forfædrenes gren for alle moderne nordeuropæiske prøver. Undtagelsen er, at den tidlige angelsaksiske O4 viser det samme signal som jernalderprøverne, hvilket stemmer overens med analysen af den sjældne alleldeling (Fig. 2). For prøve O3, som viste sig at være af blandet herkomst i alleldelinganalysen, finder vi den største sandsynlighed for at fusionere med den danske gren. I denne prøve er der imidlertid også en markant større sandsynlighed for at fusionere med det samme nordeuropæiske forfædreforgreningssted, som det ses for jernalderprøverne. Dette er i overensstemmelse med, at O3 er af nyligt blandet indfødt og angelsaksisk oprindelse, selv om vi ikke kan udelukke mere komplekse scenarier, der involverer tidligere blandede forfædre hos denne person i den romersk-britiske periode. Der er en vis differentiering blandt prøverne fra den angelsaksiske æra, idet prøverne O1, O2, HS1 og HS3 har den største sandsynlighed for at fusionere med den nederlandske gren, mens O3 og HS2 har den største sandsynlighed for at fusionere med den danske gren, selv om forskellen i sandsynlighed mellem disse to muligheder i nogle tilfælde er lille. Signalerne fra HS3, HI1 og L er mere spredte på grund af lav dækning, men stemmer overens med de andre resultater.

Figur 4: Placering af gamle prøver i det europæiske træ.
figur4

Givet det europæiske træ med Cornwall som britisk befolkningsgren, kortlægger vi gamle prøver på dette træ. Vi farvelægger hvert punkt i træet i henhold til sandsynligheden for, at den gamle prøves forfædres gren går sammen i det pågældende punkt. Det punkt, hvor der er størst sandsynlighed for sammenlægning, er markeret med en sort cirkel. Analysen viser, at jernalderprøverne L, HI1 og HI2 har den største sandsynlighed for at smelte sammen med den oprindelige gren af alle de analyserede nordeuropæiske befolkninger, mens de angelsaksiske prøver smelter sammen med henholdsvis den nederlandske og danske gren. De lavt dækkende prøver L, HI1 og HS3 har den største spredning i sandsynligheden, men er i overensstemmelse med de højere dækkende prøver.

Kortlægningen af de gamle prøver på træet er ens for træet, der bruger Kent som britisk befolkning (Supplerende fig. 10) og for træet, der bruger Cornwall som britisk proxy (fig. 4). Især kortlægger jernalderprøverne på den forfædte gren af nordeuropæiske befolkninger, uanset om man bruger Kent eller Cornwall som britisk proxy. Dette tyder på, at ingen af de nutidige populationer i vores datasæt, herunder populationen fra Cornwall, er så tæt beslægtet med jernalderprøverne som Danmark og Nederlandene er med de angelsaksiske prøver.

Vi validerede vores fremgangsmåde med at kortlægge individuelle prøver i et træ ved at placere moderne prøver på det samme træ som i Fig. 4. Vi finder alle prøver fra populationer, der er anvendt ved opbygningen af træet, placeret på spidsen af deres respektive gren som forventet (Supplerende fig. 11). Når vi kortlægger prøver fra grupper, der ikke er til stede i træet, som det er tilfældet for prøver fra Kent og Orkney, finder vi, at de kortlægges på samme forfædres placering som jernalderprøverne (Supplerende fig. 11), hvilket bekræfter, at de er af forskellig forfædre fra Cornish-populationen og andre populationer, der er anvendt ved opbygningen af træet, på samme måde som jernalderprøverne. Som beskrevet i supplerende note 5 afhænger vores kortlægningsmetode i afgørende grad af en passende model for referencepopulationerne. Når vi bruger Kent-populationen til at opbygge træet (Fig. 3c), finder vi, at kortlægningen af britiske prøver bliver dårligere (Supplerende fig. 12), hvilket kan skyldes, at Kent-populationen er mindre genetisk defineret og mere blandet end gruppen fra Cornwall. I sådanne tilfælde er vi nødt til at modellere populationsfylogenier med blanding og genflow, og yderligere udvikling på rarecoal vil gøre det muligt for os at undersøge disse mere komplekse scenarier.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.