Vzorky a sekvenování

Vytvořili jsme sekvence genomů pro 10 vzorků, které byly odebrány ze tří lokalit ve východní Anglii poblíž Cambridge: Hinxton (5 vzorků, doplňkový obr. 1), Oakington (4 vzorky, doplňkový obr. 2) a Linton (1 vzorek), které byly vybrány z celkem 23 prověřených vzorků na základě zachovalosti DNA (obr. 1b, tab. 1, doplňková tab. 1, doplňková poznámka 1). Všechny sekvenované vzorky byly radiokarbonově datovány (Doplňková tab. 2) a spadají do tří časových období: vzorek z Lintonu a dva vzorky z Hinxtonu pocházejí z pozdní doby železné (∼100 př. n. l.), čtyři vzorky z Oakingtonu z raného anglosaského období (5. až 6. století) a tři vzorky z Hinxtonu ze středního anglosaského období (7. až 9. století; obr. 1c). Dva vzorky z doby železné z Hinxtonu jsou mužské, všechny ostatní vzorky jsou ženské, což vychází z pokrytí chromozomu Y a odpovídá archeologii. Všechny vzorky byly sekvenovány s genomovým pokrytím 1x až 12x (tabulka 1). U všech byla míra kontaminace nižší než 2 %, jak bylo odhadnuto z mitochondriální DNA, tak z jaderné DNA (doplňková tabulka 3, doplňková poznámka 2). Mitochondriální haploskupiny a haploskupiny chromozomu Y všech vzorků patří k nejběžnějším haploskupinám v současné severozápadní Evropě (tabulka 1)11,12 a v tomto případě nejsou informativní pro rozlišení přistěhovaleckého a domorodého původu.

Tabulka 1 Přehled všech sekvenovaných vzorků v této studii.

Vytvořili jsme graf hlavních komponent 10 starobylých vzorků spolu s příslušnými evropskými populacemi vybranými z publikovaných údajů13,14 (doplňkový obr. 3). Starověké vzorky spadají do rozmezí moderních anglických a skotských vzorků, přičemž vzorky z doby železné z Hinxtonu a Lintonu spadají blíže k moderním anglickým a francouzským vzorkům, zatímco většina vzorků z anglosaské doby je blíže k moderním skotským a norským vzorkům. Celkově jsou však populačně genetické rozdíly mezi těmito vzorky u společných alel malé.

Odhad anglosaské složky v moderní Británii

Zatímco analýza hlavních komponent může odhalit relativně starou populační strukturu, například vytvořenou na základě dlouhodobých modelů izolace podle vzdálenosti15, celogenomové sekvence nám umožňují studovat vzácné varianty a získat tak vhled do novější populační struktury. Identifikovali jsme vzácné varianty s frekvencí alel do 1 % v referenčním panelu 433 evropských jedinců z moderního Finska, Španělska, Itálie, Nizozemska a Dánska, pro které jsou k dispozici data o celogenomových sekvencích16,17,18. Pro každý starobylý vzorek jsme určili počet vzácných variant sdílených s každou referenční populací (doplňková poznámka 3). Ve vzorcích sdílení vzorků jsou nápadné rozdíly, které ilustruje poměr počtu vzácných alel sdílených s nizozemskými jedinci a počtu sdílených se španělskými jedinci (obr. 2a). Středoanglosaské vzorky z Hinxtonu (HS1, HS2 a HS3) sdílejí relativně více vzácných variant s moderními Nizozemci než vzorky z doby železné z Hinxtonu (HI1 a HI2) a Lintonu (L). Raně anglosaské vzorky z Oakingtonu jsou rozmanitější, přičemž O1 a O2 se blíží středně anglosaským vzorkům, O4 vykazuje stejný vzorec jako vzorky z doby železné a O3 vykazuje střední úroveň sdílení alel, což naznačuje smíšený původ. Rozdíly mezi vzorky jsou největší u alel s nízkou frekvencí a s rostoucí frekvencí alel se snižují. To odpovídá tomu, že mutace s nižší frekvencí jsou v průměru mladší, což odráží nedávný odlišný původ, ve srovnání s mutacemi s vyšší frekvencí, které odrážejí starší společný původ.

Obrázek 2: Relativní sdílení vzácných alel mezi starověkými a moderními vzorky.
obrázek2

(a) Poměr počtu vzácných alel sdílených s moderními nizozemskými a španělskými vzorky jako funkce počtu alel v souboru moderních vzorků. Kódy starověkých vzorků (levá a prostřední část) jsou definovány v tabulce 1. Výsledky ze současných britských jedinců (pravý panel) jsou zprůměrovány pro 10 jedinců z každé subpopulace. Pro srovnání jsou uvedeny výsledky od nizozemského a španělského jedince. Chybové úsečky jsou vypočteny z hrubých statistik počtů a s použitím propagace s.e. (oddíl Metody). (b) Relativní podíl vzácných alel sdílených s moderními Nizozemci ve srovnání se španělskými alelami, integrovaný do počtu alel pět v moderních vzorcích. Vzorky z doby železné a anglosaské vyznačují na této projekci dva extrémy, zatímco moderní vzorky jsou rozprostřeny mezi nimi, což ukazuje na smíšenou úroveň anglosaského původu, který je v průměru vyšší ve východní Anglii než ve Walesu a Skotsku, s velkým překryvem. Dva raně anglosaské vzorky z Oakingtonu byly z výpočtu průměru vyloučeny, jsou označeny prázdnými kroužky, protože vykazují známky příměsi (O3) nebo neimigrantského původu (O4). Jeden moderní vzorek ze Skotska je rovněž vyloučen, označen prázdným kroužkem, protože je zřetelně odlehlý vzhledem ke všem ostatním skotským vzorkům. Vzorky jsou pro lepší přehlednost zobrazeny s náhodným vertikálním posunem. Chybové úsečky (oddíl Metody) pro moderní vzorky jsou zde vynechány, ale mají stejný řád jako u starých vzorků. Data pro tento obrázek jsou k dispozici jako doplňková data 1.

Stejnou metodou jsme také zkoumali 30 moderních vzorků z projektu UK10K19, po 10 s místy narození ve východní Anglii, Walesu a Skotsku. Celkově mají tyto vzorky blíže ke vzorkům z doby železné než ke vzorkům z anglosaského období (obr. 2a). Mezi průměrnými hodnotami ve třech skupinách moderních britských vzorků je malý, ale významný rozdíl, přičemž východoanglické vzorky sdílejí o něco více alel s nizozemskými a skotské vzorky se více podobají vzorkům z doby železné.

Pro kvantifikaci podílů předků jsme moderní britské vzorky přizpůsobili modelu směsi starobylých složek tak, že jsme všechny vzorky umístili na lineární osu relativního sdílení nizozemských alel, která integruje údaje z počtu alel 1-5 (obr. 2b, doplňková poznámka 3). Podle tohoto měřítka odpovídají vzorky z východní Anglie v průměru 38 % anglosaského původu s velkým rozpětím od 25 do 50 % a velšské a skotské vzorky odpovídají v průměru 30 % anglosaského původu, opět s velkým rozpětím (doplňková tabulka 4). Tato čísla jsou v průměru nižší, pokud z anglosaské skupiny vyloučíme jedince HS3 s nízkým pokrytím (35 % u východoanglických vzorků). Podobného výsledku dosáhneme, když analyzujeme moderní britské vzorky z projektu 1000 genomů, které vykazují silnou substrukturu (Doplňková poznámka 4, Doplňkový obr. 4). Zjistili jsme, že vzorky z Kentu vykazují podobnou anglosaskou složku 37 % při srovnání s finskými a španělskými outgroups, s nižší hodnotou pro vzorky z Cornwallu (Doplňkový obr. 5a, Doplňková tab. 4).

Alternativním a potenciálně přímějším přístupem k odhadu těchto podílů je měření sdílení vzácných alel přímo mezi moderními britskými a starobylými vzorky. Tento postup je sice mnohem hlučnější než analýza s použitím nizozemských a španělských výběžků, ale poskytuje konzistentní výsledky (Doplňkový obr. 5b, Doplňková poznámka 3). Souhrnně tato analýza naznačuje, že v průměru 25-40 % předků moderních Britů pochází od anglosaských přistěhovalců, přičemž jejich počet je vyšší ve východní Anglii blíže zdroji přistěhovalců. Rozdíly mezi jednotlivými skupinami v rámci Británie jsou překvapivě malé ve srovnání s velkými rozdíly pozorovanými u starověkých vzorků. To platí jak pro vzorky UK10K, tak pro britské vzorky z projektu 1000 genomů, i když podotýkáme, že umístění vzorků UK10K nemusí plně odrážet historickou geografickou strukturu populace kvůli nedávnému promíchání obyvatelstva.

Jednou výhradou naší analýzy je, že používáme tři vzorky z doby železné z Cambridgeshire jako zástupné vzorky pro původní britskou populaci, která nepochybně byla strukturovaná, i když se zdá rozumné brát je jako zástupce alespoň pro východní Anglii. Navíc jakýkoli kontinentální genetický příspěvek z římsko-britského období by byl započítán do přiřazené anglosaské složky, stejně jako pozdně anglosaský skandinávský nebo normanský příspěvek. Tyto vlivy by však byly silné pouze v případě, že by příspěvek byl velký a silně vychýlený na nizozemsko-španělskou osu.

Vytvoření modelu historie populace ze vzácných variant

Abychom získali další vhled do historie, která je základem těchto vzorců sdílení, vyvinuli jsme novou citlivou metodu, rarecoal, která přizpůsobuje demografický model společnému rozložení vzácných alel ve velkém počtu vzorků (doplňkové poznámky 5 a 6). Naše strategie spočívá v sestavení modelu v podobě populační fylogeneze vztahů mezi moderními evropskými populacemi, do kterého můžeme umístit staré vzorky. Uvědomujeme si, že model bez příměsi a toku genů po rozdělení je jako úplný popis historie evropských populací nedostatečný. Jedná se však o přirozený zjednodušený model a v této studii se zaměřujeme na pochopení genetických vztahů přistěhovalců a původních populací v Anglii, pro které tento model populační fylogeneze poskytuje rozumné lešení.

Klíčovou myšlenkou je explicitně modelovat nejistotu v minulosti rozložení odvozených alel, ale odpovídající rozložení pro neodvozené alely aproximovat jeho očekáváním (obr. 3a). Protože rarecoal explicitně modeluje vzácné mutace, odhaduje separace v čase mutačních hodin spíše než v čase genetického driftu, na rozdíl od metod založených na změnách frekvence alel u běžných variant20. Nejprve jsme rarecoal otestovali na simulovaných datech a zjistili jsme, že je schopen rekonstruovat časy rozdělení a velikosti větví populace s dobrou přesností (obr. 3b) a téměř přesně odpovídá sdílení alel (doplňkový obr. 6). Testovali jsme také jeho robustnost při menší velikosti vzorku pouze v jedné populaci (jako u zde studovaných dánských vzorků) a při příměsi (Doplňková poznámka 5, Doplňkový obr. 7).

Obr. 3: Modelování evropské historie pomocí rarecoal.
obrázek3

(a) Rarecoal sleduje pravděpodobnosti pro linie vzácných alel (červeně) v rámci koalescence zpět v čase a aproximuje distribuci neodvozených alel (tmavě modře) jejím průměrem. (b) Optimalizací pravděpodobnosti dat v rámci modelu můžeme odhadnout velikosti populací a doby rozdělení. Při testování se simulovanými daty odhady přesně odpovídají skutečným hodnotám (v závorkách). (c) Při aplikaci na stovky evropských jedinců odhaduje rarecoal časy rozdělení, jak je uvedeno na časové ose, a velikosti populací pro každou větev. (d) Stejné jako c, ale s použitím vzorků z Kentu místo Cornwallu jako zástupce britské populace. Rozdílná topologie stromu mezi c a d odráží odlišnou populační historii v Cornwallu ve srovnání s Kentem v jižní Anglii.

Dále jsme aplikovali rarecoal na 524 vzorků ze šesti populací v Evropě (obr. 3c,d), abychom odhadli evropský demografický strom, do kterého jsme mohli zařadit staré vzorky. Protože britské vzorky v rámci projektu 1000 genomů spadají do tří různých shluků, které odrážejí tři místa odběru vzorků (z Kentu, Cornwallu a Orknejských ostrovů, v rámci projektu Peoples of the British Isles4,21, doplňková poznámka 4)16 , přiřadili jsme těmto různým skupinám různé stromy (doplňkový obr. 8). Společným rysem všech tří stromů je první rozdělení mezi jižní a severní Evropou se střední dobou ∼7 000 let, následované dalšími třemi časově blízkými rozděleními ∼5 000 let mezi Nizozemím, Dánskem, Finskem a Británií. Zajímavé je, že při použití britských vzorků z Cornwallu jsme získali strom, kde Cornwall tvoří outgroup k nizozemské, dánské a finské populaci (obr. 3c). Naopak při použití Kentu tvoří klad s nizozemskou populací (obr. 3d), což odpovídá vyššímu anglosaskému původu na jihu Anglie než v Cornwallu. Když jako britskou větev použijeme populaci Orknejí, najdeme podobnou topologii stromu jako v případě Cornwallu. Tyto výsledky ukazují, že Cornwall i Orkneje jsou vzdálenější kontinentální Evropě než Kent. Efektivní velikost populace hrotové větve je nejnižší ve Finsku (∼12 000), což odpovídá předchozím pozorováním22,23 , a nejvyšší v Kentu (∼191 000) a v Nizozemsku (∼184 000). U evropských dat je shoda sdílení alel horší než u simulovaných dat (doplňkový obr. 9), pravděpodobně v důsledku zjednodušujících modelových předpokladů konstantní velikosti populace v každé větvi a absence migrace.

Relativně nedávný odhad doby rozdělení mezi Itálií a Španělskem, ∼2 600 let, může být důsledkem migrace po dřívějším oddělení; velikost populace italsko-španělských předků byla odhadnuta jako extrémně velká a horní hranici nebylo možné určit, což může být artefaktem substruktury předků nebo příměsi. Dalším vysvětlením by byl společný zdroj příměsi do španělské i italské populace, který by vedl k relativně nedávnému společnému původu. Na doplňkovém obr. 7 ukazujeme, jak může příměs modifikovat odhady efektivní velikosti populace a doby rozdělení pomocí rarecoal.

Modelování předků starobylých genomů pomocí rarecoal

Kromě rekonstrukce širšího evropského vztahu z velkého souboru vzorků lze rarecoal použít k vyhodnocení vztahu jediného starobylého vzorku s evropským stromem. Za tímto účelem předpokládáme model, ve kterém se populace předků jediného vzorku spojí s evropským stromem v určité větvi v určitém čase před datem původu vzorku. Pomocí nástroje rarecoal pak můžeme vyhodnotit pravděpodobnost společného sdílení údajů o alelách mezi starobylým vzorkem a moderními populacemi v rámci každého modelu určeného větví a časem splynutí ve stromu (obr. 4, doplňková poznámka 5). Mezi vzorky z doby železné a anglosaské byl výrazný rozdíl: vzorky z anglosaské doby se většinou slučovaly na nizozemskou a dánskou větev, zatímco vzorky z doby železné se u všech moderních severoevropských vzorků přednostně slučovaly na základně rodové větve. Výjimkou je, že raně anglosaský O4 vykazuje stejný signál jako vzorky z doby železné, což odpovídá analýze sdílení vzácných alel (obr. 2). U vzorku O3, který se v analýze sdílení alel jevil jako vzorek smíšeného původu, nacházíme nejvyšší pravděpodobnost splynutí s dánskou větví. U tohoto vzorku je však také nápadně vyšší pravděpodobnost splynutí se stejnou severoevropskou větví předků, jakou jsme pozorovali u vzorků z doby železné. To odpovídá tomu, že O3 je nedávno smíšeného domorodého a anglosaského původu, ačkoli nemůžeme vyloučit složitější scénáře zahrnující předchozí smíšený původ tohoto jedince během římsko-britského období. Mezi vzorky z anglosaského období existují určité rozdíly, přičemž vzorky O1, O2, HS1 a HS3 mají nejvyšší pravděpodobnost splynutí s nizozemskou větví, zatímco O3 a HS2 mají nejvyšší pravděpodobnost splynutí s dánskou větví, i když v některých případech je rozdíl v pravděpodobnosti mezi těmito dvěma možnostmi malý. Signály z HS3, HI1 a L jsou více rozptýlené kvůli nízkému pokrytí, ale odpovídají ostatním výsledkům.

Obrázek 4: Umístění starověkých vzorků do evropského stromu.
obrázek4

Podle evropského stromu s Cornwallem jako britskou populační větví mapujeme starověké vzorky na tento strom. Každý bod ve stromu vybarvíme podle pravděpodobnosti, že se v tomto bodě spojuje větev předků starobylého vzorku. Bod sloučení s maximální pravděpodobností je označen černým kroužkem. Analýza ukazuje, že vzorky z doby železné L, HI1 a HI2 mají nejvyšší pravděpodobnost splynutí s větví předků všech analyzovaných severoevropských populací, zatímco anglosaské vzorky splynou s nizozemskou, resp. dánskou větví. Vzorky s nízkým pokrytím L, HI1 a HS3 mají největší rozptyl pravděpodobnosti, ale jsou v souladu se vzorky s vyšším pokrytím.

Mapování starověkých vzorků na strom je podobné pro strom používající Kent jako britskou populaci (doplňkový obr. 10) a pro strom používající Cornwall jako britskou proxy (obr. 4). Zejména vzorky z doby železné se mapují na rodovou větev severoevropských populací bez ohledu na použití Kentu nebo Cornwallu jako britské proxy. To naznačuje, že žádná ze současných populací v našem souboru dat, včetně populace z Cornwallu, není tak úzce příbuzná se vzorky z doby železné jako Dánsko a Nizozemsko s anglosaskými vzorky.

Náš přístup k mapování jednotlivých vzorků do stromu jsme ověřili umístěním moderních vzorků do stejného stromu jako na obr. 4. Na obr. 4 je znázorněno, jak je to možné. Všechny vzorky z populací použitých při sestavování stromu jsme podle očekávání umístili na špičku příslušné větve (doplňkový obr. 11). Při mapování vzorků ze skupin, které se ve stromu nevyskytují, což je případ vzorků z Kentu a Orknejí, zjistíme, že se mapují na stejné místo předků jako vzorky z doby železné (Doplňkový obr. 11), což potvrzuje, že mají odlišné předky od cornwallské populace a dalších populací použitých při sestavování stromu, podobně jako vzorky z doby železné. Jak je podrobně popsáno v Doplňkové poznámce 5, náš přístup k mapování zásadně závisí na vhodném modelu pro referenční populace. Při použití kentské populace pro sestavení stromu (obr. 3c) zjišťujeme, že mapování britských vzorků se zhoršuje (doplňkový obr. 12), pravděpodobně proto, že kentská populace je méně geneticky definovaná a více smíšená než skupina z Cornwallu. V takových případech musíme modelovat populační fylogeneze s příměsí a genovým tokem a další vývoj na systému rarecoal nám umožní studovat tyto složitější scénáře.

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.