Próbki i sekwencjonowanie
Ogenerowaliśmy sekwencje genomowe dla 10 próbek, które zostały zebrane z trzech miejsc we wschodniej Anglii w pobliżu Cambridge: Hinxton (pięć próbek, Supplementary Fig. 1), Oakington (cztery próbki, Supplementary Fig. 2) i Linton (1 próbka), które zostały wybrane z całkowitej liczby 23 przesiewanych próbek na podstawie zachowania DNA (Fig. 1b, Tabela 1, Supplementary Table 1, Supplementary Note 1). Wszystkie sekwencjonowane próbki były datowane radiowęglowo (Supplementary Table 2) i dzielą się na trzy okresy czasowe: próbka z Linton i dwie próbki z Hinxton pochodzą z późnej epoki żelaza (∼ 100 p.n.e.), cztery próbki z Oakington z wczesnego okresu anglosaskiego (V-VI wiek), a trzy próbki z Hinxton ze środkowego okresu anglosaskiego (VII-IX wiek; Fig. 1c). Dwie próbki z epoki żelaza z Hinxton są męskie, wszystkie inne próbki są żeńskie, w oparciu o pokrycie chromosomu Y i spójne z archeologią. Wszystkie próbki zostały zsekwencjonowane do pokrycia genomu od 1x do 12x (Tabela 1). Wszystkie mają wskaźniki zanieczyszczenia poniżej 2%, jak oszacowano zarówno z mitochondrialnego DNA, jak i z DNA jądrowego (Dodatkowa Tabela 3, Dodatkowa uwaga 2). Mitochondrialne i chromosomowe haplogrupy Y wszystkich próbek należą do najczęstszych haplogrup w dzisiejszej północno-zachodniej Europie (Tabela 1)11,12 i w tym przypadku nie są informatywne dla rozróżnienia imigrantów od rdzennych przodków.
Wygenerowaliśmy wykres składowej głównej 10 starożytnych próbek wraz z odpowiednimi populacjami europejskimi wybranymi z opublikowanych danych13,14 (Supplementary Fig. 3). Starożytne próbki mieszczą się w zakresie współczesnych próbek angielskich i szkockich, z próbkami z epoki żelaza z Hinxton i Linton spadającymi bliżej współczesnych próbek angielskich i francuskich, podczas gdy większość próbek z epoki anglosaskiej jest bliżej współczesnych próbek szkockich i norweskich. Ogólnie jednak, genetyczne różnice populacyjne między tymi próbkami przy wspólnych allelach są niewielkie.
Oszacowanie składnika anglosaskiego we współczesnej Brytanii
Choć analiza składowych głównych może ujawnić stosunkowo starą strukturę populacji, taką jak wygenerowana z długoterminowych modeli izolacji przez odległość15, sekwencje całego genomu pozwalają nam badać rzadkie warianty, aby uzyskać wgląd w bardziej aktualną strukturę populacji. Zidentyfikowaliśmy rzadkie warianty o częstości alleli do 1% w referencyjnym panelu 433 europejskich osobników ze współczesnej Finlandii, Hiszpanii, Włoch, Holandii i Danii, dla których dostępne są dane sekwencji genomowej16,17,18. Dla każdej starożytnej próbki określiliśmy liczbę rzadkich wariantów współdzielonych z każdą populacją referencyjną (Supplementary Note 3). Istnieją uderzające różnice we wzorcach dzielenia próbek, zilustrowane przez stosunek liczby rzadkich alleli dzielonych z osobnikami holenderskimi do liczby dzielonej z osobnikami hiszpańskimi (ryc. 2a). Średnio anglosaskie próbki z Hinxton (HS1, HS2 i HS3) dzielą stosunkowo więcej rzadkich wariantów ze współczesnymi Holendrami niż próbki z epoki żelaza z Hinxton (HI1 i HI2) i Linton (L). Wczesne anglosaskie próbki z Oakington są bardziej zróżnicowane, przy czym O1 i O2 są bliższe środkowym próbkom anglosaskim, O4 wykazuje ten sam wzór co próbki z epoki żelaza, a O3 pokazuje pośredni poziom dzielenia alleli, sugerując mieszane pochodzenie. Różnice między próbkami są najwyższe w allelach o niskiej częstotliwości i zmniejszają się wraz ze wzrostem częstotliwości alleli. Jest to zgodne z mutacjami o niższej częstotliwości średnio są młodsze, odzwierciedlając bardziej niedawny odrębny rodowód, w porównaniu z mutacjami o wyższej częstotliwości odzwierciedlającymi starszy wspólny rodowód.
Zbadaliśmy również przy użyciu tej samej metody 30 nowoczesnych próbek z projektu UK10K19, po 10 z miejscami urodzenia we wschodniej Anglii, Walii i Szkocji. Ogólnie rzecz biorąc, próbki te są bliższe próbkom z epoki żelaza niż próbkom z epoki anglosaskiej (ryc. 2a). Istnieje niewielka, ale znacząca różnica między średnimi wartościami w trzech współczesnych grupach brytyjskich próbek, z próbkami wschodnioangielskimi dzielącymi nieco więcej alleli z Holendrami i szkockimi próbkami wyglądającymi bardziej jak próbki z epoki żelaza.
Aby określić ilościowo frakcje przodków, dopasowaliśmy współczesne brytyjskie próbki z modelem mieszaniny starożytnych komponentów, umieszczając wszystkie próbki na liniowej osi względnego holenderskiego podziału alleli, która integruje dane z liczbą alleli 1-5 (ryc. 2b, Dodatkowa uwaga 3). Według tej miary próbki Anglii Wschodniej są zgodne ze średnio 38% anglosaskim rodowodem, z dużą rozpiętością od 25 do 50%, a próbki walijskie i szkockie są zgodne ze średnio 30% anglosaskim rodowodem, ponownie z dużą rozpiętością (Tabela Uzupełniająca 4). Liczby te są średnio niższe, jeśli wyłączymy osobnika HS3 o niskim pokryciu z grupy anglosaskiej (35% dla próbek wschodnioangielskich). Podobny wynik uzyskujemy analizując współczesne próbki brytyjskie z Projektu 1000 Genomów, które wykazują silną substrukturę (Supplementary Note 4, Supplementary Fig. 4). Stwierdzamy, że próbki z Kent wykazują podobny anglosaski komponent 37%, gdy porównujemy je z fińskimi i hiszpańskimi grupami zewnętrznymi, z niższą wartością dla próbek z Kornwalii (Supplementary Fig. 5a, Supplementary Table 4).
Alternatywnym i potencjalnie bardziej bezpośrednim podejściem do oszacowania tych frakcji jest pomiar dzielenia rzadkich alleli bezpośrednio między współczesnymi brytyjskimi i starożytnymi próbkami. Chociaż jest to znacznie bardziej hałaśliwe niż analiza wykorzystująca holenderskie i hiszpańskie grupy zewnętrzne, daje to spójne wyniki (Supplementary Fig. 5b, Supplementary Note 3). Podsumowując, analiza ta sugeruje, że średnio 25-40% rodowodu współczesnych Brytyjczyków pochodzi od imigrantów anglosaskich, z większą liczbą we wschodniej Anglii, bliżej źródła imigrantów. Różnice między grupami w obrębie Wielkiej Brytanii są zaskakująco małe w porównaniu z dużymi różnicami obserwowanymi w próbkach starożytnych. Jest to prawdziwe zarówno dla próbek UK10K, jak i dla brytyjskich próbek z projektu 1,000 Genomes, chociaż zauważamy, że lokalizacje próbek UK10K mogą nie w pełni odzwierciedlać historyczną geograficzną strukturę populacji z powodu niedawnego mieszania populacji.
Jednym zastrzeżeniem naszej analizy jest to, że używamy trzech próbek z epoki żelaza z Cambridgeshire jako przybliżenia dla rdzennej populacji brytyjskiej, która bez wątpienia była zorganizowana, chociaż wydaje się rozsądne, aby wziąć je jako przedstawicieli przynajmniej dla wschodniej Anglii. Ponadto każdy kontynentalny wkład genetyczny z okresu romańsko-brytyjskiego byłby uwzględniony w przypisanym składniku anglosaskim, podobnie jak późno anglosaski wkład skandynawski lub normański. Jednak efekty te byłyby silne tylko wtedy, gdyby wkład był duży i silnie zakrzywiony na osi holendersko-hiszpańskiej.
Budując model historii populacji z rzadkich wariantów
Aby uzyskać dalszy wgląd w historię leżącą u podstaw tych wzorców dzielenia się, opracowaliśmy nową, wrażliwą metodę, rarecoal, która dopasowuje model demograficzny do wspólnego rozkładu rzadkich alleli w dużej liczbie próbek (Dodatkowe uwagi 5 i 6). Naszą strategią jest zbudowanie modelu w formie filogenezy populacyjnej relacji między współczesnymi populacjami europejskimi, do której możemy umieścić starożytne próbki. Zdajemy sobie sprawę, że model bez domieszki i przepływu genów po podziale jest nieadekwatny jako kompletny opis historii populacji europejskiej. Jednakże, jest to naturalny uproszczony model, a w tym badaniu skupiamy się na zrozumieniu genetycznych relacji imigrantów i rdzennych populacji w Anglii, dla których ten model filogenezy populacji stanowi rozsądne rusztowanie.
Kluczowym pomysłem jest jawne modelowanie niepewności w przeszłości dystrybucji pochodnych alleli, ale przybliżenie odpowiedniej dystrybucji dla niepochodzących alleli przez jej oczekiwanie (Rys. 3a). Ponieważ rarecoal jawnie modeluje rzadkie mutacje, szacuje separacje w czasie zegara mutacji, a nie w czasie dryfu genetycznego, w przeciwieństwie do metod opartych na zmianach częstotliwości alleli we wspólnych wariantach20. Najpierw przetestowaliśmy rarecoal na symulowanych danych i stwierdziliśmy, że był on w stanie zrekonstruować czasy podziałów i rozmiary rozgałęzionych populacji z dobrą dokładnością (ryc. 3b), dopasowując podział alleli niemal dokładnie (Supplementary Fig. 6). Przetestowaliśmy również jego odporność przy mniejszej wielkości próbki w tylko jednej populacji (jak w duńskich próbkach badanych tutaj), a także w warunkach domieszki (Dodatkowa uwaga 5, Dodatkowa ryc. 7).
Następnie zastosowaliśmy rarecoal do 524 próbek z sześciu populacji w Europie (ryc. 3c,d), aby oszacować europejskie drzewo demograficzne, w którym moglibyśmy umieścić starożytne próbki. Ponieważ brytyjskie próbki w Projekcie 1,000 Genomów dzielą się na trzy odrębne skupiska, odzwierciedlające trzy lokalizacje próbek (z Kentu, Kornwalii i Orkadów, jako część projektu Peoples of the British Isles4,21, Supplementary Note 4)16, dopasowaliśmy różne drzewa do tych różnych grup (Supplementary Fig. 8). Wspólną cechą wszystkich trzech drzew jest pierwszy podział na Europę Południową i Północną z medianą czasu ∼ 7000 lat temu, po którym następują trzy kolejne podziały bliskie w czasie ∼ 5000 lat temu między Holandią, Danią, Finlandią i Wielką Brytanią. Co ciekawe, gdy użyliśmy próbek brytyjskich z Kornwalii, uzyskaliśmy drzewo, w którym Kornwalia tworzy grupę zewnętrzną dla populacji holenderskiej, duńskiej i fińskiej (ryc. 3c). W przeciwieństwie do tego, gdy używamy Kent, tworzy on klad z populacją holenderską (Rys. 3d), co jest zgodne z wyższym anglosaskim rodowodem w południowej Anglii niż w Kornwalii. Kiedy używamy populacji Orkadów jako gałęzi brytyjskiej, znajdujemy podobną topologię drzewa jak w przypadku Kornwalii. Wyniki te pokazują, że zarówno Kornwalia jak i Orkady są bardziej oddalone od Europy kontynentalnej niż Kent. Efektywna wielkość populacji gałęzi wierzchołkowej jest najniższa w Finlandii (∼ 12 000), zgodnie z wcześniejszymi obserwacjami22,23, a najwyższa w Kent (∼191 000) i w Holandii (∼184 000). Dla danych europejskich dopasowanie podziału alleli jest gorsze niż dla danych symulowanych (Supplementary Fig. 9), przypuszczalnie z powodu upraszczających założeń modelu o stałej wielkości populacji w każdej gałęzi i braku migracji.
Stosunkowo niedawne oszacowanie czasu podziału między Włochami a Hiszpanią, ∼ 2600 lat temu, może być konsekwencją migracji po wcześniejszej separacji; rozmiar populacji włosko-hiszpańskiej populacji przodków został oszacowany jako wyjątkowo duży, a górna granica nie mogła zostać określona, co może być artefaktem substruktury przodków lub domieszki. Innym wyjaśnieniem byłoby wspólne źródło domieszki zarówno do populacji hiszpańskiej, jak i włoskiej, skutkujące stosunkowo niedawnym wspólnym przodkiem. Pokazujemy na Supplementary Fig. 7 jak domieszka może modyfikować oszacowania rarecoal dotyczące efektywnej wielkości populacji i czasów podziału.
Modelling ancestry of ancient genomes using rarecoal
Oprócz rekonstrukcji szerszych europejskich relacji z dużego zestawu próbek, rarecoal może być użyty do oceny relacji pojedynczej starożytnej próbki z europejskim drzewem. Aby to zrobić, zakładamy model, w którym populacja przodków pojedynczej próbki łączy się z drzewem europejskim w konkretnej gałęzi w konkretnym czasie przed datą pochodzenia próbki. Następnie możemy użyć rarecoal, aby ocenić prawdopodobieństwo wspólnych danych dotyczących wymiany alleli między starożytną próbką a współczesnymi populacjami w każdym modelu, określonym przez gałąź i czas łączenia się w drzewie (ryc. 4, Supplementary Note 5). Wystąpiła wyraźna różnica między próbkami z epoki żelaza a próbkami z epoki anglosaskiej: próbki z epoki anglosaskiej w większości łączyły się z gałęziami holenderskimi i duńskimi, podczas gdy próbki z epoki żelaza preferencyjnie łączyły się u podstawy gałęzi przodków dla wszystkich współczesnych próbek z Europy Północnej. Wyjątkiem jest wczesny anglosaski O4, który wykazuje taki sam sygnał jak próbki z epoki żelaza, co jest zgodne z analizą podziału rzadkich alleli (ryc. 2). Dla próbki O3, która okazała się mieć mieszany rodowód w analizie podziału alleli, znajdujemy najwyższe prawdopodobieństwo łączenia się z gałęzią duńską. Jednak w tej próbce istnieje również znacznie wyższe prawdopodobieństwo łączenia się z tym samym północnoeuropejskim punktem gałęzi przodków, co widać dla próbek z epoki żelaza. Jest to zgodne z tym, że O3 jest ostatnio mieszanego pochodzenia autochtonicznego i anglosaskiego, chociaż nie możemy wykluczyć bardziej złożonych scenariuszy obejmujących wcześniejsze mieszane przodków tej osoby w okresie romańsko-brytyjskim. Istnieje pewne zróżnicowanie wśród próbek ery anglosaskiej z próbkami O1, O2, HS1 i HS3 o najwyższym prawdopodobieństwie łączenia się do gałęzi holenderskiej, podczas gdy O3 i HS2 mają najwyższe prawdopodobieństwo łączenia się do gałęzi duńskiej, chociaż w niektórych przypadkach różnica w prawdopodobieństwie między tymi dwiema możliwościami jest niewielka. Sygnały z HS3, HI1 i L są bardziej rozproszone z powodu niskiego pokrycia, ale spójne z innymi wynikami.
Mapowanie starożytnych próbek na drzewo jest podobne dla drzewa wykorzystującego Kent jako populację brytyjską (Uzupełniające ryc. 10) i dla drzewa wykorzystującego Kornwalię jako brytyjskie proxy (ryc. 4). W szczególności próbki z epoki żelaza mapują się na gałąź przodków populacji północnoeuropejskich niezależnie od użycia Kentu lub Kornwalii jako brytyjskiego proxy. Sugeruje to, że żadna z obecnych populacji w naszym zbiorze danych, w tym populacja z Kornwalii, nie jest tak blisko spokrewniona z próbkami z epoki żelaza, jak Dania i Holandia z próbkami anglosaskimi.
Weryfikowaliśmy nasze podejście do mapowania poszczególnych próbek do drzewa, umieszczając współczesne próbki na tym samym drzewie, jak na ryc. 4. Stwierdziliśmy, że wszystkie próbki z populacji użytych do budowy drzewa znajdują się na końcu odpowiedniej gałęzi, tak jak oczekiwano (Ryc. 11). Podczas mapowania próbek z grup nieobecnych w drzewie, jak w przypadku próbek z Kent i Orkadów, stwierdzamy, że mapują się one na tę samą lokalizację przodków, co próbki z epoki żelaza (Supplementary Fig. 11), potwierdzając, że są one odrębnymi przodkami od populacji kornwalijskiej i innych populacji użytych do budowy drzewa, podobnie jak próbki z epoki żelaza. Jak wyszczególniono w Dodatkowej Uwadze 5, nasze podejście do mapowania w zasadniczy sposób zależy od odpowiedniego modelu dla populacji referencyjnych. Kiedy używamy populacji Kentu do budowy drzewa (ryc. 3c), okazuje się, że mapowanie próbek brytyjskich staje się gorsze (ryc. 12), prawdopodobnie dlatego, że populacja Kentu jest mniej zdefiniowana genetycznie i bardziej wymieszana niż grupa z Kornwalii. W takich przypadkach musimy modelować filogenezę populacji z domieszkami i przepływem genów, a dalszy rozwój na rarecoal umożliwi nam badanie tych bardziej złożonych scenariuszy.