Campioni e sequenziamento

Abbiamo generato sequenze di genomi per 10 campioni raccolti da tre siti dell’Inghilterra orientale vicino a Cambridge: Hinxton (cinque campioni, Fig. 1 supplementare), Oakington (quattro campioni, Fig. 2 supplementare) e Linton (1 campione), che sono stati selezionati da un totale di 23 campioni selezionati in base alla conservazione del DNA (Fig. 1b, Tabella 1, Tabella 1 supplementare, Nota 1 supplementare). Tutti i campioni sequenziati sono stati datati al radiocarbonio (Tabella supplementare 2), e rientrano in tre periodi di tempo: il campione di Linton e due campioni di Hinxton sono della tarda età del ferro (∼100 a.C.), i quattro campioni di Oakington del primo periodo anglosassone (dal quinto al sesto secolo), e tre campioni di Hinxton del medio periodo anglosassone (dal settimo al nono secolo; Fig. 1c). I due campioni dell’età del ferro da Hinxton sono maschi, tutti gli altri campioni sono femmine, in base alla copertura del cromosoma Y e coerentemente con l’archeologia. Tutti i campioni sono stati sequenziati a copertura genomica da 1x a 12x (Tabella 1). Tutti hanno tassi di contaminazione inferiori al 2%, come stimato sia dal DNA mitocondriale che dal DNA nucleare (Tabella 3 supplementare, Nota supplementare 2). Gli aplogruppi mitocondriali e del cromosoma Y di tutti i campioni sono tra gli aplogruppi più comuni nell’attuale Europa nord-occidentale (Tabella 1)11,12 e in questo caso non sono informativi per distinguere l’origine immigrata da quella indigena.

Tabella 1 Un riassunto di tutti i campioni sequenziati in questo studio.

Abbiamo generato un grafico a componenti principali dei 10 campioni antichi insieme a popolazioni europee rilevanti selezionate da dati pubblicati13,14 (Fig. 3 supplementare). I campioni antichi rientrano nella gamma dei campioni moderni inglesi e scozzesi, con i campioni dell’età del ferro di Hinxton e Linton che cadono più vicini ai campioni moderni inglesi e francesi, mentre la maggior parte dei campioni dell’era anglosassone sono più vicini ai campioni moderni scozzesi e norvegesi. Nel complesso, tuttavia, le differenze genetiche della popolazione tra questi campioni in alleli comuni sono piccole.

Stimare la componente anglosassone nella Gran Bretagna moderna

Mentre l’analisi della componente principale può rivelare una struttura di popolazione relativamente vecchia, come quella generata da modelli a lungo termine di isolamento per distanza15, le sequenze dell’intero genoma ci permettono di studiare le varianti rare per ottenere informazioni sulla struttura della popolazione più recente. Abbiamo identificato varianti rare con frequenza allelica fino all’1% in un pannello di riferimento di 433 individui europei provenienti dalla Finlandia moderna, dalla Spagna, dall’Italia, dai Paesi Bassi e dalla Danimarca, per i quali sono disponibili dati di sequenza genomica16,17,18. Abbiamo determinato per ogni campione antico il numero di varianti rare condivise con ciascuna popolazione di riferimento (nota supplementare 3). Ci sono differenze sorprendenti nei modelli di condivisione dei campioni, illustrati dal rapporto tra il numero di alleli rari condivisi con gli individui olandesi e il numero condiviso con gli individui spagnoli (Fig. 2a). I campioni anglosassoni medi di Hinxton (HS1, HS2 e HS3) condividono relativamente più varianti rare con l’olandese moderno rispetto ai campioni dell’età del ferro di Hinxton (HI1 e HI2) e Linton (L). I primi campioni anglosassoni di Oakington sono più diversi, con O1 e O2 che sono più vicini ai campioni dell’Anglosassone medio, O4 che mostra lo stesso modello dei campioni dell’Età del Ferro e O3 che mostra un livello intermedio di condivisione degli alleli, suggerendo un’ascendenza mista. Le differenze tra i campioni sono più alte negli alleli a bassa frequenza e diminuiscono con l’aumentare della frequenza allelica. Questo è coerente con le mutazioni di frequenza più bassa in media più giovani, che riflettono un’ascendenza distinta più recente, rispetto alle mutazioni di frequenza più alta che riflettono un’ascendenza condivisa più antica.

Figura 2: Condivisione relativa di alleli rari tra campioni antichi e moderni.
figura2

(a) Il rapporto del numero di alleli rari condivisi con campioni moderni olandesi e spagnoli in funzione del numero di alleli nell’insieme dei campioni moderni. I codici dei campioni antichi (sezione sinistra e centrale) sono definiti nella tabella 1. I risultati degli individui britannici attuali (pannello di destra) sono mediati su 10 individui di ogni sottopopolazione. I risultati di un individuo olandese e uno spagnolo sono mostrati per confronto. Le barre di errore sono calcolate dalle statistiche di conteggio grezze e usando la propagazione s.e. (sezione Metodi). (b) La frazione relativa di alleli rari condivisi con gli olandesi moderni rispetto agli spagnoli, integrata fino al conteggio degli alleli cinque nei campioni moderni. I campioni dell’età del ferro e anglosassoni segnano i due estremi di questa proiezione, mentre i campioni moderni sono sparsi tra loro, indicando livelli misti di ascendenza anglosassone, che è in media più alta nell’Inghilterra orientale che in Galles e Scozia, con una grande sovrapposizione. Due campioni del primo anglosassone da Oakington sono stati esclusi dal calcolo della media, indicati da cerchi vuoti, perché mostrano prove di essere mescolati (O3) o di antenati non immigrati (O4). Un campione moderno dalla Scozia è anche escluso, indicato come cerchio vuoto perché è un chiaro outlier rispetto a tutti gli altri campioni scozzesi. I campioni sono mostrati con un offset verticale casuale per una migliore chiarezza. Le barre di errore (sezione Metodi) per i campioni moderni sono omesse qui, ma dello stesso ordine di grandezza dei campioni antichi. I dati per questa figura sono disponibili come Dati Supplementari 1.

Abbiamo anche esaminato con lo stesso metodo 30 campioni moderni dal progetto UK10K19, 10 ciascuno con luoghi di nascita in Inghilterra orientale, Galles e Scozia. Nel complesso, questi campioni sono più vicini a quelli dell’età del ferro che a quelli dell’epoca anglosassone (Fig. 2a). C’è una piccola ma significativa differenza tra i valori medi nei tre gruppi di campioni britannici moderni, con i campioni dell’Inghilterra orientale che condividono un po’ più alleli con gli olandesi e i campioni scozzesi che assomigliano di più ai campioni dell’età del ferro.

Per quantificare le frazioni di ascendenza, abbiamo adattato i campioni britannici moderni con un modello misto di componenti antiche, mettendo tutti i campioni su un asse lineare di condivisione relativa degli alleli olandesi che integra i dati dal conteggio degli alleli 1-5 (Fig. 2b, Nota supplementare 3). Con questa misura i campioni dell’Inghilterra orientale sono coerenti con il 38% di ascendenza anglosassone in media, con una grande diffusione dal 25 al 50%, e i campioni gallesi e scozzesi sono coerenti con il 30% di ascendenza anglosassone in media, di nuovo con una grande diffusione (Tabella supplementare 4). Questi numeri sono in media più bassi se escludiamo l’individuo a bassa copertura HS3 dal gruppo anglosassone (35% per i campioni dell’Inghilterra orientale). Un risultato simile si ottiene quando analizziamo i campioni britannici moderni del 1.000 Genomes Project, che mostrano una forte sottostruttura (Nota supplementare 4, Fig. 4 supplementare). Troviamo che i campioni del Kent mostrano una componente anglosassone simile del 37% se confrontati con gli outgroup finlandesi e spagnoli, con un valore inferiore per i campioni della Cornovaglia (Supplementary Fig. 5a, Supplementary Table 4).

Un approccio alternativo e potenzialmente più diretto per stimare queste frazioni è quello di misurare la condivisione di alleli rari direttamente tra i campioni britannici moderni e quelli antichi. Pur essendo molto più rumorosa rispetto all’analisi che utilizza gli outgroup olandesi e spagnoli, questo approccio fornisce risultati coerenti (Fig. 5b supplementare, Nota supplementare 3). In sintesi, questa analisi suggerisce che in media il 25-40% dell’ascendenza dei britannici moderni è stato contribuito da immigrati anglosassoni, con il numero più alto nell’Inghilterra orientale più vicino alla fonte di immigrazione. La differenza tra i gruppi all’interno della Gran Bretagna è sorprendentemente piccola rispetto alle grandi differenze viste nei campioni antichi. Questo è vero sia per i campioni UK10K che per i campioni britannici dal progetto 1.000 Genomi, anche se notiamo che le posizioni dei campioni UK10K potrebbero non riflettere completamente la struttura storica della popolazione geografica a causa del recente mescolamento della popolazione.

Un avvertimento della nostra analisi è che stiamo usando i tre campioni dell’età del ferro dal Cambridgeshire come proxy per la popolazione indigena britannica, che senza dubbio era strutturata, anche se sembra ragionevole prendere questi come rappresentanti almeno per l’Inghilterra orientale. Inoltre, qualsiasi contributo genetico continentale del periodo romano-britannico verrebbe inserito nella componente anglosassone assegnata, così come un contributo scandinavo o normanno tardo anglosassone. Tuttavia questi effetti sarebbero forti solo se il contributo fosse grande e pesantemente distorto sull’asse olandese-spagnolo.

Costruire un modello di storia della popolazione dalle varianti rare

Per ottenere ulteriori informazioni sulla storia sottostante questi modelli di condivisione, abbiamo sviluppato un nuovo metodo sensibile, rarecoal, che adatta un modello demografico alla distribuzione congiunta di alleli rari in un gran numero di campioni (Note supplementari 5 e 6). La nostra strategia è quella di costruire un modello sotto forma di una filogenesi di popolazione della relazione tra le popolazioni europee moderne, in cui possiamo inserire i campioni antichi. Riconosciamo che un modello senza commistione e flusso genico post-scissione è inadeguato come descrizione completa della storia della popolazione europea. Tuttavia, questo è un modello semplificato naturale, e l’obiettivo di questo studio è la comprensione delle relazioni genetiche degli immigrati e delle popolazioni indigene in Inghilterra, per le quali questo modello di filogenesi della popolazione fornisce un’impalcatura ragionevole.

L’idea chiave è di modellare esplicitamente l’incertezza nel passato della distribuzione degli alleli derivati, ma approssimare la distribuzione corrispondente per gli alleli non derivati dalla sua aspettativa (Fig. 3a). Poiché rarecoal modella esplicitamente le mutazioni rare, stima le separazioni nel tempo dell’orologio delle mutazioni piuttosto che nel tempo della deriva genetica, in contrasto con i metodi basati sui cambiamenti della frequenza allelica nelle varianti comuni20. Abbiamo prima testato rarecoal su dati simulati e abbiamo scoperto che era in grado di ricostruire i tempi di separazione e le dimensioni delle popolazioni di ramo con buona precisione (Fig. 3b), corrispondendo quasi esattamente alla condivisione degli alleli (Fig. 6 supplementare). Abbiamo anche testato la sua robustezza con una dimensione del campione più piccola in una sola popolazione (come nei campioni danesi studiati qui), e sotto commistione (Nota supplementare 5, Fig. supplementare 7).

Figura 3: Modellare la storia europea con rarecoal.
figura3

(a) Rarecoal traccia le probabilità per i lignaggi degli alleli rari (rosso) in un quadro coalescente a ritroso nel tempo, e approssima la distribuzione degli alleli non derivati (blu scuro) con la sua media. (b) Ottimizzando la verosimiglianza dei dati sotto il modello, possiamo stimare le dimensioni della popolazione e i tempi di divisione. Testati con dati simulati, le stime corrispondono strettamente ai valori reali (tra parentesi). (c) Applicato a centinaia di individui europei, rarecoal stima i tempi di divisione come indicato sull’asse temporale e le dimensioni della popolazione per ogni ramo. (d) Lo stesso di c, ma usando campioni dal Kent invece che dalla Cornovaglia come proxy della popolazione britannica. La diversa topologia dell’albero tra c e d riflette le diverse storie di popolazione in Cornovaglia rispetto al Kent nel sud dell’Inghilterra.

Abbiamo poi applicato rarecoal a 524 campioni da sei popolazioni in Europa (Fig. 3c,d) per stimare un albero demografico europeo in cui potremmo inserire i campioni antichi. Poiché i campioni britannici nel Progetto 1.000 Genomi rientrano in tre cluster distinti, che riflettono tre posizioni del campione (dal Kent, dalla Cornovaglia e dalle Isole Orcadi, come parte del progetto Peoples of the British Isles4,21, Nota supplementare 4)16 , abbiamo montato diversi alberi a questi diversi gruppi (Fig. supplementare 8). La caratteristica comune a tutti e tre gli alberi è una prima divisione tra Europa meridionale e settentrionale con un tempo mediano ∼7.000 anni fa, seguita da altre tre separazioni vicine nel tempo ∼5.000 anni fa tra Olanda, Danimarca, Finlandia e Gran Bretagna. È interessante notare che utilizzando i campioni britannici della Cornovaglia, abbiamo ottenuto un albero in cui la Cornovaglia forma un outgroup alla popolazione olandese, danese e finlandese (Fig. 3c). Al contrario, quando usiamo il Kent, forma un clade con la popolazione olandese (Fig. 3d), coerente con una maggiore ascendenza anglosassone nel sud dell’Inghilterra che in Cornovaglia. Quando usiamo la popolazione delle Orcadi come ramo britannico, troviamo una topologia dell’albero simile a quella della Cornovaglia. Questi risultati mostrano che sia la Cornovaglia che le Orcadi sono più lontane dall’Europa continentale rispetto al Kent. La dimensione effettiva della popolazione del ramo di punta è più bassa in Finlandia (∼12.000), coerente con osservazioni precedenti22,23, e più alta nel Kent (∼191.000) e nei Paesi Bassi (∼184.000). Per i dati europei, l’adattamento della condivisione degli alleli è peggiore rispetto ai dati simulati (Fig. 9 supplementare), presumibilmente a causa delle ipotesi semplificative del modello di una dimensione costante della popolazione in ogni ramo e l’assenza di migrazione.

La stima relativamente recente per il tempo di divisione tra Italia e Spagna, ∼2.600 anni fa, potrebbe essere una conseguenza della migrazione a seguito di una separazione precedente; la dimensione della popolazione ancestrale italo-spagnola è stata stimata come estremamente grande e non è stato possibile determinare un limite superiore, che potrebbe essere un artefatto di sottostruttura ancestrale o di commistione. Un’altra spiegazione potrebbe essere una fonte comune di commistione sia nella popolazione spagnola che in quella italiana, con conseguente ascendenza comune relativamente recente. Mostriamo nella Fig. 7 supplementare come la commistione può modificare le stime di rarecoal delle dimensioni effettive della popolazione e dei tempi di divisione.

Modellare l’ascendenza dei genomi antichi usando rarecoal

Oltre a ricostruire la più ampia relazione europea da un grande insieme di campioni, rarecoal può essere usato per valutare la relazione di un singolo campione antico con l’albero europeo. Per fare questo, assumiamo un modello in cui la popolazione ancestrale del singolo campione si fonde con l’albero europeo in un particolare ramo in un particolare momento prima della data di origine del campione. Possiamo quindi utilizzare rarecoal per valutare la probabilità dei dati congiunti di condivisione degli alleli tra il campione antico e le popolazioni moderne sotto ogni modello, specificato dal ramo e dal tempo di fusione nell’albero (Fig. 4, Nota supplementare 5). C’è stata una marcata differenza tra i campioni dell’età del ferro e quelli dell’epoca anglosassone: i campioni dell’epoca anglosassone si sono uniti per lo più ai rami olandese e danese, mentre i campioni dell’età del ferro si sono uniti preferibilmente alla base del ramo ancestrale per tutti i campioni moderni del Nord Europa. L’eccezione è che il primo anglosassone O4 mostra lo stesso segnale dei campioni dell’età del ferro, coerente con l’analisi di condivisione degli alleli rari (Fig. 2). Per il campione O3, che sembrava essere di ascendenza mista nell’analisi di condivisione degli alleli, troviamo la più alta probabilità di fusione con il ramo danese. Tuttavia, in questo campione c’è anche una probabilità notevolmente più alta di fondersi con lo stesso punto di diramazione ancestrale del Nord Europa, come si è visto per i campioni dell’età del ferro. Questo è coerente con il fatto che O3 è di recente origine mista indigena e anglosassone, anche se non possiamo escludere scenari più complessi che coinvolgono una precedente ascendenza mista di questo individuo durante il periodo romano-britannico. C’è una certa differenziazione tra i campioni dell’era anglosassone con i campioni O1, O2, HS1 e HS3 che hanno la massima probabilità di fondersi con il ramo olandese, mentre O3 e HS2 hanno la massima probabilità di fondersi con il ramo danese, anche se in alcuni casi la differenza di probabilità tra queste due possibilità è piccola. I segnali di HS3, HI1 e L sono più diffusi a causa della bassa copertura, ma coerenti con gli altri risultati.

Figura 4: Collocazione dei campioni antichi nell’albero europeo.
figura4

Dato l’albero europeo con la Cornovaglia come ramo della popolazione britannica, mappiamo i campioni antichi su questo albero. Coloriamo ogni punto dell’albero secondo la probabilità che il ramo ancestrale del campione antico si fonda in quel punto. Il punto di fusione con la massima probabilità è segnato da un cerchio nero. L’analisi mostra che i campioni dell’età del ferro L, HI1 e HI2 hanno la massima probabilità di fondersi nel ramo ancestrale di tutte le popolazioni del Nord Europa analizzate, mentre i campioni anglosassoni si fondono nei rami olandese e danese, rispettivamente. I campioni a bassa copertura L, HI1 e HS3 hanno la maggiore diffusione della probabilità, ma sono coerenti con i campioni a più alta copertura.

La mappatura dei campioni antichi sull’albero è simile per l’albero che utilizza il Kent come popolazione britannica (Fig. 10 supplementare) e per l’albero che utilizza la Cornovaglia come proxy britannico (Fig. 4). In particolare, i campioni dell’età del ferro mappano sul ramo ancestrale delle popolazioni del Nord Europa, indipendentemente dall’uso del Kent o della Cornovaglia come proxy britannico. Questo suggerisce che nessuna delle popolazioni attuali nel nostro set di dati, compresa la popolazione della Cornovaglia, è così strettamente legata ai campioni dell’età del ferro come la Danimarca e i Paesi Bassi lo sono ai campioni anglosassoni.

Abbiamo convalidato il nostro approccio di mappatura dei singoli campioni in un albero mettendo i campioni moderni sullo stesso albero come in Fig. 4. Troviamo tutti i campioni delle popolazioni utilizzate nella costruzione dell’albero posizionati sulla punta del loro rispettivo ramo come previsto (Fig. 11 supplementare). Quando si mappano i campioni provenienti da gruppi non presenti nell’albero, come nel caso dei campioni del Kent e delle Orcadi, troviamo che essi mappano sulla stessa posizione ancestrale dei campioni dell’età del ferro (Fig. 11 supplementare), confermando che essi sono di ascendenza distinta dalla popolazione della Cornovaglia e dalle altre popolazioni utilizzate nella costruzione dell’albero, in modo simile ai campioni dell’età del ferro. Come dettagliato nella nota supplementare 5, il nostro approccio di mappatura dipende in modo cruciale da un modello appropriato per le popolazioni di riferimento. Quando si usa la popolazione del Kent per costruire l’albero (Fig. 3c), troviamo che la mappatura dei campioni britannici diventa peggiore (Fig. 12 supplementare), probabilmente perché la popolazione del Kent è meno definita geneticamente e più mescolata del gruppo della Cornovaglia. In questi casi abbiamo bisogno di modellare le filogenesi delle popolazioni con commistione e flusso genico, e un ulteriore sviluppo su rarecoal ci permetterà di studiare questi scenari più complessi.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.