Samples and sequencing
Gerámos sequências genómicas para 10 amostras que foram recolhidas em três locais no Leste de Inglaterra perto de Cambridge: Hinxton (cinco amostras, Suplemento Fig. 1), Oakington (quatro amostras, Suplemento Fig. 2) e Linton (1 amostra), que foram selecionadas de um total de 23 amostras triadas com base na preservação do DNA (Fig. 1b, Tabela 1, Suplemento Tabela 1, Suplemento Nota 1). Todas as amostras sequenciadas foram datadas por radiocarbono (Tabela Complementar 2), e se enquadram em três períodos de tempo: a amostra de Linton e duas amostras de Hinxton são do final da Idade do Ferro (∼100 a.C.), as quatro amostras de Oakington do início do período anglo-saxão (do quinto ao sexto século), e três amostras de Hinxton do período médio anglo-saxão (do sétimo ao nono século; Fig. 1c). As duas amostras da Idade do Ferro da Hinxton são masculinas, todas as outras amostras são femininas, baseadas na cobertura cromossômica Y e consistentes com a arqueologia. Todas as amostras foram sequenciadas para cobertura do genoma de 1x a 12x (Tabela 1). Todas têm taxas de contaminação abaixo de 2%, como estimado tanto de DNA mitocondrial como de DNA nuclear (Tabela Complementar 3, Nota Complementar 2). Os grupos de haplogrupos de todas as amostras de cromossomos mitocondriais e Y estão entre os grupos de haplogrupos mais comuns no atual Noroeste Europeu (Tabela 1)11,12 e, neste caso, não são informativos para distinguir ancestralidade imigrante versus ancestralidade indígena.
Geramos um gráfico componente principal das 10 amostras antigas juntamente com populações européias relevantes selecionadas a partir de dados publicados13,14 (Fig. 3 Suplementar). As amostras antigas estão dentro da gama de amostras modernas inglesas e escocesas, com as amostras da Idade do Ferro de Hinxton e Linton se aproximando das amostras modernas inglesas e francesas, enquanto a maioria das amostras da era anglo-saxônica estão mais próximas das amostras modernas escocesas e norueguesas. No entanto, em geral, as diferenças genéticas populacionais entre essas amostras em alelos comuns são pequenas.
Estimando o componente anglo-saxão na Grã-Bretanha moderna
Embora a análise do componente principal possa revelar uma estrutura populacional relativamente antiga, tal como gerada a partir de modelos de isolamento a longo prazo por distância15 , as seqüências de genoma inteiro permitem-nos estudar variantes raras para obter uma visão da estrutura populacional mais recente. Identificámos variantes raras com frequência alélica até 1% num painel de referência de 433 indivíduos europeus da Finlândia moderna, Espanha, Itália, Holanda e Dinamarca, para os quais estão disponíveis dados de sequências de todo o genoma16,17,18. Determinámos para cada amostra antiga o número de variantes raras partilhadas com cada população de referência (Nota Complementar 3). Existem diferenças notáveis nos padrões de compartilhamento das amostras, ilustradas pela relação entre o número de alelos raros compartilhados com indivíduos holandeses e o número compartilhado com indivíduos espanhóis (Fig. 2a). As amostras anglo-saxônicas médias de Hinxton (HS1, HS2 e HS3) compartilham variantes relativamente mais raras com os holandeses modernos do que as amostras da Idade do Ferro de Hinxton (HI1 e HI2) e Linton (L). As amostras iniciais anglo-saxônicas de Oakington são mais diversas, sendo que O1 e O2 estão mais próximas das amostras anglo-saxônicas médias, O4 exibindo o mesmo padrão que as amostras da Idade do Ferro, e O3 mostrando um nível intermediário de compartilhamento de alelos, sugerindo ancestralidade mista. As diferenças entre as amostras são maiores nos alelos de baixa frequência e diminuem com o aumento da frequência dos alelos. Isto é consistente com mutações de menor frequência em média sendo mais jovens, refletindo ancestralidade distinta mais recente, comparado com mutações de maior frequência refletindo ancestralidade compartilhada mais antiga.
Também examinamos usando o mesmo método 30 amostras modernas do projeto UK10K19, 10 cada uma com locais de nascimento no leste da Inglaterra, País de Gales e Escócia. Em geral, estas amostras estão mais próximas das amostras da Idade do Ferro do que das amostras da era anglo-saxônica (Fig. 2a). Existe uma pequena mas significativa diferença entre os valores médios nos três grupos de amostras britânicas modernas, com amostras inglesas do leste compartilhando um pouco mais alelos com os holandeses, e amostras escocesas parecendo mais com as amostras da Idade do Ferro.
Para quantificar as frações ancestrais, nós encaixamos as amostras britânicas modernas com um modelo de mistura de componentes antigos, colocando todas as amostras em um eixo linear de compartilhamento relativo de alelos holandeses que integra dados de contagens de alelos 1-5 (Fig. 2b, Nota Complementar 3). Por esta medida as amostras da Inglaterra Oriental são consistentes com 38% de ancestralidade anglo-saxónica em média, com uma grande distribuição de 25 a 50%, e as amostras galesas e escocesas são consistentes com 30% de ancestralidade anglo-saxónica em média, novamente com uma grande distribuição (Tabela Suplementar 4). Estes números são inferiores em média se excluirmos a HS3 individual de baixa cobertura do grupo anglo-saxão (35% para amostras de inglês oriental). Um resultado semelhante é obtido quando analisamos amostras britânicas modernas do Projecto 1.000 Genomes, que exibem uma forte subestrutura (Nota Suplementar 4, Suplementar Fig. 4). Verificamos que as amostras de Kent mostram um componente anglo-saxão similar de 37% quando comparadas com os outgroups finlandeses e espanhóis, com um valor mais baixo para amostras de Cornwall (Supplementary Fig. 5a, Supplementary Table 4).
Uma abordagem alternativa e potencialmente mais directa para estimar estas fracções é medir a partilha de alelos raros directamente entre as amostras britânicas modernas e as amostras antigas. Embora seja muito mais ruidosa do que a análise usando grupos holandeses e espanhóis, isto produz resultados consistentes (Suplemento Fig. 5b, Nota Complementar 3). Em resumo, esta análise sugere que, em média, 25-40% da ancestralidade dos britânicos modernos foi contribuída por imigrantes anglo-saxões, com o maior número no leste da Inglaterra mais próximo da fonte imigrante. A diferença entre grupos dentro da Grã-Bretanha é surpreendentemente pequena em comparação com as grandes diferenças observadas nas amostras antigas. Isto é verdade tanto para as amostras UK10K quanto para as amostras britânicas do projeto 1.000 Genomes, embora observemos que a localização das amostras UK10K pode não refletir totalmente a estrutura geográfica histórica da população devido à mistura recente da população.
Uma ressalva de nossa análise é que estamos usando as três amostras da Idade do Ferro de Cambridgeshire como representantes da população indígena britânica, que sem dúvida foi estruturada, embora pareça razoável tomá-las como representantes, pelo menos para o leste da Inglaterra. Além disso, qualquer contribuição genética continental do período romano-britânico seria considerada no componente anglo-saxão atribuído, assim como uma contribuição anglo-saxônica tardia escandinava ou normanda. Contudo, estes efeitos só seriam fortes se a contribuição fosse grande e fortemente enviesada no eixo holandês-espanhol.
Construindo um modelo de história da população a partir de variantes raras
Para obter mais informações sobre a história subjacente a estes padrões de partilha, desenvolvemos um novo método sensível, o rarecoal, que se adapta a um modelo demográfico à distribuição conjunta de alelos raros num grande número de amostras (Notas Complementares 5 e 6). Nossa estratégia é construir um modelo sob a forma de filogenia populacional da relação entre as populações europeias modernas, no qual possamos colocar as amostras antigas. Reconhecemos que um modelo sem mistura e fluxo gênico pós-dividido é inadequado como uma descrição completa da história da população européia. Entretanto, este é um modelo simplificado natural, e o foco neste estudo é a compreensão das relações genéticas de imigrantes e populações indígenas na Inglaterra, para as quais este modelo de filogenia populacional fornece um andaime razoável.
A idéia chave é modelar explicitamente a incerteza no passado da distribuição de alelos derivados, mas aproximar a distribuição correspondente para alelos não derivados por sua expectativa (Fig. 3a). Como rarecoal modela explicitamente mutações raras, estima separações no tempo do relógio de mutação em vez de tempo de deriva genética, em contraste com métodos baseados em mudanças de frequência de alelos em variantes comuns20. Primeiro testamos rarecoal em dados simulados e descobrimos que ele foi capaz de reconstruir tempos parciais e tamanhos de população de ramos com boa precisão (Fig. 3b), combinando o compartilhamento de alelos quase que exatamente (Suplemento Fig. 6). Também testamos sua robustez com um tamanho de amostra menor em apenas uma população (como nas amostras dinamarquesas aqui estudadas), e sob mistura (Nota Complementar 5, Suplemento Fig. 7).
>
A seguir aplicamos rarecoal a 524 amostras de seis populações na Europa (Fig. 3c,d) para estimar uma árvore demográfica européia na qual poderíamos colocar as amostras antigas. Como as amostras britânicas do Projeto 1.000 Genomas se enquadram em três grupos distintos, refletindo três locais de amostra (de Kent, Cornwall e Ilhas Orkney, como parte do Projeto Povos das Ilhas Britânicas4,21, Nota Suplementar 4)16, nós ajustamos diferentes árvores a esses diferentes grupos (Fig. 8 Suplementar). A característica comum às três árvores é uma primeira divisão entre o Sul e o Norte da Europa com uma média de tempo ∼7,000 anos atrás, seguida por mais três separações fechadas no tempo ∼5,000 anos atrás entre Holanda, Dinamarca, Finlândia e Grã-Bretanha. Curiosamente, ao utilizar as amostras britânicas da Cornualha, obtivemos uma árvore onde a Cornualha forma um outgroup para a população holandesa, dinamarquesa e finlandesa (Fig. 3c). Em contraste, quando usamos Kent, ela forma um clade com a população holandesa (Fig. 3d), consistente com a maior ascendência anglo-saxônica no sul da Inglaterra do que na Cornualha. Quando usamos a população de Orkney como o ramo britânico, encontramos uma topologia arbórea semelhante à da Cornualha. Estes resultados mostram que tanto a Cornualha como a Orkney estão mais distantemente relacionadas com a Europa continental do que Kent. O tamanho efectivo do ramo da ponta é menor na Finlândia (∼12,000), consistente com as observações anteriores22,23, e maior em Kent (∼191,000) e na Holanda (∼184,000). Para os dados europeus, o ajuste do compartilhamento de alelos é pior do que para os dados simulados (Figura Suplementar 9), presumivelmente devido à simplificação das suposições do modelo de um tamanho populacional constante em cada ramo e a ausência de migração.
A estimativa relativamente recente do tempo de divisão entre Itália e Espanha, ∼2,600 anos atrás, pode ser uma consequência da migração após uma separação anterior; o tamanho populacional da população ancestral italo-espanhola foi estimado como sendo extremamente grande e não foi possível determinar um limite superior, que poderia ser um artefato de subestrutura ancestral ou mistura. Outra explicação seria uma fonte comum de mistura tanto na população espanhola como na italiana, resultando em ancestralidade comum relativamente recente. Mostramos na Figura Complementar 7 como a mistura pode modificar as estimativas do tamanho efectivo da população rarecoal e dos tempos de divisão.
Ancestramento modelador de genomas antigos usando rarecoal
Além de reconstruir a relação europeia mais ampla a partir de um grande conjunto de amostras, rarecoal pode ser usado para avaliar a relação de uma única amostra antiga com a árvore europeia. Para isso, assumimos um modelo em que a população ancestral da amostra única se funde com a árvore europeia num determinado ramo num determinado momento, antes da data de origem da amostra. Podemos então usar rarecoal para avaliar a probabilidade de os dados de compartilhamento dos alelos articulares entre a amostra antiga e as populações modernas sob cada modelo, especificado pelo ramo e o tempo de fusão na árvore (Fig. 4, Nota Complementar 5). Houve uma diferença acentuada entre as amostras da Idade do Ferro e da era anglo-saxônica: as amostras da era anglo-saxônica se fundiram principalmente nos ramos holandês e dinamarquês, enquanto as amostras da Idade do Ferro se fundiram preferencialmente na base do ramo ancestral para todas as amostras modernas do norte da Europa. A excepção é que o O4 anglo-saxónico precoce mostra o mesmo sinal que as amostras da Idade do Ferro, consistente com a rara análise de partilha de alelos (Fig. 2). Para a amostra O3, que parecia ser de ascendência mista na análise de compartilhamento de alelos, encontramos a maior probabilidade de fusão com o ramo dinamarquês. No entanto, nesta amostra há também uma probabilidade notavelmente maior de fusão com o mesmo ponto do ramo ancestral do Norte da Europa, como visto para as amostras da Idade do Ferro. Isto é consistente com o facto do O3 ser de origem indígena e anglo-saxónica recentemente misturada, embora não possamos descartar cenários mais complexos envolvendo ancestralidade prévia mista deste indivíduo durante o período Romano-Britânico. Existe alguma diferenciação entre as amostras da era anglo-saxónica com as amostras O1, O2, HS1 e HS3 com maior probabilidade de se fundirem no ramo holandês, enquanto O3 e HS2 têm maior probabilidade de se fundirem no ramo dinamarquês, embora em alguns casos a diferença de probabilidade entre estas duas possibilidades seja pequena. Os sinais de HS3, HI1 e L são mais espalhados devido à baixa cobertura, mas consistentes com os outros resultados.
>
O mapeamento das amostras antigas na árvore é semelhante para a árvore usando Kent como população britânica (Suplemento Fig. 10) e para a árvore usando Cornwall como o proxy britânico (Fig. 4). Em particular, as amostras da Idade do Ferro mapeiam o ramo ancestral das populações do norte da Europa, independentemente do uso de Kent ou Cornwall como o proxy britânico. Isto sugere que nenhuma das populações atuais em nosso conjunto de dados, incluindo a população da Cornualha, está tão intimamente relacionada com as amostras da Idade do Ferro quanto a Dinamarca e a Holanda estão com as amostras anglo-saxônicas.
Validamos nossa abordagem de mapear amostras individuais em uma árvore colocando amostras modernas na mesma árvore como na Fig. 4. Encontramos todas as amostras de populações utilizadas na construção da árvore colocadas na ponta do respectivo ramo, como esperado (Suplemento Fig. 11). Quando mapeamos amostras de grupos não presentes na árvore, como é o caso das amostras de Kent e Orkney, encontramos que elas mapeiam no mesmo local ancestral que as amostras da Idade do Ferro (Suplemento Fig. 11), confirmando que são de ancestralidade distinta da população da Cornualha e de outras populações utilizadas na construção da árvore, de forma semelhante às amostras da Idade do Ferro. Conforme detalhado na Nota Complementar 5, nossa abordagem de mapeamento depende crucialmente de um modelo apropriado para as populações de referência. Quando usamos a população Kent para construir a árvore (Fig. 3c), descobrimos que o mapeamento de amostras britânicas se torna pior (Suplemento Fig. 12), provavelmente porque a população Kent é menos definida geneticamente e mais misturada do que o grupo da Cornualha. Nesses casos, precisamos modelar filogenias populacionais com mistura e fluxo gênico, e um maior desenvolvimento em rarecoal nos permitirá estudar esses cenários mais complexos.