Muestras y secuenciación
Generamos las secuencias del genoma de 10 muestras que se recogieron en tres sitios del este de Inglaterra cerca de Cambridge: Hinxton (cinco muestras, Fig. Suplementaria 1), Oakington (cuatro muestras, Fig. Suplementaria 2) y Linton (1 muestra), que fueron seleccionadas de un total de 23 muestras examinadas en función de la conservación del ADN (Fig. 1b, Tabla 1, Tabla Suplementaria 1, Nota Suplementaria 1). Todas las muestras secuenciadas fueron datadas por radiocarbono (Tabla Suplementaria 2), y se clasifican en tres periodos de tiempo: la muestra de Linton y dos muestras de Hinxton son de finales de la Edad de Hierro (∼100 a.C.), las cuatro muestras de Oakington del periodo anglosajón temprano (siglos quinto a sexto), y tres muestras de Hinxton del periodo anglosajón medio (siglos séptimo a noveno; Fig. 1c). Las dos muestras de la Edad de Hierro de Hinxton son masculinas, todas las demás muestras son femeninas, según la cobertura del cromosoma Y y en consonancia con la arqueología. Todas las muestras fueron secuenciadas con una cobertura genómica de 1x a 12x (Tabla 1). Todas tienen tasas de contaminación inferiores al 2%, según las estimaciones del ADN mitocondrial y del ADN nuclear (Tabla suplementaria 3, Nota suplementaria 2). Los haplogrupos mitocondriales y del cromosoma Y de todas las muestras se encuentran entre los haplogrupos más comunes en la Europa noroccidental actual (Tabla 1)11,12 y en este caso no son informativos para distinguir la ascendencia inmigrante de la indígena.
Generamos un gráfico de componentes principales de las 10 muestras antiguas junto con las poblaciones europeas relevantes seleccionadas a partir de datos publicados13,14 (Fig. Suplementaria 3). Las muestras antiguas caen dentro del rango de las muestras modernas inglesas y escocesas, con las muestras de la Edad de Hierro de Hinxton y Linton cayendo más cerca de las muestras modernas inglesas y francesas, mientras que la mayoría de las muestras de la era anglosajona están más cerca de las muestras modernas escocesas y noruegas. En general, sin embargo, las diferencias genéticas poblacionales entre estas muestras en los alelos comunes son pequeñas.
Estimación del componente anglosajón en la Gran Bretaña moderna
Mientras que el análisis de componentes principales puede revelar una estructura poblacional relativamente antigua, como la generada a partir de modelos de aislamiento por distancia a largo plazo15, las secuencias del genoma completo nos permiten estudiar las variantes raras para conocer la estructura poblacional más reciente. Identificamos variantes raras con una frecuencia alélica de hasta el 1% en un panel de referencia de 433 individuos europeos de las modernas Finlandia, España, Italia, Países Bajos y Dinamarca, de los que se dispone de datos de secuencias de todo el genoma16,17,18. Determinamos para cada muestra antigua el número de variantes raras compartidas con cada población de referencia (Nota suplementaria 3). Existen notables diferencias en los patrones de compartición de las muestras, ilustradas por la relación entre el número de alelos raros compartidos con individuos holandeses y el número compartido con individuos españoles (Fig. 2a). Las muestras anglosajonas medias de Hinxton (HS1, HS2 y HS3) comparten relativamente más variantes raras con el neerlandés moderno que las muestras de la Edad de Hierro de Hinxton (HI1 y HI2) y Linton (L). Las muestras anglosajonas tempranas de Oakington son más diversas: O1 y O2 están más cerca de las muestras anglosajonas medias, O4 presenta el mismo patrón que las muestras de la Edad de Hierro y O3 muestra un nivel intermedio de intercambio de alelos, lo que sugiere una ascendencia mixta. Las diferencias entre las muestras son mayores en los alelos de baja frecuencia y disminuyen al aumentar la frecuencia alélica. Esto es consistente con que las mutaciones de menor frecuencia en promedio son más jóvenes, reflejando una ascendencia distinta más reciente, en comparación con las mutaciones de mayor frecuencia que reflejan una ascendencia compartida más antigua.
También examinamos con el mismo método 30 muestras modernas del proyecto UK10K19, 10 de ellas con lugares de nacimiento en el este de Inglaterra, Gales y Escocia. En general, estas muestras se acercan más a las de la Edad de Hierro que a las de la época anglosajona (Fig. 2a). Hay una pequeña pero significativa diferencia entre los valores medios de los tres grupos de muestras británicas modernas, con las muestras del este de Inglaterra compartiendo ligeramente más alelos con los holandeses, y las muestras escocesas se parecen más a las muestras de la Edad de Hierro.
Para cuantificar las fracciones de ascendencia, ajustamos las muestras británicas modernas con un modelo de mezcla de componentes antiguos, colocando todas las muestras en un eje lineal de compartición relativa de alelos holandeses que integra los datos de los recuentos de alelos 1-5 (Fig. 2b, Nota Suplementaria 3). Según esta medida, las muestras del este de Inglaterra son consistentes con un 38% de ascendencia anglosajona de media, con una gran dispersión del 25 al 50%, y las muestras de Gales y Escocia son consistentes con un 30% de ascendencia anglosajona de media, de nuevo con una gran dispersión (Tabla Suplementaria 4). Estas cifras son más bajas en promedio si excluimos el individuo HS3 de baja cobertura del grupo anglosajón (35% para las muestras del este de Inglaterra). Se obtiene un resultado similar cuando analizamos las muestras británicas modernas del Proyecto 1.000 Genomas, que muestran una fuerte subestructura (Nota Suplementaria 4, Fig. Suplementaria 4). Encontramos que las muestras de Kent muestran un componente anglosajón similar del 37% cuando se comparan con los grupos externos finlandeses y españoles, con un valor menor para las muestras de Cornualles (Fig. Suplementaria 5a, Tabla Suplementaria 4).
Un enfoque alternativo y potencialmente más directo para estimar estas fracciones es medir el intercambio de alelos raros directamente entre las muestras modernas británicas y las antiguas. Aunque es mucho más ruidoso que el análisis que utiliza los grupos externos holandeses y españoles, esto produce resultados consistentes (Fig. 5b Suplementaria, Nota 3 Suplementaria). En resumen, este análisis sugiere que, por término medio, entre el 25 y el 40% de la ascendencia de los británicos modernos fue aportada por inmigrantes anglosajones, siendo el número más elevado en el este de Inglaterra, más cerca del origen de los inmigrantes. La diferencia entre grupos dentro de Gran Bretaña es sorprendentemente pequeña en comparación con las grandes diferencias observadas en las muestras antiguas. Esto es cierto tanto para las muestras del UK10K como para las muestras británicas del proyecto 1.000 Genomas, aunque observamos que las ubicaciones de las muestras del UK10K pueden no reflejar completamente la estructura geográfica histórica de la población debido a la reciente mezcla de poblaciones.
Una advertencia de nuestro análisis es que estamos utilizando las tres muestras de la Edad de Hierro de Cambridgeshire como proxies de la población indígena británica, que sin duda estaba estructurada, aunque parece razonable tomarlas como representantes al menos para el este de Inglaterra. Además, cualquier contribución genética continental del periodo romano-británico se incluiría en el componente anglosajón asignado, al igual que una contribución escandinava o normanda de finales del periodo anglosajón. Sin embargo, estos efectos sólo serían fuertes si la contribución fuera grande y muy sesgada en el eje holandés-español.
Construyendo un modelo de historia de la población a partir de variantes raras
Para obtener más información sobre la historia subyacente a estos patrones de reparto, desarrollamos un nuevo método sensible, rarecoal, que ajusta un modelo demográfico a la distribución conjunta de alelos raros en un gran número de muestras (Notas Suplementarias 5 y 6). Nuestra estrategia consiste en construir un modelo en forma de filogenia poblacional de la relación entre las poblaciones europeas modernas, en el que podemos colocar las muestras antiguas. Reconocemos que un modelo sin mezcla y flujo genético posterior a la división es inadecuado como descripción completa de la historia de la población europea. Sin embargo, este es un modelo natural simplificado, y el enfoque de este estudio es entender las relaciones genéticas de los inmigrantes y las poblaciones indígenas en Inglaterra, para lo cual este modelo de filogenia poblacional proporciona un andamiaje razonable.
La idea clave es modelar explícitamente la incertidumbre en el pasado de la distribución de los alelos derivados, pero aproximar la distribución correspondiente para los alelos no derivados por su expectativa (Fig. 3a). Debido a que rarecoal modela explícitamente las mutaciones raras, estima las separaciones en el tiempo del reloj de mutaciones en lugar del tiempo de deriva genética, en contraste con los métodos basados en los cambios de frecuencia de los alelos en las variantes comunes20. Primero probamos rarecoal en datos simulados y descubrimos que era capaz de reconstruir los tiempos de separación y los tamaños de las poblaciones de las ramas con buena precisión (Fig. 3b), haciendo coincidir el reparto de alelos casi exactamente (Fig. 6 suplementaria). También probamos su robustez con un tamaño de muestra más pequeño en una sola población (como en las muestras danesas estudiadas aquí), y bajo mezcla (Nota Suplementaria 5, Fig. Suplementaria 7).
A continuación aplicamos rarecoal a 524 muestras de seis poblaciones de Europa (Fig. 3c,d) para estimar un árbol demográfico europeo en el que pudiéramos colocar las muestras antiguas. Dado que las muestras británicas del Proyecto 1.000 Genomas se dividen en tres grupos distintos, que reflejan tres ubicaciones de las muestras (de Kent, Cornualles y las Islas Orcadas, como parte del proyecto Pueblos de las Islas Británicas4,21, Nota Suplementaria 4)16 , ajustamos diferentes árboles a estos grupos diferentes (Fig. Suplementaria 8). La característica común en los tres árboles es una primera separación entre el sur y el norte de Europa con un tiempo medio ∼7.000 años atrás, seguida de otras tres separaciones cercanas en el tiempo ∼5.000 años atrás entre Holanda, Dinamarca, Finlandia y Gran Bretaña. Curiosamente, al utilizar las muestras británicas de Cornualles, obtuvimos un árbol en el que Cornualles forma un outgroup con la población holandesa, danesa y finlandesa (Fig. 3c). En cambio, cuando utilizamos Kent, forma un clado con la población holandesa (Fig. 3d), lo que es coherente con una mayor ascendencia anglosajona en el sur de Inglaterra que en Cornualles. Cuando utilizamos la población de las Orcadas como rama británica, encontramos una topología de árbol similar a la de Cornualles. Estos resultados muestran que tanto Cornualles como las Orcadas están más relacionadas con la Europa continental que Kent. El tamaño efectivo de la población de la rama de la punta es el más bajo en Finlandia (∼12.000), en consonancia con observaciones anteriores22,23, y el más alto en Kent (∼191.000) y en los Países Bajos (∼184.000). Para los datos europeos, el ajuste del reparto de alelos es peor que para los datos simulados (Fig. 9 suplementaria), presumiblemente debido a las suposiciones simplificadoras del modelo de un tamaño de población constante en cada rama y la ausencia de migración.
La estimación relativamente reciente del tiempo de separación entre Italia y España, ∼2.600 años atrás, puede ser una consecuencia de la migración tras una separación anterior; el tamaño de la población ancestral italo-española se estimó extremadamente grande y no se pudo determinar un límite superior, lo que podría ser un artefacto de la subestructura ancestral o de la mezcla. Otra explicación sería la existencia de una fuente común de mezcla en la población española e italiana, lo que daría lugar a una ascendencia común relativamente reciente. En la Fig. 7 suplementaria mostramos cómo la mezcla puede modificar las estimaciones de rarecoal del tamaño efectivo de la población y los tiempos de división.
Modelación de la ascendencia de genomas antiguos mediante rarecoal
Además de reconstruir la relación europea más amplia a partir de un gran conjunto de muestras, rarecoal puede utilizarse para evaluar la relación de una sola muestra antigua con el árbol europeo. Para ello, suponemos un modelo en el que la población ancestral de la muestra única se fusiona con el árbol europeo en una rama concreta en un momento determinado antes de la fecha de origen de la muestra. A continuación, podemos utilizar rarecoal para evaluar la probabilidad de los datos de compartición conjunta de alelos entre la muestra antigua y las poblaciones modernas bajo cada modelo, especificado por la rama y el tiempo de fusión en el árbol (Fig. 4, Nota complementaria 5). Existe una marcada diferencia entre las muestras de la Edad de Hierro y las de la época anglosajona: las muestras de la época anglosajona se fusionaron mayoritariamente en las ramas holandesa y danesa, mientras que las muestras de la Edad de Hierro se fusionaron preferentemente en la base de la rama ancestral de todas las muestras modernas del norte de Europa. La excepción es que la muestra anglosajona temprana O4 muestra la misma señal que las muestras de la Edad de Hierro, lo que es coherente con el análisis de reparto de alelos raros (Fig. 2). En el caso de la muestra O3, que parecía tener una ascendencia mixta en el análisis de reparto de alelos, encontramos la mayor probabilidad de fusión con la rama danesa. Sin embargo, en esta muestra también hay una probabilidad notablemente mayor de fusionarse con el mismo punto de la rama ancestral del norte de Europa, como se ha visto en las muestras de la Edad de Hierro. Esto es coherente con que O3 sea de origen indígena y anglosajón recientemente mezclado, aunque no podemos descartar escenarios más complejos que impliquen una ascendencia mixta previa de este individuo durante el periodo romano-británico. Existe una cierta diferenciación entre las muestras de la época anglosajona: las muestras O1, O2, HS1 y HS3 tienen la mayor probabilidad de fusionarse con la rama holandesa, mientras que O3 y HS2 tienen la mayor probabilidad de fusionarse con la rama danesa, aunque en algunos casos la diferencia de probabilidad entre estas dos posibilidades es pequeña. Las señales de HS3, HI1 y L están más dispersas debido a la baja cobertura, pero son coherentes con los demás resultados.
El mapeo de las muestras antiguas en el árbol es similar para el árbol que utiliza Kent como población británica (Fig. 10 suplementaria) y para el árbol que utiliza Cornualles como proxy británico (Fig. 4). En particular, las muestras de la Edad de Hierro se sitúan en la rama ancestral de las poblaciones del norte de Europa, independientemente de que se utilice Kent o Cornualles como proxy británico. Esto sugiere que ninguna de las poblaciones actuales de nuestro conjunto de datos, incluida la población de Cornualles, está tan estrechamente relacionada con las muestras de la Edad de Hierro como lo están Dinamarca y los Países Bajos con las muestras anglosajonas.
Validamos nuestro enfoque de mapear las muestras individuales en un árbol colocando las muestras modernas en el mismo árbol que en la Fig. 4. Encontramos todas las muestras de las poblaciones utilizadas en la construcción del árbol colocadas en la punta de su respectiva rama, como se esperaba (Fig. 11 suplementaria). Cuando se mapean muestras de grupos no presentes en el árbol, como es el caso de las muestras de Kent y Orkney, encontramos que se mapean en la misma ubicación ancestral que las muestras de la Edad de Hierro (Fig. 11 suplementaria), confirmando que tienen una ascendencia distinta de la población de Cornualles y otras poblaciones utilizadas en la construcción del árbol, de forma similar a las muestras de la Edad de Hierro. Como se detalla en la Nota Suplementaria 5, nuestro enfoque de mapeo depende crucialmente de un modelo apropiado para las poblaciones de referencia. Cuando se utiliza la población de Kent para construir el árbol (Fig. 3c), encontramos que el mapeo de las muestras británicas empeora (Fig. Suplementaria 12), posiblemente porque la población de Kent está menos definida genéticamente y más mezclada que el grupo de Cornualles. En estos casos necesitamos modelar filogenias poblacionales con mezcla y flujo genético, y un mayor desarrollo en rarecoal nos permitirá estudiar estos escenarios más complejos.