El ensamblaje de novo del genoma de L. minor con una cobertura mayor de 100× de Illumina

El genoma de L. minor clon 5500 se estimó en 481 Mbp por citometría de flujo (Fig. 1b) y está compactado en 20 pares de cromosomas (2n = 40, Fig. 1c). Para obtener la secuencia de referencia del genoma de L. minor, se aisló el ADN genómico total para crear dos bibliotecas de extremo pareado para la plataforma Illumina. Una biblioteca HiSeq de 2 × 100 de alta cobertura se complementó con lecturas más largas de una biblioteca MiSeq de 2 × 300. No se incluyeron espacios entre los dos extremos de los fragmentos, lo que dio lugar a lecturas de extremo emparejado con una longitud de fragmento nominal de 200 y 600 pb, respectivamente. La biblioteca HiSeq constaba de 215.721.669 lecturas (43 Gbp) que representaban aproximadamente una cobertura del genoma de 90×, mientras que la biblioteca Miseq contenía 26.270.063 (15 Gbp) lecturas equivalentes a una cobertura del genoma de 30×. Tras eliminar los adaptadores y las lecturas que contenían nucleótidos desconocidos o de baja calidad, se utilizaron las 207.985.822 y 24.416.556 lecturas de alta calidad restantes (con una cobertura de 87× y 29× respectivamente) para ensamblar el genoma de L. minor (archivo adicional 1: tabla S1). Para obtener el mejor borrador de secuencia posible, se evaluaron tres programas de ensamblaje diferentes para el ensamblaje de novo, a saber, SOAPdenovo2 y CLC bio, ambos con un algoritmo basado en el grafo de Bruijn, y MaSuRCA, que utiliza un algoritmo de ensamblaje basado en el solapamiento de las llamadas superlecturas. Dichas superlecturas son lecturas cortas extendidas de forma única a partir de lecturas de extremo de par de alta cobertura para comprimir significativamente los datos. Posteriormente, los ensamblajes obtenidos se procesaron con SSPACE para el andamiaje y con Gapcloser para cerrar los huecos en un último paso. Con respecto al número de contigs/ andamios, los valores N50 correspondientes y la frecuencia de errores de emparejamiento, se encontró que el borrador del genoma generado por MaSuRCA generó una secuencia genómica más robusta en comparación con los genomas generados por SOAPdenovo2 y CLC bio (archivo adicional 2: Tabla S2). Los procesos de corrección de errores y de superlecturas de MaSuRCA redujeron las lecturas brutas de extremo pareado a 2.145.090 superlecturas que se aplicaron para calcular el solapamiento por pares entre estas lecturas. A partir de estas superlecturas, el pipeline MaSuRCA generó 49.027 contigs (tamaño N50 contig 20,9 kbp) y 46.105 scaffolds (tamaño N50 scaffold 23,6 kbp) con una longitud mínima de 1.000 bp (archivo adicional 2: Tabla S2). Por lo tanto, los andamios resultantes de MaSuRCA se utilizaron para el análisis posterior.

Usando la tubería CEGMA, se reconocieron 233 genes codificadores de proteínas (94 %) de un conjunto de genes eucariotas altamente conservados (248) dentro del genoma ensamblado de MaSuRCA, de los cuales 215 genes (86 %) estaban completamente (>70 % de su longitud) cubiertos (Archivo adicional 3: Tabla S3). Para evaluar la precisión del ensamblaje de novo, se alineó con los andamios un conjunto de transcritos generados de novo procedentes de la misma cepa de L. minor. Utilizando el software BLAT, se descubrió que el ~97% de los transcritos limpiados se alineaban con al menos un andamio, con una cobertura de ≥95% y una identidad de secuencia de ≥90% (archivo adicional 4: tabla S4). La secuencia final ensamblada abarcaba 472.128.703 bases incrustadas en 46.047 andamios, con una longitud N50 de 23.801 bases cuando se excluyen los andamios de 1000 pb o menores. Esta longitud es similar al tamaño del genoma predicho utilizando Kmergenie, que estimó el tamaño del ensamblaje en 475 Mbp basándose en las estadísticas de k-mer, o en 481 Mbp utilizando citometría de flujo (Fig. 1b). Por lo tanto, como proporción del contenido de ADN nuclear, la secuencia del genoma de L. minor estaba casi totalmente (98,15 %) cubierta por los andamios ensamblados. Los andamios que tenían una longitud de secuencia de 2 kbp o más cubrían aproximadamente el 96 % del tamaño de la secuencia del ensamblaje del genoma de novo, de los cuales 17 andamios tenían una longitud de secuencia mínima de 0,5 Mbp (archivo adicional 5: Figura S1). Utilizando los datos disponibles del ADN del cloroplasto de L. minor, el genoma completo del clon 5500 de L. minor se obtuvo aquí alineando las lecturas NGS utilizando BWA con el genoma del cloroplasto de L. minor del Genbank como referencia (NC_010109.1). Este genoma del cloroplasto tenía 165,9 Mbp y contenía 48 variantes relacionadas con 117 pb (0,07 %) en comparación con la secuencia de referencia del Genbank, que procede de un clon/ecotipo diferente (archivo adicional 6: tabla S5).

Fig. 2
figure2

Un diagrama de venn que muestra los grupos de familias de genes ortólogos y paralogos en L. minor, S. polyrhiza, Z. mays y O. sativa identificados por OrthoMCL. El número de familias de genes se indica en cada uno de los componentes; el número de genes dentro de las familias para todas las especies dentro del componente se indica dentro de los paréntesis

En este estudio, se utilizó un enfoque de escopeta de genoma completo para secuenciar el genoma de L. minor utilizando el ensamblaje de novo de bibliotecas de lecturas de extremo pareado exclusivamente, lo que resultó en un valor N50 moderado. La falta de bibliotecas de pares de pares supone una diferencia significativa en el tamaño de los andamios y, por tanto, también en el valor N50. Las bibliotecas de lecturas de fin de pareja simplemente no pueden abarcar muchas de las secuencias repetitivas de un genoma, especialmente en los genomas de plantas, que se sabe que tienen una gran cantidad de secuencias repetitivas. La participación de un conjunto de bibliotecas de pares de pares produciría andamios más largos que harían que los valores de N50 fueran de 10 a 100 veces mayores . Nuestro ensamblaje del genoma contiene un valor N50 del andamio de más de 20 kbp, que es comparable al valor N50 del andamio de los ensamblajes del genoma de Cannabis sativa y Phoenix dactylifera . Además, los valores N50 generados de otros ensamblajes genómicos de plantas secuenciadas en los que no se incluyen bibliotecas de parejas (valor N50 del andamio) también están en línea con el valor N50 del andamio aquí obtenido. Esto sugiere que el ensamblaje producido de L. minor cubre la mayoría de las secuencias no repetidas. Es posible que se necesiten nuevas bibliotecas de secuenciación junto con información cartográfica como mapas físicos, mapas ópticos o mapas citogenéticos para mejorar la calidad de la secuencia del genoma con el fin de analizar la genómica comparativa, las duplicaciones del genoma completo o la evolución del genoma en las especies de lenteja de agua. Sin embargo, el ensamblaje actual nos permite caracterizar los elementos básicos (por ejemplo, el contenido de repeticiones y genes) del genoma de L. minor.

Las secuencias repetitivas comprenden el 62 % del ensamblaje del genoma de L. minor

Las comparaciones basadas en la homología revelaron que el 62 % del ensamblaje del genoma de L. minor consistía en secuencias repetitivas (Tabla 1). Las repeticiones se clasificaron en retrotransposones (31,20 %), transposones de ADN (5,08 %), repeticiones en tándem (3,91 %) y otras repeticiones no clasificadas (21,27 %). Los retrotransposones de repetición terminal larga (LTR) son la clase predominante de elementos transponibles (29,57 %), lo que concuerda con otros genomas de plantas.

Tabla 1 Identificación de novo de repeticiones de secuencia en el genoma de L. minor

Las familias de transposones más abundantes fueron gypsy y copia, que contribuyen al 10,59 y 18,79 % del genoma, respectivamente. En cuanto a los elementos transponibles de ADN, se observó que los elementos DNA_hAT-Ac eran los más abundantes, abarcando casi el 2,7 % del genoma nuclear. La alta proporción de secuencias repetitivas podría explicar la distribución dispersa de las firmas de heterocromatina del clon 8623 de L. minor (377 Mbp, ). Dado que la plasticidad del tamaño del genoma en diferentes clones de L. minor (que van de 323 a 760 Mbp) podría ser el resultado de diferentes amplificaciones repetitivas y/o duplicaciones recientes de todo el genoma, es interesante estudiar el contenido de repeticiones y el cariotipo de diferentes clones geográficos de L. minor. En comparación con el genoma de S. polyrhiza, que es la lenteja de agua más antigua, la amplificación repetitiva en L. minor podría explicar el 94,5% de la diferencia de tamaño del genoma entre dos genomas de referencia de la lenteja de agua. Sorprendentemente, el LTR copia es más abundante que el LTR gypsy en el genoma de L. minor. La proporción gitana/copia en L. minor es de 0,56, mientras que la proporción correspondiente en S. polyrhiza es de 3,5 . Aunque nuestro método de identificación de repeticiones es dependiente del ensamblaje, lo que implica que el contenido de repeticiones podría estar subestimado y una alta proporción de repeticiones sin clasificar (34,37 % de contenido de repeticiones, Tabla 1), el contenido de repeticiones en L. minor sugiere que la amplificación de retrotransposones LTR jugó un papel importante en la evolución del genoma de la lenteja de agua. Una caracterización más detallada de las repeticiones en proyectos de secuenciación de genomas de lenteja de agua publicados o en curso podría arrojar más luz sobre esta interesante historia.

L. minor 5500 contiene un número similar de genes codificadores de proteínas que S. polyrhiza 7498

Se seleccionaron andamios de 2 kbp o más para la predicción de genes, ya que los predictores de genes requieren una cierta cantidad de secuencia aguas arriba y aguas abajo de un gen para funcionar con precisión. Por lo tanto, se omitieron los andamios menores de 2 kbp para reducir los errores de falsos positivos y los modelos de genes fragmentados en la predicción de genes. Se utilizó la herramienta CEGMA para evaluar la integridad de esta selección de secuencias de andamiaje. Se encontró que todavía 213 genes de longitud completa estaban completamente alineados, lo que significa que el número final de la anotación de genes representa al menos el 85% del verdadero número de genes (archivo adicional 3: Tabla S3). Los modelos de genes de las secuencias del genoma de L. minor enmascaradas se predijeron y anotaron con la línea de predicción de genes ab initio y basada en la homología MAKER-P (Archivo adicional 7: Tabla S6). Para obtener un conjunto completo de modelos de genes de L. minor, se aisló y secuenció el ARN de plantas de L. minor cultivadas en condiciones sanas de crecimiento y de plantas de L. minor expuestas a diversas condiciones de estrés (incluyendo uranio, radiación gamma y tratamiento con Sr-90). Utilizando la plataforma HiSeq de Illumina, se obtuvieron aproximadamente 592.326.402 lecturas de secuenciación limpias después de recortar los adaptadores y las lecturas de baja calidad (Archivo adicional 8: Tabla S7). Se produjeron 530.159 transcripciones con el ensamblador Trinity de novo, incluyendo diferentes isoformas por transcripción. Estos datos transcriptómicos de L. minor, junto con todos los transcritos disponibles de las especies de lenteja de agua Landoltia punctata, Lemna gibba y S. polyrhiza y complementados con nueve proteomas de plantas monocotiledóneas, sirvieron como prueba para las herramientas de predicción de genes SNAP y Augustus dentro del pipeline Maker-P. En total, se anotaron 22.382 genes codificadores de proteínas, de los cuales 18.744 genes (el 84%) contenían una puntuación AED (Annotation Edit Distance) inferior a 0,25, lo que puede considerarse altamente preciso (Fig. 1d). Aunque el número de genes es menor que el encontrado en otras plantas monocotiledóneas secuenciadas, era muy similar al de la estrechamente relacionada S. polyrhiza. Esto apoya la hipótesis de que la anatomía pequeña y estructuralmente simple de las especies de lenteja de agua permitió perder un número de genes. Por término medio, los modelos de genes consistieron en 1934 pb y una media de 4,8 exones por gen (Tabla 2; Archivo adicional 9: Figura S2). La distribución de la longitud de los exones era coherente con la de otras especies, aunque la longitud de los intrones de L. minor tendía a ser más corta que la de otras especies utilizadas en la comparación (Tabla 2). Para evaluar la precisión de la anotación obtenida, el conjunto completo de las proteínas de L. minor del Centro Nacional de Información Biotecnológica (NCBI) fue comparado con las proteínas de L. minor. Resultó que 60 de las 61 accesiones del NCBI (descargadas el 11-09-2015) podían alinearse con al menos una de las proteínas de L. minor (BLASTP , valor e de 1e-10) (Archivo adicional 10: Tabla S8).

Tabla 2 Resumen de las características de los genes de L. minor y otras tres plantas monocotiledóneas

Dado que el genoma de L. minor ha sido secuenciado utilizando un enfoque WGS sin el uso de bibliotecas de parejas o la construcción de un mapa físico, no se excluye que algunos alelos puedan haber sido anotados como genes individuales. La heterocigosidad es, a saber, más prevalente en los individuos asexuales en comparación con las especies sexuales a través de la acumulación de mutaciones en los linajes clonales . Un estudio de Cole y Voskuil reveló que esto también era cierto para una población de L. minor . Sin embargo, cuando se utiliza la tubería MaSuRCA en lugar del enfoque de ensamblaje basado en el gráfico de Bruijn, se superan las secuencias repetidas, los errores, las regiones de baja cobertura y las pequeñas diferencias estructurales causadas por la heterocigosidad debido a su enfoque de solapamiento-disposición-consenso . Para evaluar la precisión de la anotación de novo, examinamos la proporción de transcritos creados de novo representados en el transcriptoma anotado. Transdecoder creó un total de 179.736 transcritos de ARN diferentes, de los cuales 179.734 pudieron ser asignados a los transcritos anotados (BLASTN , valor e de 1e-30).

El proteoma de Lemna es mayoritariamente (66.2 %) compartido con el proteoma de Spirodela

Para estudiar el contenido génico de L. minor y de la lenteja de agua en general, examinamos las similitudes de secuencia entre los genes de L. minor y S. polyrhiza y otras dos plantas monocotiledóneas altamente anotadas. Por lo tanto, los 22.382 productos génicos de L. minor se agruparon en grupos ortólogos y paralógicos con 107.716 productos génicos de S. polyrhiza, Oryza sativa y Zea mays utilizando OrthoMCL . Aunque los tres conjuntos de anotaciones genéticas contienen diferentes números de modelos genéticos que reflejan la diferente historia de las anotaciones, esta comparación proporcionó una indicación de la exhaustividad general de nuestro ensamblaje. En resumen, se conservaron 8202 grupos ortólogos en las cuatro especies que contienen el 39% de los genes presentados (Fig. 2a). Además de los 3.546 genes únicos de L. minor (no agrupados por OrthoMCL, 15,8 % del total de genes de L. minor), un total de 795 grupos paralógicos que representaban 2.897 genes (12,9 %) eran exclusivos de L. minor (archivo adicional 11: tabla S9). Estos 6443 genes de dos grupos se denominan además genes específicos de Lemna en este estudio. Se espera que las especies más estrechamente relacionadas tengan un mayor número de modelos de genes similares. Como resultado, 14.830 genes de L. minor (66,2 %) tienen ortólogos en S. polyrhiza, mientras que otros 1109 genes de L. minor (4,9 %) tienen ortólogos en O. sativa, Z. mays, o en ambas pero no en S. polyrhiza (Fig. 2b). Además, se encontró que 1821 genes (8,13 %) de L. minor compartían una similitud única con al menos un gen de S. polyrhiza, que se denominan además genes específicos de la lenteja de agua.

Se ha demostrado en el genoma de S. polyrhiza que ha habido dos rondas antiguas de duplicaciones de todo el genoma durante la evolución (ca. 90 Mya) . En la comparación de las familias de genes entre S. polyrhiza y cuatro especies de plantas representativas (Arabidopsis, tomate, plátano y arroz), un bajo número de copias de genes en S. polyrhiza indicaba pérdidas preferentes de genes duplicados . Sería interesante estudiar el número de genes y la relación de las familias de genes de otros genomas de Lemna que están en curso, como L. gibba G3 DWC131 (450 Mbp) y el clon 8627 de Lemna minor (800 Mbp) . Es posible que el genoma ancestral de las especies de Lemna contuviera al menos una duplicación reciente de todo el genoma después de la división entre los géneros L. minor y S. polyrhiza, seguida de procesos de eliminación de genes duplicados de diferente grado, lo que dio lugar a diferentes especies de Lemna con un tamaño de genoma que oscila entre 323 y 760 Mbp. La pérdida de genes más extensa puede dar lugar a un número total de genes reducido, como en el caso de L. minor 5500. Una hipótesis alternativa, por otro lado, podría ser que L. minor 5500 representa el genoma del ancestro de Lemna que contiene un contenido genético similar al del genoma de Spirodela. Otras especies de Lemna con un genoma más grande podrían haber evolucionado a partir de la expansión de repeticiones más grandes o de duplicaciones del genoma completo muy recientes e independientes. Esta hipótesis podría ser probada por el trabajo futuro, que estudia la relación macrosintética entre S. polyrhiza 7498 genoma (2n = 40, 158 Mbp) y L. menor 5500 genoma (2n = 40, 481 Mbp).

La información de la anotación del gen apoya un mayor análisis funcional del genoma y aplicaciones de producción de biomasa

Para identificar las funciones putativas de los modelos de genes de L. minor, se llevó a cabo una búsqueda de similitud de secuencia contra las secuencias de proteínas Swiss-Prot de Arabidopsis thaliana y O. sativa (BLASTP , valor e de 1e-5). Posteriormente, los transcritos fueron anotados con términos de Gene Ontology (GO) y Pfam utilizando una instalación local de Interproscan 5 y el mapeo de vías KEGG utilizando el KEGG Automatic Annotation Server (KAAS) . La base de datos pfam-A proporciona modelos de Markov ocultos de perfil de más de 13.672 familias de proteínas conservadas . El proyecto GO proporciona una ontología de términos definidos que representan las propiedades de los productos génicos, que abarca tres dominios: componente celular, función molecular y proceso biológico. El resultado de KAAS contiene asignaciones KO (KEGG Orthology) y vías KEGG generadas automáticamente. En total, 21.263 modelos de genes (95 %) recibieron un enlace de anotación con al menos una de las bases de datos incluidas, de los cuales 18.597 (83,1 %) fueron asignados a uno o más dominios Pfam, 7329 (32,7 %) a términos de la ontología KEGG y 15.512 (69,3 %) de las proteínas fueron anotadas con éxito con términos de la ontología genética. Los términos GO de L. minor presentan una similitud general con las anotaciones GO de S. polyrhiza, O. sativa y Z. mays (Fig. 3, Archivo adicional 12: Figura S3; Archivo adicional 13: Tabla S10). El análisis de enriquecimiento GO entre las dos especies de lenteja de agua revela que el proteoma de L. minor contiene 24 términos GO sobrerrepresentados y 15 infrarrepresentados con un FDR significativo <0,05 (Fig. 3; Archivo adicional 14: Tabla S11). Las proteínas enriquecidas en L. minor 5500 incluían (1) enzimas implicadas en procesos catabólicos (GO:9056, 422 proteínas), actividad hidrolasa (GO:16787, 2739 proteínas); (2) proteínas en respuesta a diversos estímulos (Ej, estrés (GO:6950, 529 proteínas), estímulo abiótico (GO:9628, 86 proteínas), estímulo extracelular (GO:9991, 19 proteínas), estímulo endógeno (GO:9719, 55 proteínas); y (3) procesos de biosíntesis (por ejemplo, metabolitos precursores y energía (GO:6091, 258 proteínas), proceso metabólico del ADN (GO:6259, 350 proteínas), proceso metabólico de los carbohidratos (GO:5975, 776 proteínas). Estas proteínas podrían contribuir a la capacidad de L. minor para (1) la eliminación de los nutrientes sobrantes de las aguas residuales, (2) la adaptación a diversas condiciones climáticas que dan lugar a su distribución en todo el mundo, y (3) proporcionar valor nutricional y una alta productividad de la biomasa. Curiosamente, 2381 genes específicos de L. minor (36,9 %) y 326 genes duplicados en tándem de L. minor (17,4 %) están presentes en los términos GO sobrerrepresentados. Además, L. minor contiene secuencias que codifican 12 glutamina sintetasas (GS) y 21 glutamato sintasas (GOGAT) en comparación con 7 y 11 secuencias en S. polyrhiza, respectivamente (Archivos adicionales 15, 16: Fig. S4, S5; Archivo adicional 17: Tabla S12). Ambas enzimas regulan la asimilación del amonio, que es una vía bioquímica importante para el uso de L. minor en la remediación de aguas residuales, posiblemente en combinación con la producción de energía. Por lo tanto, estos genes amplificados, que pueden divergir para producir nuevas funciones a través de la neofuncionalización, podrían ser candidatos potenciales para más estudios funcionales, ya que los protocolos de transformación eficientes para L. minor están disponibles .

Fig. 3
figura3

Comparación de los términos GO más relevantes de las plantas para tres ontologías estructuradas entre L. minor (negro) y S. polyrhiza (amarillo). Los términos GO más específicos sobre/infra representados en L. minor se muestran en el lado derecho. Los símbolos de asterisco indican que estos términos GO están significativamente enriquecidos (prueba exacta de Fisher, FDR <0,05) en L. minor (negro) o en S. polyrhiza (amarillo) (prueba exacta de Fisher, FDR <0,05). proceso pro, organización de órganos, desarrollo, factor transcripcional TF

Deja una respuesta

Tu dirección de correo electrónico no será publicada.