De novo conjunto de L. genoma menor com maior 100× de cobertura de Illumina

Genoma de L. clone menor 5500 foi estimado em 481 Mbp por citometria de fluxo (Fig. 1b) e é compactado em 20 pares de cromossomos (2n = 40, Fig. 1c). A fim de obter a seqüência de referência do genoma L. menor, o DNA genômico total foi isolado para criar duas bibliotecas de ponta de pizza para a plataforma Illumina. Uma biblioteca de alta cobertura 2 × 100 HiSeq foi suplementada com leituras mais longas de uma biblioteca 2 × 300 MiSeq. Não foram incluídas lacunas entre as duas extremidades dos fragmentos, resultando em leituras de ponta de página com um comprimento nominal de fragmento de 200 e 600 bp, respectivamente. A biblioteca HiSeq consistiu de 215.721.669 leituras (43 Gbp) representando aproximadamente uma cobertura de 90× genoma, enquanto a biblioteca Miseq continha 26.270.063 leituras (15 Gbp) equivalentes a uma cobertura de genoma de 30×. Depois de remover adaptadores e leituras contendo nucleotídeos desconhecidos ou de baixa qualidade, as 207.985.822 e 24.416.556 leituras de alta qualidade (cobertura de 87× e 29× respectivamente) foram usadas para montar o genoma L. menor (arquivo adicional 1: Tabela S1). Para obter a melhor sequência de rascunho possível, três diferentes programas de montagem foram avaliados para a montagem de novo, nomeadamente SOAPdenovo2 e CLC bio, ambos usando um algoritmo baseado em gráficos de Bruijn e MaSuRCA que usa um algoritmo de montagem baseado em sobreposição para as chamadas superleituras. Essas superleituras são leituras curtas de alta cobertura de ponta de tela para comprimir significativamente os dados. Posteriormente, as montagens obtidas foram posteriormente processadas com SSPACE para andaimes, e Gapcloser para fechar as lacunas em uma etapa final. Com respeito ao número de contigs/ andaimes, correspondentes valores de N50 e freqüência de erro de desajuste, verificou-se que o rascunho do genoma gerado por MaSuRCA gerou uma seqüência genômica mais robusta em comparação com os genomas gerados por SOAPdenovo2 e CLC bio (Arquivo adicional 2: Tabela S2). Os processos de correcção de erros e superleitura de MaSuRCA reduziram as leituras em bruto para 2.145.090 superleituras que foram aplicadas para calcular a sobreposição de pares entre estas leituras. A partir destas superleituras, o gasoduto MaSuRCA gerou 49.027 contigs (N50 contig tamanho 20,9 kbp) e 46.105 andaimes (N50 tamanho 23,6 kbp) com um comprimento mínimo de 1000 bp (Arquivo adicional 2: Tabela S2). Portanto, os andaimes resultantes do MaSuRCA foram utilizados para análises posteriores.

Usando o gasoduto CEGMA , 233 genes codificadores de proteínas (94%) de um conjunto de genes eucarióticos altamente conservados (248) foram reconhecidos dentro do genoma MaSuRCA montado, dos quais 215 genes (86%) foram completamente (>70% do seu comprimento) cobertos (Arquivo adicional 3: Tabela S3). Para avaliar a precisão do conjunto de novo, um conjunto de transcrições gerado de novo, proveniente da mesma linhagem L. menor, foi alinhado aos andaimes. Utilizando o software BLAT, verificou-se que ~97% das transcrições limpas foram alinhadas a pelo menos um andaime, com ≥95 % de cobertura e ≥90 % de identidade de sequência (Ficheiro Adicional 4: Tabela S4). A sequência final montada abrangeu 472.128.703 bases incorporadas em 46.047 andaimes, com um comprimento N50 de 23.801 bases quando são excluídos andaimes de 1000 bp ou menos. Este comprimento é semelhante ao tamanho previsto do genoma utilizando a Kmergenie que estimou o tamanho de montagem para 475 Mbp com base na estatística k-mer, ou para 481 Mbp utilizando a citometria de fluxo (Fig. 1b). Portanto, como uma proporção do conteúdo de DNA nuclear, a seqüência do genoma L. menor foi quase totalmente (98,15%) coberta pelos andaimes montados. Andaimes com um comprimento de sequência de 2 kbp ou mais cobriram cerca de 96 % do tamanho da sequência de montagem do novo genoma, dos quais 17 andaimes tinham um comprimento mínimo de sequência de 0,5 Mbp (ficheiro adicional 5: Figura S1). Usando os dados disponíveis do DNA cloroplástico de L. menor, o genoma cloroplástico completo do clone L. menor 5500 foi obtido aqui alinhando as leituras do NGS usando o BWA com o genoma cloroplástico de Genbank L. menor como referência (NC_010109.1) . Este genoma cloroplástico era de 165.9 Mbp e continha 48 variantes relacionadas a 117 bp (0.07 %) comparado com a seqüência de referência do Genbank que é originalmente de um clone/ecótipo diferente (Arquivo adicional 6: Tabela S5).

Fig. 2
figurar2

Um diagrama venn mostrando clusters de famílias de genes ortológicos e parálogos em L. minor, S. polyrhiza, Z. mays e O. sativa como identificados por OrthoMCL. O número de famílias de genes é listado em cada um dos componentes; o número de genes dentro das famílias para todas as espécies dentro do componente é anotado entre parênteses

Neste estudo, uma abordagem de shotgun genoma inteiro foi usada para seqüenciar L. genoma menor usando de novo conjunto de bibliotecas lidas exclusivamente em ponta de olho, o que resultou em um valor moderado de N50. A falta de bibliotecas de pares de andaimes faz uma diferença significativa no tamanho dos andaimes e portanto também no valor de N50. As bibliotecas de leitura de ponta de pêra simplesmente não podem abranger muitas das sequências repetitivas de um genoma, especialmente em genomas vegetais, que são conhecidos por terem uma grande quantidade de sequências repetitivas. O envolvimento de um conjunto de bibliotecas de pares de pares de mate produziria andaimes mais longos, tornando os valores N50 10-100 vezes superiores . Nosso conjunto genômico contém um valor de andaime N50 de mais de 20 kbp, que é comparável ao valor de andaime N50 dos conjuntos genômicos de Cannabis sativa e Phoenix dactylifera . Além disso, os valores N50 gerados de outras montagens de genoma de plantas sequenciadas em que não estão incluídas bibliotecas de pares de pares de mate (valor N50 do andaime) estão também em linha com o valor N50 aqui obtido do andaime. Isto sugere que a montagem menor de L. produzida cobre a maioria das seqüências não-repetentes. Novas bibliotecas de sequenciamento juntamente com informação cartográfica como mapas físicos, mapas ópticos, ou mapas citogenéticos podem ser necessários para melhorar a qualidade da sequência genómica a fim de analisar a genómica comparativa, duplicações de genoma inteiro, ou a evolução do genoma em espécies de lentilha de pato. Entretanto, a montagem atual nos permite caracterizar os elementos básicos (por exemplo, repetição e conteúdo gênico) do genoma de L. menor.

Seqüências repetitivas compreendem 62% da montagem do genoma de L. menor

Comparações baseadas na homologia revelaram que 62% da montagem do genoma de L. menor consistia de seqüências repetitivas (Tabela 1). As repetições foram categorizadas em retrotransposições (31,20 %), transposições de DNA (5,08 %), repetições tandem (3,91 %) e outras repetições não classificadas (21,27 %). Os retranspostões de repetição terminal longa (LTR) são a classe predominante de elementos transponíveis (29,57 %), o que é consistente com outros genomas vegetais.

Tabela 1 De novo identificação de repetições de sequência no genoma de L. minor

As famílias de transposões mais abundantes foram a cigana e a cópia, contribuindo para 10,59 e 18,79 % do genoma, respectivamente. Para os elementos transponíveis de DNA, verificou-se que os elementos DNA_hAT-Ac eram mais abundantes, abrangendo quase 2,7 % do genoma nuclear. A elevada proporção de sequências repetitivas poderia explicar a distribuição dispersa das assinaturas heterocromatinas do clone L. menor 8623 (377 Mbp, ). Dado que a plasticidade do tamanho do genoma em diferentes clones de L. menores (variando de 323 a 760 Mbp) poderia resultar de diferentes amplificações repetitivas e/ou duplicações recentes do genoma inteiro, é interessante estudar o conteúdo repetitivo e o cariótipo de diferentes clones geográficos de L. menores. Em comparação com o genoma de S. polyrhiza que é a lentilha-de-água mais antiga, a amplificação repetida em L. minor poderia explicar 94,5% da diferença do tamanho do genoma entre dois genomas de referência de lentilha-de-água. Surpreendentemente, o LTR copia é mais abundante do que o LTR gypsy no genoma de L. minor. A razão cigana/cópia em L. minor é de 0,56, enquanto que a razão correspondente em S. polyrhiza é de 3,5 . Embora nosso método de identificação de repetição seja dependente da montagem, implicando que o conteúdo de repetição poderia ser subestimado e a alta proporção de repetição não classificada (34,37% de conteúdo de repetição, Tabela 1), o conteúdo de repetição em L. minor sugere que a amplificação de retrotransposições LTR desempenhou um papel importante na evolução do genoma das lentilha-de-água. Uma caracterização repetida mais detalhada em projetos de seqüenciamento de genomas de lentilha-de-água publicados ou em andamento poderia lançar mais luz sobre esta interessante história.

L. minor 5500 contém um número similar de genes codificadores de proteínas como S. polyrhiza 7498

Scaffolds de 2 kbp ou mais foram selecionados para a predição de genes, já que os preditores de genes requerem uma certa quantidade de seqüência a montante e a jusante de um gene para funcionar com precisão. Portanto, andaimes menores que 2 kbp foram pulados a fim de reduzir os erros falsos positivos e modelos genéticos fragmentados na predição gênica. A ferramenta CEGMA foi utilizada para avaliar a exaustividade desta selecção de sequências de andaimes. Verificou-se que ainda 213 genes completos estavam completamente alinhados, o que significa que o número final da anotação do gene representa pelo menos 85% do verdadeiro número de genes (arquivo adicional 3: Tabela S3). Modelos de genes de sequências de genomas L. menores mascaradas foram previstos e anotados com o canal de predição de genes ab initio e homologia MAKER-P (Arquivo adicional 7: Tabela S6). Para obter um conjunto abrangente de modelos de genes de L. menor, o RNA foi isolado e sequenciado a partir de plantas de L. menor cultivadas em condições saudáveis de crescimento e de plantas de L. menor expostas a várias condições de estresse (incluindo urânio, radiação gama e tratamento Sr-90). Usando a plataforma Illumina HiSeq, foram obtidas aproximadamente 592.326.402 leituras sequenciais limpas após o adaptador e leituras de baixa qualidade (arquivo adicional 8: Tabela S7). 530.159 transcrições foram produzidas com Trinity de novo assembler, incluindo diferentes isoformas por transcrição . Estes dados transcriptômicos de L. minor, juntamente com todas as transcrições disponíveis das espécies de lentilha-de-água Landoltia punctata, Lemna gibba e S. polyrhiza e suplementados com nove proteomas de plantas monocotyledon, serviram como evidência para as ferramentas de predição genética SNAP e Augustus dentro do pipeline Maker-P. No total, 22.382 genes codificadores de proteínas foram anotados, dos quais 18.744 genes (84%) continham um escore AED (Annotation Edit Distance) abaixo de 0,25, que pode ser considerado altamente preciso (Fig. 1d). Embora o número de genes seja menor do que o número encontrado em outras plantas de monocotiledôneas sequenciadas, ele foi muito semelhante ao da S. polyrhiza, uma planta estreitamente relacionada. Isto suporta a hipótese de que a pequena e estruturalmente simples anatomia das espécies de lentilha-de-água permitiu a perda de um número de genes. Em média, os modelos de genes consistiram de 1934 bp e meios de 4,8 exons por gene (Tabela 2; arquivo adicional 9: Figura S2). A distribuição do comprimento do exon foi consistente com outras espécies, embora o comprimento do intron L. menor tendesse a ser menor do que o de outras espécies utilizadas na comparação (Quadro 2). Para avaliar a precisão da anotação obtida, o conjunto completo das proteínas L. minor do Centro Nacional de Informação Biotecnológica (NCBI) foi jateado para as proteínas L. minor. Verificou-se que 60 das 61 entradas do NCBI (descarregadas de 11-09-2015) podiam ser alinhadas com pelo menos uma das proteínas de L. minor (BLASTP , e-valor de 1e-10) (Ficheiro adicional 10: Quadro S8).

Quadro 2 Visão geral das características genéticas de L. minor e três outras monocotledôneas

Desde que o genoma L. minor foi sequenciado usando uma abordagem WGS sem o uso de bibliotecas de pares de pares de pares de pares ou a construção de um mapa físico, não se exclui que alguns alelos possam ter sido anotados como genes individuais. A heterozigosidade é nomeadamente mais prevalente em indivíduos assexuais do que em espécies sexuais através da acumulação de mutações em linhagens clonais. Um estudo de Cole e Voskuil revelou que isto também foi verdade para uma população de L. minor . No entanto, ao utilizar o gasoduto MaSuRCA em vez da abordagem de montagem baseada em gráficos de Bruijn, ele supera as sequências de repetição, erros, regiões de baixa cobertura e pequenas diferenças estruturais causadas pela heterozigosidade, devido à sua abordagem de sobreposição de camadas de consenso . Para avaliar a precisão da anotação de novo, examinamos a proporção de transcrições criadas de novo representadas no transcriptoma anotado. Um total de 179.736 diferentes transcrições de RNA foram feitas pelo Transdecoder, das quais 179.734 puderam ser mapeadas para as transcrições anotadas (BLASTN , e-valor de 1e-30).

Lemna proteome é em sua maioria (66.2 %) compartilhado com o proteoma Spirodela

Para estudar o conteúdo gênico de L. minor e lentilha em geral, nós examinamos as similaridades da seqüência entre os genes L. minor e S. polyrhiza e duas outras plantas monocotiledôneas altamente anotadas. Portanto, os 22.382 produtos gênicos de L. minor foram agrupados em grupos ortológicos e paralógicos com 107.716 produtos gênicos de S. polyrhiza, Oryza sativa e Zea mays usando OrthoMCL . Embora os três conjuntos de anotações de genes contenham números diferentes de modelos de genes refletindo o histórico de anotações diferentes, esta comparação forneceu uma indicação da completude geral da nossa montagem. Em resumo, 8202 grupos ortológicos foram conservados nas quatro espécies contendo 39% dos genes submetidos (Fig. 2a). Além de 3546 genes de L. minor singleton (não agrupados pela OrthoMCL, 15,8 % do total de L. minor), um total de 795 grupos parálogos representando 2897 genes (12,9 %) foram exclusivos de L. minor (arquivo adicional 11: Tabela S9). Estes 6443 genes de dois grupos são ainda referidos neste estudo como genes específicos de Lemna. Espera-se que as espécies mais relacionadas tenham um maior número de modelos de genes similares. Como resultado, 14.830 genes L. menores (66,2 %) têm ortologs em S. polyrhiza, enquanto outros 1109 genes L. menores (4,9 %) têm ortologs em O. sativa, Z. mays, ou ambos mas não em S. polyrhiza (Fig. 2b). Além disso, foi descoberto que 1821 genes (8.13 %) de L. minor compartilharam uma similaridade única com pelo menos um gene de S. polyrhiza, que são ainda referidos como genes específicos da lentilha-de-água.

Foi mostrado no genoma de S. polyrhiza que houve duas antigas rodadas de duplicações de genes inteiros durante a evolução (ca. 90 Mya) . Na comparação de famílias de genes entre S. polyrhiza e quatro espécies representativas de plantas (Arabidopsis, tomate, banana e arroz), um baixo número de cópias de genes em S. polyrhiza indicou perdas preferenciais de genes duplicados . Seria interessante estudar o número de genes e a relação de famílias de genes de outros genomas Lemna que estão em progresso, tais como L. gibba G3 DWC131 (450 Mbp) e Lemna menor clone 8627 (800 Mbp) . É concebível que o genoma ancestral da espécie Lemna contenha pelo menos uma duplicação recente do genoma inteiro após a divisão entre os gêneros L. minor e S. polyrhiza, seguida de diferentes graus de processos de remoção de genes duplicados, resultando em diferentes espécies Lemna com o tamanho do genoma variando de 323 a 760 Mbp . A perda mais extensa de genes pode resultar em um número total reduzido de genes, como o caso de L. minor 5500. Uma hipótese alternativa, por outro lado, poderia ser que L. minor 5500 representa o genoma dos ancestrais de Lemna que contém o conteúdo gênico similar ao genoma Spirodela. Outras espécies maiores do genoma Lemna poderiam ter evoluído de uma expansão repetida maior ou de duplicações muito recentes e independentes do genoma inteiro. Esta hipótese poderia ser testada por trabalhos futuros, que estudam a relação macro-sinteny entre o genoma S. polyrhiza 7498 (2n = 40, 158 Mbp) e o genoma L. minor 5500 (2n = 40, 481 Mbp).

Informação de anotação do gene suporta mais análises funcionais do genoma e aplicações de produção de biomassa

Para identificar as funções putativas dos modelos do gene L. minor, uma busca de similaridade de sequência foi realizada contra as sequências de proteína Swiss-Prot da Arabidopsis thaliana e O. sativa (BLASTP , e-value de 1e-5). Subsequentemente, as transcrições foram anotadas com os termos Gene Ontology (GO) e Pfam usando uma instalação local de Interproscan 5 e KEGG pathway mapping usando o KEGG Automatic Annotation Server (KAAS) . O banco de dados pfam-A fornece modelos Markov escondidos com mais de 13.672 famílias de proteínas conservadas . O projeto GO fornece uma ontologia de termos definidos representando propriedades de produtos gênicos, que cobre três domínios: componente celular, função molecular e processo biológico. O resultado do KAAS contém atribuições KO (KEGG Orthology) e caminhos KEGG gerados automaticamente. No total, 21.263 modelos de genes (95 %) receberam um link de anotação com pelo menos uma das bases de dados incluídas, das quais 18.597 (83,1 %) foram atribuídas a um ou mais domínios Pfam, 7329 (32,7 %) ao termo ontologia do KEGG e 15.512 (69,3 %) das proteínas foram anotadas com sucesso com termos da ontologia do gene. Os termos GO de L. minor apresentam similaridade geral com as anotações GO de S. polyrhiza, O. sativa e Z. mays (Fig. 3, arquivo adicional 12: Figura S3; arquivo adicional 13: Tabela S10). A análise do enriquecimento GO entre as duas espécies de lentilha-de-água revela que o proteoma L. menor contém 24 termos GO sobre-representados e 15 termos GO sub-representados com FDR <0,05 significativos (Fig. 3; Arquivo adicional 14: Tabela S11). As proteínas enriquecidas em L. minor 5500 incluem (1) enzimas envolvidas em processos catabólicos (GO:9056, 422 proteínas), atividade hidrolase (GO:16787, 2739 proteínas); (2) proteínas em resposta a vários estímulos (por exemplo estresse (GO:6950, 529 proteínas), estímulo abiótico (GO:9628, 86 proteínas), estímulo extracelular (GO:9991, 19 proteínas), estímulo endógeno (GO:9719, 55 proteínas); e (3) processos de biossíntese (por exemplo, metabolitos precursores e energia (GO:6091, 258 proteínas), processo metabólico do DNA (GO:6259, 350 proteínas), processo metabólico dos carboidratos (GO:5975, 776 proteínas). Estas proteínas poderiam contribuir para L. menor capacidade de (1) remoção de nutrientes excedentes de águas residuais, (2) adaptação a várias condições climáticas resultando na sua distribuição mundial, e (3) fornecendo valor nutricional e alta produtividade da biomassa. Curiosamente, 2381 L. genes específicos menores (36,9 %) e 326 L. genes menores duplicados em tandem (17,4 %) estão presentes nos termos sobre-representados do GO. Além disso, L. minor contém sequências que codificam 12 glutaminas sintéticas (GS) e 21 glutamatos sintéticos (GOGAT) em comparação com 7 e 11 sequências em S. polyrhiza, respectivamente (Arquivos adicionais 15, 16: Fig. S4, S5; Arquivo adicional 17: Tabela S12). Ambas as enzimas regulam a assimilação de amônio, que é uma importante via bioquímica para o uso de L. minor na remediação de águas residuais, possivelmente em combinação com a produção de energia . Portanto, esses genes amplificados, que podem divergir para produzir novas funções via neofuncionalização, podem ser candidatos potenciais para estudos funcionais adicionais, uma vez que estão disponíveis protocolos de transformação eficientes para L. minor .

Fig. 3
figurar3

Comparação dos termos mais relevantes de GO slim vegetal para três ontologias estruturadas entre L. minor (preto) e S. polyrhiza (amarelo). Termos mais específicos de GO sobre/sub-representados em L. menor são mostrados no lado direito. Os símbolos asterisco indicam que estes termos GO são significativamente enriquecidos (teste exato de Fisher, FDR <0,05) em L. menor (preto) ou S. polyrhiza (amarelo) (teste exato de Fisher, FDR <0,05). processo, organização de órgãos, desenvolvimento de desenvolvimento, TF fator transcripcional

Deixe uma resposta

O seu endereço de email não será publicado.