- De novo assembly di L. minor con maggiore 100× di copertura Illumina
- Le sequenze ripetitive comprendono il 62% dell’assemblaggio del genoma di L. minor
- L. minor 5500 contiene un numero simile di geni codificanti proteine come S. polyrhiza 7498
- Lemna proteoma è per lo più (66.2 %) condiviso con il proteoma di Spirodela
- Le informazioni di annotazione genica supportano ulteriori analisi funzionali del genoma e applicazioni di produzione di biomassa
De novo assembly di L. minor con maggiore 100× di copertura Illumina
Il genoma di L. minor clone 5500 è stato stimato come 481 Mbp dalla citometria a flusso (Fig. 1b) ed è compresso in 20 coppie di cromosomi (2n = 40, Fig. 1c). Al fine di ottenere la sequenza di riferimento del genoma di L. minor, il DNA genomico totale è stato isolato per creare due librerie paired-end per la piattaforma Illumina. Una libreria HiSeq ad alta copertura 2 × 100 è stata integrata con letture più lunghe da una libreria MiSeq 2 × 300. Nessuna lacuna è stata inclusa tra le due estremità dei frammenti con conseguente paired-end legge con una lunghezza nominale del frammento di 200 e 600 bp, rispettivamente. HiSeq biblioteca consisteva di 215.721.669 legge (43 Gbp) che rappresenta circa un 90 × copertura del genoma, mentre la biblioteca Miseq conteneva 26.270.063 (15 Gbp) legge equivalente ad una copertura del genoma di 30 ×. Dopo aver rimosso gli adattatori e le letture contenenti nucleotidi sconosciuti o di bassa qualità, le rimanenti 207.985.822 e 24.416.556 letture di alta qualità (copertura di 87× e 29× rispettivamente) sono state utilizzate per assemblare il genoma di L. minor (Additional file 1: Tabella S1). Per ottenere la migliore bozza di sequenza possibile, sono stati valutati tre diversi programmi di assemblaggio per l’assemblaggio de novo e cioè SOAPdenovo2 e CLC bio, entrambi utilizzando un algoritmo basato sul grafico di de Bruijn e MaSuRCA che utilizza un algoritmo di assemblaggio basato sulla sovrapposizione per le cosiddette super-letture. Tali super-reads sono brevi letture estese in modo univoco da letture paired-end ad alta copertura per comprimere significativamente i dati. Successivamente, gli assemblaggi ottenuti sono stati ulteriormente elaborati con SSPACE per l’impalcatura e Gapcloser per chiudere le lacune in una fase finale. Per quanto riguarda il numero di contigs/scaffolds, i valori N50 corrispondenti e la frequenza di errore di mismatch, è stato trovato che il genoma draft generato da MaSuRCA ha generato una sequenza di genoma più robusto rispetto ai genomi generati da SOAPdenovo2 e CLC bio (file aggiuntivo 2: Tabella S2). I processi di correzione degli errori e di super-letture di MaSuRCA hanno ridotto le letture grezze paired-end a 2.145.090 super-letture che sono state applicate per calcolare la sovrapposizione a coppie tra queste letture. Da queste super-letture, la pipeline MaSuRCA generato 49.027 contigs (N50 contig dimensioni 20,9 kbp) e 46.105 scaffold (N50 dimensioni scaffold 23,6 kbp) con una lunghezza minima di 1000 bp (Additional file 2: Tabella S2). Pertanto, gli scaffold risultanti da MaSuRCA sono stati utilizzati per ulteriori analisi a valle.
Utilizzando la pipeline CEGMA, 233 geni codificanti proteine (94%) di un insieme di geni eucariotici altamente conservati (248) sono stati riconosciuti all’interno del genoma assemblato MaSuRCA di cui 215 geni (86%) erano completamente (>70% della loro lunghezza) coperti (file aggiuntivo 3: Tabella S3). Per valutare l’accuratezza dell’assemblaggio de novo, un set generato de novo di trascrizioni provenienti dallo stesso ceppo di L. minor è stato allineato agli scaffold. Utilizzando il software BLAT, è stato trovato che ~ 97% dei trascritti puliti allineati ad almeno uno scaffold, con copertura ≥95% e identità di sequenza ≥90% (file aggiuntivo 4: Tabella S4). La sequenza finale assemblata abbracciava 472.128.703 basi incorporate in 46.047 scaffold, con una lunghezza N50 di 23.801 basi quando gli scaffold di 1000 bp o più piccoli sono esclusi. Questa lunghezza è simile alla dimensione del genoma previsto utilizzando Kmergenie che ha stimato la dimensione dell’assemblea a 475 Mbp basato su statistiche k-mer, o a 481 Mbp utilizzando citometria a flusso (Fig. 1b). Pertanto, come proporzione del contenuto del DNA nucleare, la sequenza del genoma di L. minor era quasi completamente (98,15 %) coperta dalle impalcature assemblate. Scaffold con una lunghezza di sequenza di 2 kbp o più coperto circa il 96% in dimensioni della sequenza di assemblaggio genoma de novo di cui 17 scaffold aveva una lunghezza minima di sequenza di 0,5 Mbp (file aggiuntivo 5: Figura S1). Utilizzando i dati disponibili del DNA cloroplastico di L. minor, il genoma cloroplastico completo di L. minor clone 5500 è stato ottenuto qui allineando le letture NGS utilizzando BWA con il genoma cloroplastico di L. minor di Genbank come riferimento (NC_010109.1) . Questo genoma del cloroplasto era 165,9 Mbp e conteneva 48 varianti relative a 117 bp (0,07%) rispetto alla sequenza di riferimento Genbank che è originaria di un clone/ecotipo diverso (file aggiuntivo 6: Tabella S5).
In questo studio, un approccio shotgun whole-genome è stato utilizzato per sequenziare il genoma di L. minor utilizzando de novo assembly di librerie di lettura esclusivamente paired-end che ha portato a un valore N50 moderato. La mancanza di librerie mate-pair fa una differenza significativa nella dimensione degli scaffold e quindi anche al valore N50. Le librerie di letture appaiate semplicemente non possono coprire molte delle sequenze ripetitive in un genoma, specialmente nei genomi delle piante, che sono noti per avere un’elevata quantità di sequenze ripetitive. Il coinvolgimento di un insieme di librerie mate-pair produrrebbe scaffold più lunghi rendendo i valori N50 10-100 volte più alti. Il nostro assemblaggio del genoma contiene un valore di scaffold N50 di oltre 20 kbp, che è paragonabile al valore di scaffold N50 degli assemblaggi del genoma di Cannabis sativa e Phoenix dactylifera. Inoltre, i valori N50 generati di altri assemblaggi di genomi di piante sequenziati in cui non sono incluse librerie di mate-pair (valore N50 dello scaffold) sono anche in linea con il valore N50 dello scaffold qui ottenuto. Questo suggerisce che l’assemblaggio prodotto L. minor copre la maggior parte delle sequenze non ripetute. Nuove librerie di sequenziamento insieme a informazioni di mappatura come mappe fisiche, mappe ottiche o mappe citogenetiche possono essere necessarie per migliorare la qualità della sequenza del genoma al fine di analizzare la genomica comparativa, duplicazioni di interi genomi o l’evoluzione del genoma nelle specie di anatre. Tuttavia, l’assemblaggio attuale ci permette di caratterizzare gli elementi di base (ad esempio, il contenuto di ripetizioni e geni) del genoma di L. minor.
Le sequenze ripetitive comprendono il 62% dell’assemblaggio del genoma di L. minor
I confronti basati sull’omologia hanno rivelato che il 62% dell’assemblaggio del genoma di L. minor consiste di sequenze ripetitive (Tabella 1). Le ripetizioni sono state classificate in retrotrasposoni (31,20%), trasposoni del DNA (5,08%), ripetizioni tandem (3,91%) e altre ripetizioni non classificate (21,27%). I retrotrasposoni a ripetizione terminale lunga (LTR) sono la classe predominante di elementi trasponibili (29,57%), che è coerente con altri genomi di piante.
Le famiglie di trasposoni più abbondanti erano gypsy e copia, contribuendo al 10,59 e 18,79% del genoma, rispettivamente. Per gli elementi trasponibili del DNA, è stato trovato che gli elementi DNA_hAT-Ac erano i più abbondanti e coprivano quasi il 2,7% del genoma nucleare. L’alta proporzione di sequenze ripetitive potrebbe spiegare la distribuzione dispersa delle firme di eterocromatina del clone L. minor 8623 (377 Mbp, ). Dato che la plasticità delle dimensioni del genoma in diversi cloni di L. minor (che vanno da 323 a 760 Mbp) potrebbe derivare da diverse amplificazioni ripetitive e/o duplicazioni recenti dell’intero genoma, è interessante studiare il contenuto di ripetizioni e il cariotipo di diversi cloni geografici di L. minor. Rispetto al genoma di S. polyrhiza che è l’anatroccolo più antico, l’amplificazione ripetitiva in L. minor potrebbe spiegare il 94,5% della differenza di dimensioni del genoma tra due genomi di riferimento dell’anatroccolo. Sorprendentemente, la LTR copia è più abbondante della LTR gypsy nel genoma di L. minor. Il rapporto gypsy/copia in L. minor è 0,56, mentre il rapporto corrispondente in S. polyrhiza è 3,5 . Anche se il nostro metodo di identificazione ripetizione è assemblaggio dipendente, implicando il contenuto di ripetizione potrebbe essere sottostimato e alta proporzione di ripetizione non classificati (34,37% contenuto di ripetizione, Tabella 1), contenuto di ripetizione in L. minore suggerisce che l’amplificazione di retrotrasposoni LTR giocato un ruolo importante nell’evoluzione genoma duckweed. Una caratterizzazione più dettagliata delle ripetizioni nei progetti di sequenziamento dei genomi di anatroccoli pubblicati o in corso potrebbe fare più luce su questa interessante storia.
L. minor 5500 contiene un numero simile di geni codificanti proteine come S. polyrhiza 7498
Scaffolds di 2 kbp o più lunghi sono stati selezionati per la predizione dei geni, poiché i predittori di geni richiedono una certa quantità di sequenza a monte e a valle di un gene per lavorare con precisione. Pertanto, gli scaffold più piccoli di 2 kbp sono stati saltati per ridurre gli errori falsi positivi e i modelli genici frammentati nella predizione genica. Lo strumento CEGMA è stato utilizzato per valutare la completezza di questa selezione di sequenze di scaffold. È stato riscontrato che ancora 213 geni a lunghezza intera erano completamente allineati, il che significa che il numero finale dell’annotazione del gene rappresenta almeno l’85% del vero numero di geni (file aggiuntivo 3: tabella S3). I modelli genici dalle sequenze mascherate del genoma di L. minor sono stati predetti e annotati con la pipeline di predizione genica ab initio e basata sull’omologia MAKER-P (file aggiuntivo 7: tabella S6). Per ottenere un set completo di L. modelli genici minori, RNA è stato isolato e sequenziato da L. piante minori coltivate in condizioni di crescita sana e da L. piante minori esposti a varie condizioni di stress (tra cui uranio, radiazioni gamma e Sr-90 trattamento). Utilizzando la piattaforma Illumina HiSeq, circa, 592.326.402 pulito sequenziamento legge sono stati ottenuti dopo adattatore e bassa qualità legge trimming (Additional file 8: Tabella S7). 530.159 trascrizioni sono state prodotte con Trinity de novo assembler, comprese diverse isoforme per trascrizione. Questi dati transcriptomic di L. minor, insieme a tutti i trascritti disponibili dalle specie di anatroccolo Landoltia punctata, Lemna gibba e S. polyrhiza e integrati con nove proteomi da piante monocotiledoni, sono serviti come prova per gli strumenti di predizione del gene SNAP e Augustus all’interno della pipeline Maker-P. In totale, sono stati annotati 22.382 geni codificanti proteine di cui 18.744 geni (84%) contenevano un punteggio AED (Annotation Edit Distance) inferiore a 0,25 che può essere considerato altamente accurato (Fig. 1d). Anche se il numero di geni è inferiore a quello trovato in altre piante monocotiledoni sequenziate, era molto simile a quello della S. polyrhiza strettamente correlata. Questo supporta l’ipotesi che l’anatomia piccola e strutturalmente semplice delle specie di anatroccolo ha permesso di perdere un certo numero di geni. In media, i modelli genici consistevano di 1934 bp e media di 4,8 esoni per gene (Tabella 2; File aggiuntivo 9: Figura S2). La distribuzione della lunghezza degli esoni era coerente con altre specie, anche se la lunghezza degli introni di L. minor tendeva ad essere più corta di quella di altre specie utilizzate nel confronto (Tabella 2). Per valutare l’accuratezza dell’annotazione ottenuta, il set completo delle proteine di L. minor dal National Center of Biotechnology Information (NCBI) è stato abbinato alle proteine di L. minor. È risultato che 60 delle 61 accessioni NCBI (scaricate 11-09-2015) potrebbero essere allineate ad almeno una delle proteine di L. minor (BLASTP , e-value di 1e-10) (Additional file 10: Table S8).
Siccome il genoma di L. minor è stato sequenziato con un approccio WGS senza l’uso di librerie mate-pair o la costruzione di una mappa fisica, non è escluso che alcuni alleli possano essere stati annotati come geni individuali. L’eterozigosi è cioè più prevalente negli individui asessuati rispetto alle specie sessuali attraverso l’accumulo di mutazioni nei lignaggi clonali. Uno studio di Cole e Voskuil ha rivelato che questo era vero anche per una popolazione di L. minor. Tuttavia, quando si utilizza la pipeline MaSuRCA invece dell’approccio di assemblaggio basato sul grafico de Bruijn, supera le sequenze ripetute, gli errori, le regioni a bassa copertura e le piccole differenze strutturali causate dall’eterozigosi grazie al suo approccio di sovrapposizione-layout-consenso. Per valutare l’accuratezza dell’annotazione de novo, abbiamo esaminato la proporzione di trascrizioni create de novo rappresentate nel trascrittoma annotato. Un totale di 179.736 diversi trascritti RNA sono stati fatti da Transdecoder di cui 179.734 potrebbero essere mappati ai trascritti annotati (BLASTN , e-value di 1e-30).
Lemna proteoma è per lo più (66.2 %) condiviso con il proteoma di Spirodela
Per studiare il contenuto genico di L. minor e dell’anatroccolo in generale, abbiamo esaminato le somiglianze di sequenza tra i geni di L. minor e S. polyrhiza e altre due piante monocotiledoni altamente annotate. Pertanto, i 22.382 prodotti genici di L. minor sono stati raggruppati in gruppi ortologhi e paraloghi con 107.716 prodotti genici di S. polyrhiza, Oryza sativa e Zea mays utilizzando OrthoMCL . Anche se i tre set di annotazioni geniche contengono un numero diverso di modelli genici che riflettono la diversa storia delle annotazioni, questo confronto ha fornito un’indicazione della completezza complessiva del nostro assemblaggio. In sintesi, 8202 gruppi ortologhi sono stati conservati in tutte e quattro le specie che contengono il 39% dei geni presentati (Fig. 2a). Oltre a 3546 geni di L. minor singleton (non raggruppati da OrthoMCL, 15,8% del totale dei geni di L. minor), un totale di 795 gruppi paraloghi che rappresentano 2897 geni (12,9%) erano unici per L. minor (file aggiuntivo 11: Tabella S9). Questi 6443 geni di due gruppi sono ulteriormente indicati come geni Lemna-specifici in questo studio. Le specie più strettamente correlate dovrebbero avere un numero maggiore di modelli di geni simili. Di conseguenza, 14.830 geni di L. minor (66,2 %) hanno ortologhi in S. polyrhiza, mentre altri 1109 geni di L. minor (4,9 %) hanno ortologhi in O. sativa, Z. mays, o entrambi ma non S. polyrhiza (Fig. 2b). Inoltre, è stato trovato che 1821 geni (8,13%) di L. minor condividevano una somiglianza unica con almeno un gene di S. polyrhiza, che sono ulteriormente indicati come geni specifici dell’anatroccolo.
È stato dimostrato nel genoma di S. polyrhiza che ci sono stati due antichi cicli di duplicazioni dell’intero genoma durante l’evoluzione (circa 90 Mya). Nel confronto delle famiglie di geni tra S. polyrhiza e quattro specie di piante rappresentative (Arabidopsis, pomodoro, banana e riso), un basso numero di copie di geni in S. polyrhiza ha indicato perdite geniche preferite di geni duplicati . Sarebbe interessante studiare il numero di geni e la relazione delle famiglie di geni di altri genomi di Lemna che sono in corso, come L. gibba G3 DWC131 (450 Mbp) e Lemna minor clone 8627 (800 Mbp) . È ipotizzabile che il genoma antenato delle specie Lemna contenesse almeno una recente duplicazione dell’intero genoma dopo la divisione tra i generi L. minor e S. polyrhiza seguita da diversi gradi di processi di rimozione dei geni duplicati che hanno portato a diverse specie Lemna con dimensioni del genoma che vanno da 323 a 760 Mbp. La perdita genica più estesa può risultare in un numero totale di geni ridotto, come nel caso di L. minor 5500. Un’ipotesi alternativa, d’altra parte, potrebbe essere che L. minor 5500 rappresenti il genoma dell’antenato di Lemna che contiene un contenuto genico simile al genoma di Spirodela. Altre specie di Lemna dal genoma più grande potrebbero essersi evolute da un’espansione di ripetizioni più grandi o da duplicazioni molto recenti e indipendenti dell’intero genoma. Questa ipotesi potrebbe essere testata da un lavoro futuro, che studia la relazione di macro-sintassi tra il genoma di S. polyrhiza 7498 (2n = 40, 158 Mbp) e il genoma di L. minor 5500 (2n = 40, 481 Mbp).
Le informazioni di annotazione genica supportano ulteriori analisi funzionali del genoma e applicazioni di produzione di biomassa
Per identificare le funzioni putative dei modelli genici di L. minor, è stata effettuata una ricerca di similarità di sequenza contro le sequenze proteiche Swiss-Prot di Arabidopsis thaliana e O. sativa (BLASTP , valore e- di 1e-5). Successivamente, le trascrizioni sono state annotate con i termini Gene Ontology (GO) e Pfam utilizzando un’installazione locale di Interproscan 5 e la mappatura dei percorsi KEGG utilizzando il KEGG Automatic Annotation Server (KAAS) . Il database pfam-A fornisce modelli di Markov nascosti di profilo di oltre 13.672 famiglie di proteine conservate. Il progetto GO fornisce un’ontologia di termini definiti che rappresentano le proprietà dei prodotti genici, che copre tre domini: componente cellulare, funzione molecolare e processo biologico. Il risultato di KAAS contiene assegnazioni KO (KEGG Orthology) e percorsi KEGG generati automaticamente. In totale, 21.263 modelli genici (95%) hanno ricevuto un collegamento di annotazione con almeno uno dei database inclusi, di cui 18.597 (83,1%) sono stati assegnati a uno o più domini Pfam, 7329 (32,7%) a termini dell’ontologia KEGG e 15.512 (69,3%) delle proteine sono state annotate con successo con termini della Gene Ontology. I termini GO di L. minor presentano una somiglianza generale con le annotazioni GO di S. polyrhiza, O. sativa e Z. mays (Fig. 3, Additional file 12: Figura S3; Additional file 13: Tabella S10). L’analisi di arricchimento GO tra le due specie di anatroccolo rivela che il proteoma di L. minor contiene 24 termini GO sovrarappresentati e 15 sottorappresentati con FDR significativo <0,05 (Fig. 3; Additional file 14: Tabella S11). Le proteine arricchite in L. minor 5500 includevano (1) enzimi coinvolti nei processi catabolici (GO:9056, 422 proteine), attività idrolasi (GO:16787, 2739 proteine); (2) proteine in risposta a vari stimoli (es, stress (GO:6950, 529 proteine), stimolo abiotico (GO:9628, 86 proteine), stimolo extracellulare (GO:9991, 19 proteine), stimolo endogeno (GO:9719, 55 proteine); e (3) processi di biosintesi (per esempio, metaboliti precursori ed energia (GO:6091, 258 proteine), processo metabolico del DNA (GO:6259, 350 proteine), processo metabolico dei carboidrati (GO:5975, 776 proteine). Queste proteine potrebbero contribuire alla capacità di L. minor per (1) la rimozione di nutrienti in eccesso dalle acque reflue, (2) l’adattamento a varie condizioni climatiche con conseguente loro distribuzione in tutto il mondo, e (3) fornire valore nutrizionale e alta produttività della biomassa. È interessante notare che 2381 geni specifici di L. minor (36,9%) e 326 geni tandem duplicati di L. minor (17,4%) sono presenti nei termini GO sovrarappresentati. Inoltre, L. minor contiene sequenze che codificano per 12 glutammina sintetasi (GS) e 21 glutammato sintetasi (GOGAT) in confronto a 7 e 11 sequenze in S. polyrhiza, rispettivamente (file aggiuntivi 15, 16: Fig. S4, S5; file aggiuntivo 17: Tabella S12). Entrambi gli enzimi regolano l’assimilazione dell’ammonio che è una via biochimica importante per l’uso di L. minor nel risanamento delle acque reflue, possibilmente in combinazione con la produzione di energia. Pertanto, questi geni amplificati, che possono divergere per produrre nuove funzioni attraverso la neofunzionalizzazione, potrebbero essere potenziali candidati per ulteriori studi funzionali, poiché sono disponibili protocolli di trasformazione efficienti per L. minor.