- De novo assembly of L. minor-Genoms mit mehr als 100-facher Illumina-Abdeckung
- Repetitive Sequenzen machen 62 % der L. minor-Genomzusammenstellung aus
- L. minor 5500 enthält eine ähnliche Anzahl von proteinkodierenden Genen wie S. polyrhiza 7498
- Das Lemna-Proteom ist größtenteils (66.2 %) mit dem Spirodela-Proteom gemeinsam
- Die Informationen zur Genannotation unterstützen weitere Funktionsanalysen des Genoms und Anwendungen zur Biomasseproduktion
De novo assembly of L. minor-Genoms mit mehr als 100-facher Illumina-Abdeckung
Das Genom des L. minor-Klons 5500 wurde mittels Durchflusszytometrie auf 481 Mbp geschätzt (Abb. 1b) und ist in 20 Chromosomenpaaren (2n = 40, Abb. 1c) verdichtet. Um die Referenzsequenz des L. minor-Genoms zu erhalten, wurde die gesamte genomische DNA isoliert, um zwei Paired-End-Bibliotheken für die Illumina-Plattform zu erstellen. Eine 2 × 100 HiSeq-Bibliothek mit hoher Abdeckung wurde mit längeren Reads aus einer 2 × 300 MiSeq-Bibliothek ergänzt. Zwischen den beiden Enden der Fragmente wurden keine Lücken eingefügt, was zu Paired-End-Reads mit einer nominalen Fragmentlänge von 200 bzw. 600 bp führte. Die HiSeq-Bibliothek bestand aus 215.721.669 Reads (43 Gbp), was etwa einer 90-fachen Genomabdeckung entspricht, während die Miseq-Bibliothek 26.270.063 (15 Gbp) Reads enthielt, was einer 30-fachen Genomabdeckung entspricht. Nach der Entfernung von Adaptoren und Reads mit unbekannten oder minderwertigen Nukleotiden wurden die verbleibenden 207.985.822 und 24.416.556 hochwertigen Reads (87-fache bzw. 29-fache Abdeckung) verwendet, um das L. minor-Genom zu assemblieren (Zusatzdatei 1: Tabelle S1). Um den bestmöglichen Sequenzentwurf zu erhalten, wurden drei verschiedene Assemblierungsprogramme für die De-novo-Assemblierung evaluiert, nämlich SOAPdenovo2 und CLC bio, die beide einen auf dem de Bruijn-Graphen basierenden Algorithmus verwenden, sowie MaSuRCA, das einen auf Überlappung basierenden Assemblierungsalgorithmus für die sogenannten Super-Reads verwendet. Solche Super-Reads sind eindeutig verlängerte kurze Reads aus Paired-End-Reads mit hoher Abdeckung, um die Daten erheblich zu komprimieren. Anschließend wurden die erhaltenen Assemblies mit SSPACE zum Scaffolding und Gapcloser zum Schließen der Lücken in einem letzten Schritt weiterverarbeitet. Im Hinblick auf die Anzahl der Contigs/Scaffolds, die entsprechenden N50-Werte und die Mismatch-Fehlerhäufigkeit wurde festgestellt, dass der mit MaSuRCA erzeugte Genomentwurf im Vergleich zu den mit SOAPdenovo2 und CLC bio erzeugten Genomen eine robustere Genomsequenz erzeugte (Zusatzdatei 2: Tabelle S2). Die Fehlerkorrektur- und Super-Reads-Prozesse von MaSuRCA reduzierten die rohen Paired-End-Reads auf 2.145.090 Super-Reads, die zur Berechnung der paarweisen Überlappung zwischen diesen Reads verwendet wurden. Aus diesen Super-Reads generierte die MaSuRCA-Pipeline 49.027 Contigs (N50 Contig-Größe 20,9 kbp) und 46.105 Scaffolds (N50 Scaffold-Größe 23,6 kbp) mit einer Mindestlänge von 1000 bp (Zusatzdatei 2: Tabelle S2). Daher wurden die aus MaSuRCA resultierenden Scaffolds für weitere nachgeschaltete Analysen verwendet.
Mit Hilfe der CEGMA-Pipeline wurden 233 proteinkodierende Gene (94 %) aus einem Satz hochkonservierter eukaryotischer Gene (248) innerhalb des mit MaSuRCA assemblierten Genoms erkannt, von denen 215 Gene (86 %) vollständig (>70 % ihrer Länge) abgedeckt waren (Zusätzliche Datei 3: Tabelle S3). Um die Genauigkeit der de-novo-Assemblierung zu bewerten, wurde ein de-novo generierter Satz von Transkripten aus demselben L. minor-Stamm an den Gerüsten ausgerichtet. Mit Hilfe der BLAT-Software wurde festgestellt, dass ~97 % der gereinigten Transkripte an mindestens einem Gerüst ausgerichtet waren, mit einer Abdeckung von ≥95 % und einer Sequenzidentität von ≥90 % (Zusatzdatei 4: Tabelle S4). Die endgültige assemblierte Sequenz umfasste 472.128.703 Basen, eingebettet in 46.047 Gerüste, mit einer N50-Länge von 23.801 Basen, wenn Gerüste von 1000 bp oder weniger ausgeschlossen werden. Diese Länge entspricht in etwa der mit Kmergenie vorhergesagten Genomgröße, die auf der Grundlage von k-mer-Statistiken auf 475 Mbp geschätzt wurde, bzw. auf 481 Mbp bei Verwendung der Durchflusszytometrie (Abb. 1b). Daher wurde die Genomsequenz von L. minor im Verhältnis zum Kern-DNA-Gehalt fast vollständig (98,15 %) von den assemblierten Gerüsten abgedeckt. Gerüste mit einer Sequenzlänge von 2 kbp oder mehr deckten etwa 96 % der Größe der De-novo-Genomassemblesequenz ab, wobei 17 Gerüste eine Mindestsequenzlänge von 0,5 Mbp aufwiesen (Additional file 5: Abbildung S1). Unter Verwendung der verfügbaren L. minor Chloroplasten-DNA-Daten wurde hier das vollständige Chloroplasten-Genom von L. minor Klon 5500 durch Alignment von NGS-Reads mit BWA mit dem Genbank L. minor Chloroplasten-Genom als Referenz (NC_010109.1) erhalten. Dieses Chloroplastengenom war 165,9 Mbp groß und enthielt 48 Varianten, die sich auf 117 bp (0,07 %) im Vergleich zur Genbank-Referenzsequenz bezogen, die ursprünglich von einem anderen Klon/Ökotyp stammt (Additional file 6: Table S5).
In dieser Studie wurde ein Whole-Genome-Shotgun-Ansatz zur Sequenzierung des Genoms von L. minor verwendet, bei dem eine De-novo-Assemblierung von ausschließlich Paired-End-Read-Bibliotheken erfolgte, was zu einem moderaten N50-Wert führte. Das Fehlen von Mate-Pair-Bibliotheken hat einen erheblichen Einfluss auf die Größe der Gerüste und damit auch auf den N50-Wert. Bibliotheken mit Paired-End-Reads können viele der repetitiven Sequenzen in einem Genom einfach nicht abdecken, insbesondere bei Pflanzengenomen, die bekanntermaßen eine große Menge an repetitiven Sequenzen aufweisen. Die Einbeziehung einer Reihe von paarweisen Bibliotheken würde zu längeren Gerüsten führen, wodurch die N50-Werte 10-100 Mal höher wären. Unser Genomassemble enthält einen N50-Wert von mehr als 20 kbp, der mit dem N50-Wert der Genomassemblies von Cannabis sativa und Phoenix dactylifera vergleichbar ist. Auch die N50-Werte anderer sequenzierter Pflanzengenome, bei denen keine Paarungsbibliotheken enthalten sind (Scaffold-N50-Wert), entsprechen dem hier erhaltenen Scaffold-N50-Wert. Dies deutet darauf hin, dass die erstellte L. minor-Zusammenstellung den größten Teil der nicht wiederholten Sequenzen abdeckt. Neue Sequenzierbibliotheken zusammen mit Kartierungsinformationen wie physikalischen Karten, optischen Karten oder zytogenetischen Karten könnten erforderlich sein, um die Qualität der Genomsequenz zu verbessern, damit vergleichende Genomforschung, Ganzgenomverdopplungen oder die Genomevolution bei Wasserlinsenarten analysiert werden können. Die derzeitige Zusammenstellung ermöglicht es uns jedoch, die grundlegenden Elemente (z. B. Wiederholungen und Gengehalt) des L. minor-Genoms zu charakterisieren.
Repetitive Sequenzen machen 62 % der L. minor-Genomzusammenstellung aus
Homologie-basierte Vergleiche ergaben, dass 62 % der L. minor-Genomzusammenstellung aus repetitiven Sequenzen bestehen (Tabelle 1). Die Wiederholungen wurden in Retrotransposons (31,20 %), DNA-Transposons (5,08 %), Tandem-Repeats (3,91 %) und andere nicht klassifizierte Wiederholungen (21,27 %) eingeteilt. Lange terminale Repeats (LTR) sind die vorherrschende Klasse der transponierbaren Elemente (29,57 %), was mit anderen Pflanzengenomen übereinstimmt.
Die am häufigsten vorkommenden Transposon-Familien waren Gypsy und Copia, die 10,59 bzw. 18,79 % des Genoms ausmachen. Bei den transponierbaren DNA-Elementen wurde festgestellt, dass DNA_hAT-Ac-Elemente am häufigsten vorkommen und fast 2,7 % des Kerngenoms ausmachen. Der hohe Anteil an repetitiven Sequenzen könnte die verstreute Verteilung der Heterochromatin-Signaturen des L. minor-Klons 8623 (377 Mbp, ) erklären. In Anbetracht der Tatsache, dass die Plastizität der Genomgröße in verschiedenen L. minor-Klonen (zwischen 323 und 760 Mbp) auf unterschiedliche repetitive Amplifikationen und/oder kürzliche Verdopplungen des gesamten Genoms zurückzuführen sein könnte, ist es interessant, den Wiederholungsgehalt und den Karyotyp verschiedener geografischer L. minor-Klone zu untersuchen. Im Vergleich zum Genom von S. polyrhiza, der ältesten Wasserlinse, konnte die Wiederholungsamplifikation bei L. minor 94,5 % des Größenunterschieds zwischen zwei Wasserlinsen-Referenzgenomen erklären. Überraschenderweise ist die LTR-Copia im L. minor-Genom häufiger als die LTR-Gypsy. Das Verhältnis Gypsy/Kopia in L. minor beträgt 0,56, während das entsprechende Verhältnis in S. polyrhiza 3,5 beträgt. Obwohl unsere Methode zur Identifizierung von Wiederholungen von der Zusammensetzung abhängt, was bedeutet, dass der Wiederholungsgehalt unterschätzt werden könnte, und der Anteil der nicht klassifizierten Wiederholungen hoch ist (34,37 % Wiederholungsgehalt, Tabelle 1), deutet der Wiederholungsgehalt in L. minor darauf hin, dass die Amplifikation von LTR-Retrotransposons eine wichtige Rolle bei der Evolution des Wasserlinsengenoms gespielt hat. Eine detailliertere Charakterisierung der Wiederholungen in veröffentlichten oder laufenden Projekten zur Sequenzierung von Wasserlinsengenomen könnte mehr Licht in diese interessante Geschichte bringen.
L. minor 5500 enthält eine ähnliche Anzahl von proteinkodierenden Genen wie S. polyrhiza 7498
Für die Genvorhersage wurden Gerüste mit einer Länge von 2 kbp oder mehr ausgewählt, da Genvorhersager eine bestimmte Menge an Sequenz stromaufwärts und stromabwärts eines Gens benötigen, um genau zu arbeiten. Daher wurden Gerüste, die kleiner als 2 kbp sind, übersprungen, um falsch positive Fehler und fragmentierte Genmodelle bei der Genvorhersage zu reduzieren. Das CEGMA-Tool wurde eingesetzt, um die Vollständigkeit dieser Auswahl von Gerüstsequenzen zu bewerten. Es zeigte sich, dass immer noch 213 Gene in voller Länge vollständig ausgerichtet waren, was bedeutet, dass die endgültige Anzahl der Genannotation mindestens 85 % der tatsächlichen Anzahl der Gene entspricht (Zusatzdatei 3: Tabelle S3). Genmodelle aus maskierten L. minor-Genomsequenzen wurden mit der ab initio- und homologiebasierten Genvorhersage-Pipeline MAKER-P vorhergesagt und annotiert (Zusätzliche Datei 7: Tabelle S6). Um einen umfassenden Satz von L. minor-Genmodellen zu erhalten, wurde RNA aus L. minor-Pflanzen isoliert und sequenziert, die unter gesunden Wachstumsbedingungen kultiviert wurden, sowie aus L. minor-Pflanzen, die verschiedenen Stressbedingungen ausgesetzt waren (einschließlich Uran-, Gamma-Strahlung und Sr-90-Behandlung). Mit der Illumina HiSeq-Plattform wurden nach dem Trimmen von Adaptern und Reads geringer Qualität ca. 592.326.402 saubere Sequenzierungs-Reads erhalten (Additional file 8: Tabelle S7). 530.159 Transkripte wurden mit dem Trinity de novo Assembler erstellt, einschließlich verschiedener Isoformen pro Transkript. Diese transkriptomischen Daten von L. minor dienten zusammen mit allen verfügbaren Transkripten der Wasserlinsenarten Landoltia punctata, Lemna gibba und S. polyrhiza und ergänzt durch neun Proteome von einkeimblättrigen Pflanzen als Beweis für die Genvorhersage-Tools SNAP und Augustus inside Maker-P pipeline. Insgesamt wurden 22.382 proteinkodierende Gene annotiert, von denen 18.744 Gene (84 %) einen AED-Score (Annotation Edit Distance) unter 0,25 aufwiesen, was als sehr genau angesehen werden kann (Abb. 1d). Obwohl die Anzahl der Gene geringer ist als bei anderen sequenzierten einkeimblättrigen Pflanzen, war sie derjenigen der eng verwandten S. polyrhiza sehr ähnlich. Dies unterstützt die Hypothese, dass die kleine und strukturell einfache Anatomie der Wasserlinsenarten den Verlust einer Reihe von Genen ermöglichte. Im Durchschnitt bestanden die Genmodelle aus 1934 bp und im Mittel aus 4,8 Exons pro Gen (Tabelle 2; Additional file 9: Abbildung S2). Die Verteilung der Exonlänge stimmte mit der anderer Arten überein, obwohl die Intronlänge von L. minor tendenziell kürzer war als die anderer Arten, die für den Vergleich herangezogen wurden (Tabelle 2). Um die Genauigkeit der erhaltenen Annotation zu bewerten, wurde der vollständige Satz der L. minor-Proteine aus dem National Center of Biotechnology Information (NCBI) mit den L. minor-Proteinen abgeglichen. Es stellte sich heraus, dass 60 der 61 NCBI-Zugänge (heruntergeladen am 11.09.2015) an mindestens eines der L. minor-Proteine angeglichen werden konnten (BLASTP , e-Wert von 1e-10) (Additional file 10: Table S8).
Da das Genom von L. minor mit Hilfe eines WGS-Ansatzes sequenziert wurde, ohne dass Paarungsbibliotheken oder eine physische Karte erstellt wurden, ist nicht auszuschließen, dass einige Allele als einzelne Gene annotiert wurden. Heterozygotie ist nämlich bei ungeschlechtlichen Individuen im Vergleich zu geschlechtlichen Arten aufgrund der Mutationsakkumulation in klonalen Linien stärker ausgeprägt. Eine Studie von Cole und Voskuil ergab, dass dies auch für eine Population von L. minor gilt. Bei der Verwendung der MaSuRCA-Pipeline anstelle des auf dem de Bruijn-Graphen basierenden Assemblierungsansatzes werden jedoch die durch Heterozygotie verursachten Sequenzwiederholungen, Fehler, Regionen mit geringer Abdeckung und kleine strukturelle Unterschiede aufgrund des Overlap-Layout-Konsensansatzes überwunden. Um die Genauigkeit der De-novo-Annotation zu bewerten, untersuchten wir den Anteil der De-novo-Transkripte, die im annotierten Transkriptom vertreten sind. Insgesamt wurden 179.736 verschiedene RNA-Transkripte von Transdecoder erstellt, von denen 179.734 den annotierten Transkripten zugeordnet werden konnten (BLASTN , e-Wert von 1e-30).
Das Lemna-Proteom ist größtenteils (66.2 %) mit dem Spirodela-Proteom gemeinsam
Um den Gengehalt von L. minor und Wasserlinsen im Allgemeinen zu untersuchen, untersuchten wir die Sequenzähnlichkeiten zwischen den Genen von L. minor und S. polyrhiza und zwei anderen stark annotierten monokotylen Pflanzen. Dazu wurden die 22 382 Genprodukte von L. minor mit Hilfe von OrthoMCL in orthologe und parologe Gruppen mit 107 716 Genprodukten von S. polyrhiza, Oryza sativa und Zea mays geclustert. Obwohl die drei Sätze von Genannotationen eine unterschiedliche Anzahl von Genmodellen enthalten, was die unterschiedliche Annotationsgeschichte widerspiegelt, liefert dieser Vergleich einen Hinweis auf die Gesamtvollständigkeit unserer Zusammenstellung. Insgesamt waren 8202 orthologe Gruppen in allen vier Arten konserviert, was 39 % der eingereichten Gene entspricht (Abb. 2a). Zusätzlich zu 3546 L. minor-Einzelgenen (nicht durch OrthoMCL gruppiert, 15,8 % der gesamten L. minor-Gene) waren insgesamt 795 paraloge Gruppen, die 2897 Gene (12,9 %) repräsentierten, einzigartig für L. minor (Additional file 11: Tabelle S9). Diese 6443 Gene aus zwei Gruppen werden in dieser Studie weiterhin als Lemna-spezifische Gene bezeichnet. Es ist zu erwarten, dass die näher verwandten Arten eine höhere Anzahl ähnlicher Genmodelle aufweisen. Demzufolge haben 14 830 L. minor-Gene (66,2 %) Orthologe in S. polyrhiza, während andere 1109 L. minor-Gene (4,9 %) Orthologe entweder in O. sativa, Z. mays oder in beiden, aber nicht in S. polyrhiza haben (Abb. 2b). Darüber hinaus wurde festgestellt, dass 1821 Gene (8,13 %) von L. minor eine eindeutige Ähnlichkeit mit mindestens einem Gen von S. polyrhiza aufweisen, die im Folgenden als Entengras-spezifische Gene bezeichnet werden.
Im Genom von S. polyrhiza wurde gezeigt, dass es im Laufe der Evolution (ca. 90 Mya) zwei alte Runden von Ganzgenom-Duplikationen gegeben hat. Beim Vergleich von Genfamilien zwischen S. polyrhiza und vier repräsentativen Pflanzenarten (Arabidopsis, Tomate, Banane und Reis) deutete eine niedrige Genkopienzahl in S. polyrhiza auf bevorzugte Genverluste von duplizierten Genen hin. Es wäre interessant, die Anzahl der Gene und das Verhältnis der Genfamilien anderer Lemna-Genome zu untersuchen, die sich in der Entwicklung befinden, wie z. B. L. gibba G3 DWC131 (450 Mbp) und Lemna minor Klon 8627 (800 Mbp). Es ist denkbar, dass das Vorläufergenom der Lemna-Arten mindestens eine rezente Ganzgenom-Duplikation nach der Aufspaltung zwischen den Gattungen L. minor und S. polyrhiza enthielt, gefolgt von unterschiedlich stark ausgeprägten Genentfernungsprozessen der duplizierten Gene, die zu verschiedenen Lemna-Arten mit einer Genomgröße zwischen 323 und 760 Mbp führten. Der umfangreichste Genverlust kann zu einer reduzierten Gesamtzahl von Genen führen, wie im Fall von L. minor 5500. Eine alternative Hypothese könnte andererseits sein, dass L. minor 5500 das Vorläufergenom von Lemna darstellt, das einen ähnlichen Gengehalt wie das Spirodela-Genom aufweist. Andere Lemna-Arten mit größerem Genom könnten sich aus größeren Wiederholungsexpansionen oder sehr jungen und unabhängigen Verdopplungen des gesamten Genoms entwickelt haben. Diese Hypothese könnte in zukünftigen Arbeiten getestet werden, die die Makro-Syntenie-Beziehung zwischen dem Genom von S. polyrhiza 7498 (2n = 40, 158 Mbp) und dem Genom von L. minor 5500 (2n = 40, 481 Mbp) untersuchen.
Die Informationen zur Genannotation unterstützen weitere Funktionsanalysen des Genoms und Anwendungen zur Biomasseproduktion
Um die mutmaßlichen Funktionen der L. minor Genmodelle zu identifizieren, wurde eine Sequenzähnlichkeitssuche mit den Swiss-Prot-Proteinsequenzen von Arabidopsis thaliana und O. sativa durchgeführt (BLASTP , e-Wert von 1e-5). Anschließend wurden die Transkripte mit Hilfe einer lokalen Installation von Interproscan 5 mit Begriffen der Gene Ontology (GO) und Pfam annotiert und mit Hilfe des KEGG Automatic Annotation Server (KAAS) in KEGG-Pfade eingeordnet. Die pfam-A-Datenbank enthält versteckte Markov-Modelle von über 13.672 konservierten Proteinfamilien. Das GO-Projekt bietet eine Ontologie mit definierten Begriffen, die die Eigenschaften von Genprodukten darstellen und drei Bereiche abdecken: zelluläre Komponente, molekulare Funktion und biologischer Prozess. Das Ergebnis von KAAS enthält KO-Zuordnungen (KEGG Orthology) und automatisch generierte KEGG-Pfade. Insgesamt erhielten 21 263 Genmodelle (95 %) einen Annotationslink zu mindestens einer der einbezogenen Datenbanken, von denen 18 597 (83,1 %) einer oder mehreren Pfam-Domänen, 7329 (32,7 %) einem KEGG-Ontologie-Term zugeordnet wurden und 15 512 (69,3 %) der Proteine erfolgreich mit Gene-Ontology-Terms annotiert wurden. Die GO-Terme von L. minor weisen eine große Ähnlichkeit mit den GO-Annotationen von S. polyrhiza, O. sativa und Z. mays auf (Abb. 3, Zusatzdatei 12: Abbildung S3; Zusatzdatei 13: Tabelle S10). Die GO-Anreicherungsanalyse zwischen den beiden Wasserlinsenarten zeigt, dass das Proteom von L. minor 24 überrepräsentierte und 15 unterrepräsentierte GO-Terme mit signifikanter FDR <0,05 enthält (Abb. 3; Zusatzdatei 14: Tabelle S11). Zu den angereicherten Proteinen in L. minor 5500 gehören (1) Enzyme, die an katabolischen Prozessen beteiligt sind (GO:9056, 422 Proteine), Hydrolase-Aktivität (GO:16787, 2739 Proteine); (2) Proteine, die auf verschiedene Stimuli reagieren (z. B., Stress (GO:6950, 529 Proteine), abiotischer Stimulus (GO:9628, 86 Proteine), extrazellulärer Stimulus (GO:9991, 19 Proteine), endogener Stimulus (GO:9719, 55 Proteine); und (3) Biosynthese-Prozesse (z. B. Vorläufer-Stoffwechselprodukte und Energie (GO:6091, 258 Proteine), DNA-Stoffwechselprozess (GO:6259, 350 Proteine), Kohlenhydrat-Stoffwechselprozess (GO:5975, 776 Proteine). Diese Proteine könnten dazu beitragen, dass L. minor in der Lage ist, (1) überschüssige Nährstoffe aus dem Abwasser zu entfernen, (2) sich an verschiedene Klimabedingungen anzupassen, was zu seiner weltweiten Verbreitung führt, und (3) einen hohen Nährwert und eine hohe Biomasseproduktivität zu liefern. Interessanterweise sind 2381 L. minor-spezifische Gene (36,9 %) und 326 tandemverdoppelte L. minor-Gene (17,4 %) unter den überrepräsentierten GO-Begriffen zu finden. Darüber hinaus enthält L. minor Sequenzen, die für 12 Glutaminsynthetasen (GS) und 21 Glutamatsynthasen (GOGAT) kodieren, im Vergleich zu 7 bzw. 11 Sequenzen in S. polyrhiza (Zusätzliche Dateien 15, 16: Abb. S4, S5; Zusätzliche Datei 17: Tabelle S12). Beide Enzyme regulieren die Ammoniumassimilation, die ein wichtiger biochemischer Weg für den Einsatz von L. minor in der Abwassersanierung ist, möglicherweise in Kombination mit der Energieproduktion. Da effiziente Transformationsprotokolle für L. minor zur Verfügung stehen, könnten diese amplifizierten Gene, die durch Neofunktionalisierung zu neuen Funktionen divergieren können, potenzielle Kandidaten für weitere Funktionsstudien sein.