- De novo assemblage van L. minor genoom met meer dan 100× van Illumina dekking
- Repetitieve sequenties omvatten 62 % van de L. minor-genoomassemblage
- L. minor 5500 bevat een vergelijkbaar aantal eiwit-coderende genen als S. polyrhiza 7498
- Lemna proteoom is grotendeels (66.2 %) gedeeld met het Spirodela proteoom
- Genannotatie-informatie ondersteunt verdere genoom-functionele analyse en biomassaproductietoepassingen
De novo assemblage van L. minor genoom met meer dan 100× van Illumina dekking
Genoom van L. minor kloon 5500 werd geschat op 481 Mbp door flowcytometrie (Fig. 1b) en is gecompacteerd in 20 chromosomenparen (2n = 40, Fig. 1c). Om de referentiesequentie van het genoom van L. minor te verkrijgen, werd totaal genomisch DNA geïsoleerd om twee gepaarde-end bibliotheken voor het Illumina-platform te creëren. Een hoge dekking 2 × 100 HiSeq bibliotheek werd aangevuld met langere leest van een 2 × 300 MiSeq bibliotheek. Geen hiaten werden opgenomen tussen beide uiteinden van de fragmenten wat resulteert in gepaarde-end leest met een nominale fragmentlengte van 200 en 600 bp, respectievelijk. HiSeq bibliotheek bestond uit 215.721.669 leest (43 Gbp) die ongeveer een 90 × genoom dekking, terwijl de Miseq bibliotheek bevatte 26.270.063 (15 Gbp) leest gelijk aan een genoom dekking van 30 ×. Na het verwijderen van adapters en lezingen die onbekende of lage kwaliteit nucleotiden bevatten, werden de resterende 207.985.822 en 24.416.556 lezingen van hoge kwaliteit (dekking van 87× en 29× respectievelijk) gebruikt om het genoom van L. minor te assembleren (Additional file 1: Tabel S1). Om de best mogelijke draft sequentie te verkrijgen, werden drie verschillende assemblage programma’s geëvalueerd voor de de novo assemblage namelijk SOAPdenovo2 en CLC bio, die beide gebruik maken van een de Bruijn grafiek-gebaseerd algoritme en MaSuRCA dat gebruik maakt van een overlap-gebaseerd assemblage algoritme voor de zogenaamde super-reads. Dergelijke superreads zijn op unieke wijze verlengde korte lezingen uit gepaarde-end-lezingen met hoge dekking om de gegevens aanzienlijk te comprimeren. Vervolgens werden de verkregen assemblages verder verwerkt met SSPACE om scaffold, en Gapcloser om de lacunes te sluiten in een laatste stap. Met betrekking tot het aantal contigs / scaffolds, de bijbehorende N50 waarden en mismatch fout frequentie, bleek dat het ontwerp genoom gegenereerd door MaSuRCA genereerde een meer robuuste genoom sequentie in vergelijking met de genomen gegenereerd door SOAPdenovo2 en CLC bio (Additional file 2: tabel S2). MaSuRCA’s foutcorrectie en super-reads processen verminderde de ruwe gepaarde-end leest tot 2.145.090 super-reads die werden toegepast op de paarsgewijze overlap tussen deze leest berekenen. Van deze super-reads, de MaSuRCA pijplijn gegenereerd 49,027 contigs (N50 contig grootte 20.9 kbp) en 46,105 scaffolds (N50 scaffold grootte 23.6 kbp) met een minimale lengte van 1000 bp (Additional file 2: Tabel S2). Daarom werden scaffolds resulteerde uit MaSuRCA gebruikt voor verdere downstream-analyse.
Met behulp van de CEGMA pijplijn , 233 eiwit-coderende genen (94%) van een set van zeer geconserveerde eukaryotische genen (248) werden herkend binnen de MaSuRCA geassembleerd genoom waarvan 215 genen (86%) waren volledig (>70% van hun lengte) gedekt (Additional file 3: tabel S3). Om de nauwkeurigheid van de de novo assemblage te beoordelen, werd een de novo gegenereerde set van transcripten afkomstig van dezelfde L. minor stam uitgelijnd met de scaffolds. Met behulp van BLAT software , bleek dat ~ 97% van de geschoonde transcripten uitgelijnd op ten minste een scaffold, met ≥ 95% dekking en ≥ 90% sequentie-identiteit (Additional file 4: tabel S4). De uiteindelijke geassembleerde sequentie overspannen 472.128.703 bases ingebed in 46.047 scaffolds, met een N50 lengte van 23.801 bases wanneer scaffolds van 1000 bp of kleiner worden uitgesloten. Deze lengte is vergelijkbaar met de voorspelde genoomgrootte met behulp van Kmergenie, dat de assemblagegrootte schatte op 475 Mbp op basis van k-mer statistieken, of op 481 Mbp met behulp van flowcytometrie (Fig. 1b). In verhouding tot de nucleaire DNA-inhoud werd de genoomsequentie van L. minor dus bijna volledig (98,15 %) gedekt door de geassembleerde scaffolds. Scaffolds met een sequentie lengte van 2 kbp of meer gedekt ongeveer 96% in grootte van de de novo genoom assemblage sequentie waarvan 17 scaffolds had een minimale sequentie lengte van 0,5 Mbp (Additional file 5: figuur S1). Met behulp van de beschikbare L. minor chloroplast DNA gegevens, werd het volledige chloroplast genoom van L. minor kloon 5500 hier verkregen door het uitlijnen van NGS reads met behulp van BWA met Genbank L. minor chloroplast genoom als referentie (NC_010109.1) . Dit chloroplastgenoom was 165,9 Mbp groot en bevatte 48 varianten met 117 bp (0,07 %) in vergelijking met de Genbank referentiesequentie die oorspronkelijk van een ander kloon/ecotype afkomstig is (Additional file 6: Tabel S5).
In deze studie werd een “whole-genome shotgun” benadering gebruikt om het genoom van L. minor te sequeneren met behulp van de novo assemblage van uitsluitend “paired-end read libraries” die resulteerden in een matige N50 waarde. Het ontbreken van mate-paar bibliotheken maakt een significant verschil in de grootte van scaffolds en dus ook in de N50 waarde. Bibliotheken van gepaarde-end leest gewoon niet kan overspannen veel van de repetitieve sequenties in een genoom, vooral in plant genomen, waarvan bekend is dat een grote hoeveelheid repetitieve sequenties hebben. De betrokkenheid van een set van mate-paar bibliotheken zou produceren langere scaffolds waardoor N50 waarden 10-100 keer hoger . Onze genoom assemblage bevat een scaffold N50 waarde van meer dan 20 kbp, die vergelijkbaar is met de scaffold N50 waarde van de genoom assemblages van Cannabis sativa en Phoenix dactylifera . Bovendien zijn de gegenereerde N50 waarden van andere gesequeneerde planten genoom assemblages waarin geen mate-paar bibliotheken zijn opgenomen (scaffold N50 waarde) ook in lijn met de hier verkregen scaffold N50 waarde . Dit suggereert dat de geproduceerde L. minor assemblage het grootste deel van de niet-herhaalde sequenties omvat. Nieuwe sequentiebibliotheken samen met karteringsinformatie zoals fysische kaarten, optische kaarten, of cytogenetische kaarten kunnen nodig zijn om de kwaliteit van de genoomsequentie te verbeteren met het oog op vergelijkende genomica, genoomduplicaties, of genoomevolutie in eendenkroossoorten te analyseren. De huidige assemblage stelt ons echter in staat om de basiselementen (b.v. herhalings- en geninhoud) van het L. minor-genoom te karakteriseren.
Repetitieve sequenties omvatten 62 % van de L. minor-genoomassemblage
Vergelijkingen op basis van homologie onthulden dat 62 % van de L. minor-genoomassemblage bestond uit repetitieve sequenties (tabel 1). De herhalingen werden gecategoriseerd in retrotransposons (31,20 %), DNA transposons (5,08 %), tandem herhalingen (3,91 %) en andere niet-geclassificeerde herhalingen (21,27 %). Long terminal repeat (LTR) retrotransposons vormen de overheersende klasse van transponeerbare elementen (29,57 %), hetgeen consistent is met andere plantengenomen.
De meest voorkomende transposon families waren gypsy en copia, die respectievelijk 10,59 en 18,79 % van het genoom voor hun rekening namen. Bij de DNA-overdraagbare elementen bleken DNA_hAT-Ac-elementen het talrijkst te zijn en bijna 2,7% van het kerngenoom uit te maken. Het hoge aandeel repetitieve sequenties zou een verklaring kunnen zijn voor de verspreide verspreiding van heterochromatine-kenmerken van de L. minor kloon 8623 (377 Mbp, ). Aangezien de plasticiteit van de genoomgrootte in verschillende L. minor klonen (variërend van 323 tot 760 Mbp) het gevolg zou kunnen zijn van verschillende repetitieve amplificatie en/of recente genoomduplicaties, is het interessant om de repeatinhoud en het karyotype van verschillende L. minor geografische klonen te bestuderen. In vergelijking met het S. polyrhiza genoom, dat het oudste eendenkroos is, zou herhalingsamplificatie in L. minor 94.5 % van het verschil in genoomgrootte tussen twee eendenkroos referentiegenen kunnen verklaren. Verrassend is dat de LTR copia overvloediger aanwezig is dan de LTR gypsy in het genoom van L. minor. De gypsy/copia verhouding in L. minor is 0.56, terwijl de overeenkomstige verhouding in S. polyrhiza 3.5 is. Hoewel onze herhaalidentificatiemethode afhankelijk is van de assemblage, waardoor de herhaalinhoud onderschat zou kunnen worden en het aandeel niet-geclassificeerde herhalingen hoog is (34,37 % herhaalinhoud, Tabel 1), suggereert het herhaalgehalte in L. minor dat de amplificatie van LTR retrotransposons een belangrijke rol heeft gespeeld in de evolutie van het eendenkroosgenoom. Meer gedetailleerde repeat karakterisering in gepubliceerde of lopende eendenkroos genoom sequencing projecten kunnen meer licht werpen op dit interessante verhaal.
L. minor 5500 bevat een vergelijkbaar aantal eiwit-coderende genen als S. polyrhiza 7498
Scaffolds van 2 kbp of langer werden geselecteerd voor genvoorspelling, omdat genvoorspellers een bepaalde hoeveelheid sequentie upstream en downstream van een gen nodig hebben om accuraat te werken. Daarom werden scaffolds kleiner dan 2 kbp overgeslagen om de vals-positieve fouten en gefragmenteerde genmodellen bij genvoorspelling te verminderen. De CEGMA tool werd gebruikt om de volledigheid van deze selectie van scaffold sequenties te beoordelen. Het bleek dat nog steeds 213 full-length genen volledig werden uitgelijnd, wat betekent dat het uiteindelijke aantal van de genannotatie ten minste 85% van het werkelijke aantal genen vertegenwoordigt (Additional file 3: tabel S3). Genmodellen van gemaskeerde L. minor genoomsequenties werden voorspeld en geannoteerd met de ab initio en homologie-gebaseerde genvoorspellingspijplijn MAKER-P (Additional file 7: Tabel S6). Om een uitgebreide set van L. minor genmodellen te verkrijgen, werd RNA geïsoleerd en gesequeneerd van L. minor planten gekweekt onder gezonde groeiomstandigheden en van L. minor planten blootgesteld aan verschillende stressomstandigheden (waaronder uranium, gammastraling en Sr-90 behandeling). Met behulp van de Illumina HiSeq platform, ongeveer, 592.326.402 schone sequencing leest werden verkregen na adapter en lage-kwaliteit leest trimmen (Additional file 8: tabel S7). 530.159 transcripten werden geproduceerd met Trinity de novo assembler, met inbegrip van verschillende isovormen per transcript. Deze transcriptomische gegevens van L. minor, samen met alle beschikbare transcripten van eendenkroossoorten Landoltia punctata, Lemna gibba en S. polyrhiza en aangevuld met negen proteomen van monocotyledon planten, dienden als bewijs voor de genvoorspellingstools SNAP en Augustus binnen Maker-P pijplijn. In totaal werden 22.382 eiwit-coderende genen geannoteerd waarvan 18.744 genen (84 %) een AED (Annotation Edit Distance) score van minder dan 0,25 hadden, wat als zeer accuraat kan worden beschouwd (Fig. 1d). Hoewel het aantal genen lager is dan het aantal dat gevonden werd in andere gesequenteerde monocot planten, was het zeer vergelijkbaar met dat van de nauw verwante S. polyrhiza. Dit ondersteunt de hypothese dat de kleine en structureel eenvoudige anatomie van eendenkroos soorten het mogelijk maakte een aantal genen te verliezen. Gemiddeld bestonden de genmodellen uit 1934 bp en een gemiddelde van 4,8 exonen per gen (Tabel 2; Additional file 9: Figuur S2). De verdeling van de exonlengte was consistent met andere soorten, hoewel de intronlengte van L. minor de neiging had korter te zijn dan die van andere soorten die in de vergelijking werden gebruikt (Tabel 2). Om de nauwkeurigheid van de verkregen annotatie te beoordelen, werd de complete set van de L. minor eiwitten van het National Center of Biotechnology Information (NCBI) gestraald naar de L. minor eiwitten. Het bleek dat 60 van de 61 NCBI-toegangen (gedownload 11-09-2015) konden worden uitgelijnd op ten minste één van de L. minor-eiwitten (BLASTP , e-waarde van 1e-10) (Additional file 10: Tabel S8).
Omdat het genoom van L. minor is gesequeneerd met behulp van een WGS-benadering zonder het gebruik van partner-paarbibliotheken of de constructie van een fysische kaart, is het niet uitgesloten dat sommige allelen als individuele genen zijn geannoteerd. Heterozygositeit komt namelijk meer voor bij aseksuele individuen dan bij seksuele soorten door mutatie-accumulatie in klonale lineages. Een studie van Cole en Voskuil toonde aan dat dit ook het geval was voor een populatie van L. minor . Echter, bij gebruik van de MaSuRCA pijplijn in plaats van de Bruijn grafiek-gebaseerde assemblage aanpak, het overwint de herhaalde sequenties, fouten, lage dekking regio’s en kleine structurele verschillen veroorzaakt door heterozygositeit als gevolg van de overlap-lay-out-consensus aanpak . Om de nauwkeurigheid van de de novo annotatie te beoordelen, onderzochten we het aandeel van de novo gecreëerde transcripten dat vertegenwoordigd was in het geannoteerde transcriptoom. Een totaal van 179.736 verschillende RNA transcripten werden gemaakt door Transdecoder waarvan 179.734 in kaart konden worden gebracht met de geannoteerde transcripten (BLASTN , e-waarde van 1e-30).
Lemna proteoom is grotendeels (66.2 %) gedeeld met het Spirodela proteoom
Om de geninhoud van L. minor en eendenkroos in het algemeen te bestuderen, onderzochten we de sequentie overeenkomsten tussen L. minor en S. polyrhiza genen en twee andere hoog geannoteerde monocot planten. Daarom werden de 22.382 genproducten van L. minor geclusterd in orthologe en paraloge groepen met 107.716 genproducten van S. polyrhiza, Oryza sativa en Zea mays met behulp van OrthoMCL . Hoewel de drie sets van genannotatie verschillende aantallen genmodellen bevatten als gevolg van de verschillende annotatiegeschiedenis, gaf deze vergelijking een indicatie van de algemene volledigheid van onze assemblage. Samengevat werden 8202 orthologe groepen geconserveerd in alle vier de soorten, die 39 % van de ingediende genen bevatten (Fig. 2a). Naast 3546 L. minor singleton genen (niet gegroepeerd door OrthoMCL, 15.8 % van het totaal L. minor genen), waren in totaal 795 paraloge groepen die 2897 genen vertegenwoordigden (12.9 %) uniek voor L. minor (Additional file 11: Tabel S9). Deze 6443 genen uit twee groepen worden in deze studie verder aangeduid als Lemna-specifieke genen. Van de meer verwante soorten zou verwacht worden dat ze een groter aantal gelijkaardige genmodellen zouden hebben. Het resultaat is dat 14.830 L. minor genen (66,2 %) orthologs hebben in S. polyrhiza, terwijl andere 1109 L. minor genen (4,9 %) orthologs hebben in ofwel O. sativa, Z. mays, of beide, maar niet in S. polyrhiza (Fig. 2b). Bovendien werd gevonden dat 1821 genen (8,13 %) van L. minor een unieke overeenkomst deelden met ten minste één gen van S. polyrhiza, die verder worden aangeduid als eendenkroosspecifieke genen.
In het genoom van S. polyrhiza is aangetoond dat er twee oude ronden van genoomduplicaties zijn geweest tijdens de evolutie (ca. 90 Mya) . Bij de vergelijking van genfamilies tussen S. polyrhiza en vier representatieve plantensoorten (Arabidopsis, tomaat, banaan en rijst), wees een laag genkopiegetal in S. polyrhiza op bij voorkeur genverlies van gedupliceerde genen . Het zou interessant zijn om het gennummer en de verhouding van genfamilies te bestuderen van andere Lemna-genomen waaraan wordt gewerkt, zoals L. gibba G3 DWC131 (450 Mbp) en Lemna minor kloon 8627 (800 Mbp) . Het is denkbaar dat het vooroudergenoom van Lemna-soorten tenminste één recente genoomduplicatie bevatte na de splitsing tussen de geslachten L. minor en S. polyrhiza, gevolgd door genverwijderingsprocessen van gedupliceerde genen in verschillende mate, resulterend in verschillende Lemna-soorten met een genoomgrootte variërend van 323 tot 760 Mbp . Het meest uitgebreide genenverlies kan resulteren in een verminderd totaal genenaantal zoals in het geval van L. minor 5500. Een alternatieve hypothese daarentegen zou kunnen zijn dat L. minor 5500 het genoom van de voorouder van Lemna vertegenwoordigt, dat een soortgelijke geninhoud bevat als het genoom van Spirodela. Andere Lemna-soorten met een groter genoom zouden geëvolueerd kunnen zijn uit een grotere repeat-expansie of uit zeer recente en onafhankelijke genoom-geheel-genoom duplicaties. Deze hypothese zou kunnen worden getoetst door toekomstige werkzaamheden, waarbij macro-syntenierelatie wordt onderzocht tussen S. polyrhiza 7498 genoom (2n = 40, 158 Mbp) en L. minor 5500 genoom (2n = 40, 481 Mbp).
Genannotatie-informatie ondersteunt verdere genoom-functionele analyse en biomassaproductietoepassingen
Om de vermoedelijke functies van de L. minor genmodellen te identificeren, werd een sequentievergelijkingszoek uitgevoerd tegen de Swiss-Prot eiwitsequenties van Arabidopsis thaliana en O. sativa (BLASTP , e-waarde van 1e-5). Vervolgens werden de transcripten geannoteerd met Gene Ontology (GO) en Pfam termen met behulp van een lokale installatie van Interproscan 5 en KEGG pathway mapping met behulp van de KEGG Automatic Annotation Server (KAAS) . De pfam-A database biedt profiel verborgen Markov modellen van meer dan 13.672 geconserveerde eiwit families . Het GO-project biedt een ontologie van gedefinieerde termen die genproducteigenschappen vertegenwoordigen, die drie domeinen bestrijkt: cellulaire component, moleculaire functie en biologisch proces. Het resultaat van KAAS bevat KO (KEGG Orthologie) toewijzingen en automatisch gegenereerde KEGG paden. In totaal kregen 21.263 genmodellen (95 %) een annotatie-koppeling met ten minste één van de opgenomen databases, waarvan 18.597 (83,1 %) werden toegewezen aan één of meer Pfam domeinen, 7329 (32,7 %) aan KEGG ontologie term en 15.512 (69,3 %) van de eiwitten werden met succes geannoteerd met Gene Ontology termen. De GO-termen van L. minor vertonen algemene gelijkenis met de GO-annotaties van S. polyrhiza, O. sativa en Z. mays (Fig. 3, Additional file 12: Figuur S3; Additional file 13: Tabel S10). De GO verrijkingsanalyse tussen de twee eendenkroossoorten laat zien dat het L. minor proteoom 24 oververtegenwoordigde en 15 ondervertegenwoordigde GO termen bevat met significante FDR <0.05 (Fig. 3; Additional file 14: Table S11). Verrijkte eiwitten in L. minor 5500 omvatten (1) enzymen betrokken bij katabole processen (GO:9056, 422 eiwitten), hydrolase activiteit (GO:16787, 2739 eiwitten); (2) eiwitten in reactie op verschillende stimulus (bijv, stress (GO:6950, 529 eiwitten), abiotische stimulus (GO:9628, 86 eiwitten), extracellulaire stimulus (GO:9991, 19 eiwitten), endogene stimulus (GO:9719, 55 eiwitten); en (3) biosyntheseprocessen (bv. precursormetabolieten en energie (GO:6091, 258 eiwitten), DNA-metabolisch proces (GO:6259, 350 eiwitten), koolhydraatmetabolisch proces (GO:5975, 776 eiwitten). Deze eiwitten zouden kunnen bijdragen tot het vermogen van L. minor om (1) overtollige voedingsstoffen uit afvalwater te verwijderen, (2) zich aan te passen aan verschillende klimaatomstandigheden, waardoor ze wereldwijd verspreid zijn, en (3) voedingswaarde en een hoge biomassaproductiviteit te leveren. Interessant is dat 2381 L. minor-specifieke genen (36,9 %) en 326 L. minor-tandem-gedupliceerde genen (17,4 %) aanwezig zijn in de oververtegenwoordigde GO-termen. Verder bevat L. minor sequenties die coderen voor 12 glutamine synthetases (GS) en 21 glutamaat synthases (GOGAT) in vergelijking met respectievelijk 7 en 11 sequenties in S. polyrhiza (Additional files 15, 16: Fig. S4, S5; Additional file 17: Tabel S12). Beide enzymen reguleren de ammonium assimilatie, een belangrijke biochemische route voor het gebruik van L. minor bij de sanering van afvalwater, mogelijk in combinatie met energieproductie. Daarom zouden deze geamplificeerde genen, die via neofunctionalisatie kunnen divergeren om nieuwe functies te produceren, potentiële kandidaten kunnen zijn voor verdere functionele studies, aangezien efficiënte transformatieprotocollen voor L. minor beschikbaar zijn.