De novo-sammansättning av L. minor-genom med större 100× Illumina-täckning

Genomet av L. minor-klon 5500 uppskattades till 481 Mbp genom flödescytometri (fig. 1b) och är komprimerat i 20 kromosompar (2n = 40, fig. 1c). För att erhålla referenssekvensen för L. minor-genomet isolerades totalt genomiskt DNA för att skapa två parvisa bibliotek för Illumina-plattformen. Ett 2 × 100 HiSeq-bibliotek med hög täckning kompletterades med längre läsningar från ett 2 × 300 MiSeq-bibliotek. Inga luckor inkluderades mellan fragmentens båda ändar, vilket resulterade i parvisa läsningar med en nominell fragmentlängd på 200 respektive 600 bp. HiSeq-biblioteket bestod av 215 721 669 läsningar (43 Gbp) som motsvarar ungefär 90× genomtäckning, medan Miseq-biblioteket innehöll 26 270 063 (15 Gbp) läsningar som motsvarade en genomtäckning på 30×. Efter att ha tagit bort adaptrar och läsningar som innehåller okända eller lågkvalitativa nukleotider användes de återstående 207 985 822 och 24 416 556 högkvalitativa läsningarna (täckning på 87× respektive 29×) för att sammanställa L. minor-genomet (Additional file 1: Table S1). För att få bästa möjliga utkast till sekvens utvärderades tre olika sammansättningsprogram för de novo-sammansättningen, nämligen SOAPdenovo2 och CLC bio, som båda använder en de Bruijn-grafbaserad algoritm, och MaSuRCA som använder en överlappningsbaserad sammansättningsalgoritm för de så kallade superreads. Sådana superreads är unikt förlängda korta reads från parvisa reads med hög täckning för att avsevärt komprimera data. Därefter bearbetades de erhållna sammanställningarna ytterligare med SSPACE för att skapa en ställning och Gapcloser för att täppa till luckorna i ett sista steg. När det gäller antalet contigs/scaffolds, motsvarande N50-värden och felfrekvensen för felmatchning konstaterades det att det utkast till genom som genererades med MaSuRCA genererade en mer robust genomsekvens jämfört med de genom som genererades med SOAPdenovo2 och CLC bio (Additional file 2: Table S2). MaSuRCA:s felkorrigerings- och superläsningsprocesser reducerade de råa parvisa läsningarna till 2 145 090 superläsningar som användes för att beräkna parvis överlappning mellan dessa läsningar. Från dessa superläsningar genererade MaSuRCA-pipeline 49 027 contigs (N50 contig-storlek 20,9 kbp) och 46 105 scaffolds (N50 scaffold-storlek 23,6 kbp) med en minimilängd på 1 000 bp (Additional file 2: Table S2). Därför användes de scaffolds som MaSuRCA resulterade i för ytterligare nedströmsanalyser.

Med hjälp av CEGMA-pipeline identifierades 233 proteinkodande gener (94 %) av en uppsättning mycket bevarade eukaryotiska gener (248) inom MaSuRCA:s sammanställda genom, varav 215 gener (86 %) täcktes helt (>70 % av sin längd) (Additional file 3: Table S3). För att bedöma noggrannheten hos de novo-sammansättningen anpassades en de novo-genererad uppsättning transkript från samma L. minor-stam till scaffolds. Med hjälp av BLAT-programvaran fann man att ~97 % av de rensade transkriptionerna anpassades till minst en scaffold, med ≥95 % täckning och ≥90 % sekvensidentitet (Additional file 4: Table S4). Den slutliga sammansatta sekvensen sträckte sig över 472 128 703 baser inbäddade i 46 047 scaffolds, med en N50-längd på 23 801 baser när scaffolds på 1000 bp eller mindre utesluts. Denna längd liknar den förutspådda genomstorleken med hjälp av Kmergenie som uppskattade sammansättningens storlek till 475 Mbp baserat på k-mer-statistik, eller till 481 Mbp med hjälp av flödescytometri (fig. 1b). Som andel av kärn-DNA-innehållet täcktes därför L. minor-genomsekvensen nästan helt och hållet (98,15 %) av de sammansatta ställningarna. De ställningar som hade en sekvenslängd på 2 kbp eller mer täckte cirka 96 % av den sammansatta de novo-genomsekvensen, varav 17 ställningar hade en minsta sekvenslängd på 0,5 Mbp (Additional file 5: Figur S1). Med hjälp av tillgängliga data om L. minor kloroplast-DNA erhölls det fullständiga kloroplastgenomet av L. minor klon 5500 här genom att NGS-avläsningar allierades med hjälp av BWA med Genbank L. minor kloroplastgenom som referens (NC_010109.1) . Detta kloroplastgenom var 165,9 Mbp och innehöll 48 varianter relaterade till 117 bp (0,07 %) jämfört med Genbank-referenssekvensen som ursprungligen kommer från en annan klon/ekotyp (Additional file 6: Table S5).

Figur 2
figur2

Ett venndiagram som visar kluster av ortologa och paraloga genfamiljer i L. minor, S. polyrhiza, Z. mays och O. sativa som identifierats av OrthoMCL. Genfamiljens nummer anges i var och en av komponenterna; antalet gener inom familjerna för alla arter inom komponenten anges inom parentes

I den här studien användes en whole-genome shotgun-metod för att sekvensera L. minor-genomet med hjälp av de novo-assemblering av uteslutande parvisa läsbibliotek, vilket resulterade i ett måttligt N50-värde. Avsaknaden av parade parbibliotek gör en betydande skillnad för storleken på scaffolds och därmed också för N50-värdet. Bibliotek med parvisa läsningar kan helt enkelt inte täcka många av de repetitiva sekvenserna i ett genom, särskilt i växtgenom, som är kända för att ha en stor mängd repetitiva sekvenser . Om en uppsättning matteparbibliotek används skulle det ge längre scaffolds som gör att N50-värdena blir 10-100 gånger högre . Vår genomsamling innehåller ett N50-värde på mer än 20 kbp, vilket är jämförbart med N50-värdet för genomsamlingar från Cannabis sativa och Phoenix dactylifera . Dessutom är de genererade N50-värdena för andra sekvenserade växtgenomföreningar där inga matteparbibliotek ingår (scaffold N50-värde) också i linje med det här erhållna scaffold N50-värdet . Detta tyder på att den producerade sammansättningen av L. minor täcker de flesta icke upprepade sekvenser. Nya sekvenseringsbibliotek tillsammans med kartläggningsinformation såsom fysiska kartor, optiska kartor eller cytogenetiska kartor kan behövas för att förbättra kvaliteten på genomsekvenserna i syfte att analysera komparativ genomik, duplikationer av hela arvsmassan eller evolutionen av arvsmassan hos ankbräcksarter. Den nuvarande sammansättningen gör det dock möjligt för oss att karakterisera de grundläggande elementen (t.ex. repetitions- och geninnehåll) i L. minor-genomet.

Repetitiva sekvenser utgör 62 % av L. minor-genomassammenställningen

Homologibaserade jämförelser avslöjade att 62 % av L. minor-genomassammansättningen bestod av repetitiva sekvenser (tabell 1). Repetitionerna kategoriserades i retrotransposoner (31,20 %), DNA-transposoner (5,08 %), tandemrepetitioner (3,91 %) och andra oklassificerade repetitioner (21,27 %). Retrotransposoner med långa terminala upprepningar (LTR) är den dominerande klassen av transposerbara element (29,57 %), vilket stämmer överens med andra växtgenom.

Tabell 1 De novo-identifiering av sekvensrepetitioner i genomet av L. minor

De vanligaste transposonfamiljerna var gypsy och copia, som bidrog med 10,59 respektive 18,79 % av genomet. När det gäller DNA-transposerbara element fann man att DNA_hAT-Ac-element var vanligast och täckte nästan 2,7 % av kärngenomet. Den höga andelen repetitiva sekvenser kan förklara den utspridda spridningen av heterokromatinsignaturer i L. minor-klon 8623 (377 Mbp, ). Med tanke på att den plastiska genomstorleken i olika L. minor-kloner (från 323 till 760 Mbp) kan bero på olika repetitiva amplifieringar och/eller nyligen genomförda duplikationer av hela genomet, är det intressant att studera repetitionsinnehållet och karyotypen hos olika geografiska L. minor-kloner. I jämförelse med S. polyrhiza-genomet, som är den äldsta ankbräken, kan upprepningsamplifiering i L. minor förklara 94,5 % av skillnaden i genomstorlek mellan två referensgenom för ankbräken. Överraskande nog är LTR copia vanligare än LTR gypsy i L. minor-genomet. Förhållandet gypsy/copia i L. minor är 0,56, medan motsvarande förhållande i S. polyrhiza är 3,5 . Även om vår metod för identifiering av upprepningar är sammansättningsberoende, vilket innebär att upprepningsinnehållet kan underskattas och att andelen oklassificerade upprepningar är hög (34,37 % upprepningsinnehåll, tabell 1), tyder upprepningsinnehållet i L. minor på att amplifieringen av LTR-retrotransposonerna har spelat en viktig roll i ankbräcksgenomets evolution. En mer detaljerad karakterisering av upprepningar i publicerade eller pågående projekt för sekvensering av andmatens genomer skulle kunna kasta mer ljus över denna intressanta historia.

L. minor 5500 innehåller ett liknande antal proteinkodande gener som S. polyrhiza 7498

Skaffolier på 2 kbp eller längre valdes ut för genprediktion, eftersom genprediktorer kräver en viss mängd sekvenser uppströms och nedströms en gen för att fungera korrekt. Därför hoppades scaffolds som var mindre än 2 kbp över för att minska de falskt positiva felen och fragmenterade genmodellerna vid genförutsägelse. CEGMA-verktyget användes för att bedöma fullständigheten i detta urval av scaffoldsekvenser. Det visade sig att fortfarande 213 gener i full längd var fullständigt anpassade, vilket innebär att det slutliga antalet genannotationer representerar minst 85 % av det verkliga antalet gener (Additional file 3: Table S3). Genmodeller från maskerade L. minor-genomsekvenser förutsades och annoterades med den ab initio- och homologibaserade genprediktionspipelinen MAKER-P (Additional file 7: Table S6). För att få en omfattande uppsättning genmodeller för L. minor isolerades och sekvenserades RNA från L. minor-plantor som odlats under friska tillväxtförhållanden och från L. minor-plantor som utsatts för olika stressförhållanden (inklusive uran, gammastrålning och Sr-90-behandling). Med hjälp av Illumina HiSeq-plattformen erhölls ungefär 592 326 402 rena sekvenseringsavläsningar efter trimning av adapteravläsningar och avläsningar av låg kvalitet (Additional file 8: Table S7). 530 159 transkript producerades med Trinity de novo assembler, inklusive olika isoformer per transkript . Dessa transkriptomiska data från L. minor, tillsammans med alla tillgängliga transkript från andmatarter Landoltia punctata, Lemna gibba och S. polyrhiza och kompletterade med nio proteomer från monokotyledonväxter, tjänade som bevis för genprediktionsverktygen SNAP och Augustus inside Maker-P pipeline. Totalt annoterades 22 382 proteinkodande gener, varav 18 744 gener (84 %) hade en AED-poäng (Annotation Edit Distance) under 0,25, vilket kan betraktas som mycket exakt (fig. 1d). Även om antalet gener är lägre än det antal som hittats i andra sekvenserade monokotyla växter, var det mycket likt det hos den närbesläktade S. polyrhiza. Detta stödjer hypotesen att den lilla och strukturellt enkla anatomin hos ankrosarterna gjorde det möjligt att förlora ett antal gener. I genomsnitt bestod genmodellerna av 1934 bp och medelvärdet av 4,8 exoner per gen (tabell 2; Additional file 9: Figur S2). Exonlängdsfördelningen överensstämde med andra arter, även om L. minor intronlängd tenderade att vara kortare än hos andra arter som användes i jämförelsen (tabell 2). För att bedöma noggrannheten hos den erhållna annotationen, jämfördes den fullständiga uppsättningen av L. minor-proteiner från National Center of Biotechnology Information (NCBI) med L. minor-proteinerna. Det visade sig att 60 av 61 NCBI-accessioner (hämtade 11-09-2015) kunde anpassas till minst ett av L. minor-proteinerna (BLASTP , e-värde på 1e-10) (Additional file 10: Table S8).

Tabell 2 Översikt över genfunktioner från L. minor-proteiner. minor och tre andra monokotyledoner

Då L. minor-genomet har sekvenserats med hjälp av en WGS-metod utan användning av matteparbibliotek eller konstruktion av en fysisk karta, är det inte uteslutet att vissa alleler kan ha annoterats som enskilda gener. Heterozygositet är nämligen vanligare hos asexuella individer jämfört med sexuella arter genom att mutationer ackumuleras i klonala linjer . En studie av Cole och Voskuil visade att detta även gällde för en population av L. minor . När man använder MaSuRCA-pipeline i stället för de Bruijns grafbaserade sammansättningsmetod övervinner den dock upprepade sekvenser, fel, områden med låg täckning och små strukturella skillnader som orsakas av heterozygositet på grund av dess överlappning-layout-konsensusmetod . För att bedöma noggrannheten i de novo-annoteringen undersökte vi andelen de novo-skapade transkript som representeras i det annoterade transkriptomet. Totalt 179 736 olika RNA-transkript skapades av Transdecoder varav 179 734 kunde mappas till de annoterade transkriptionerna (BLASTN , e-värde på 1e-30).

Lemnas proteom är mestadels (66.2 %) delas med Spirodela-proteomet

För att studera geninnehållet hos L. minor och andmat i allmänhet undersökte vi sekvenslikheterna mellan L. minor- och S. polyrhiza-gener och två andra högt annoterade monokotyla växter. Därför klustrades de 22 382 genprodukterna från L. minor i ortologa och paraloga grupper med 107 716 genprodukter från S. polyrhiza, Oryza sativa och Zea mays med hjälp av OrthoMCL . Även om de tre uppsättningarna av genannotationer innehåller olika antal genmodeller, vilket återspeglar de olika annoteringshistorierna, gav denna jämförelse en indikation på den övergripande fullständigheten hos vår sammansättning. Sammanfattningsvis kan man konstatera att 8202 ortologgrupper bevarades i alla fyra arterna och att de innehöll 39 % av de inlämnade generna (fig. 2a). Förutom 3546 L. minor singleton-gener (inte grupperade av OrthoMCL, 15,8 % av de totala L. minor-generna) var totalt 795 paraloga grupper som representerade 2897 gener (12,9 %) unika för L. minor (Additional file 11: Table S9). Dessa 6443 gener från två grupper kallas vidare för Lemna-specifika gener i den här studien. De mer närbesläktade arterna skulle förväntas ha ett högre antal liknande genmodeller. Som ett resultat av detta har 14 830 L. minor-gener (66,2 %) ortologer i S. polyrhiza, medan andra 1109 L. minor-gener (4,9 %) har ortologer i antingen O. sativa, Z. mays eller båda men inte S. polyrhiza (fig. 2b). Vidare fann man att 1821 gener (8,13 %) från L. minor hade en unik likhet med minst en gen från S. polyrhiza, vilka vidare benämns ankbrädesspecifika gener.

Det har visats i S. polyrhiza-genomet att det har förekommit två gamla omgångar av duplikationer av hela arvsmassan under evolutionen (ca. 90 Mya) . I jämförelsen av genfamiljer mellan S. polyrhiza och fyra representativa växtarter (Arabidopsis, tomat, banan och ris) visade ett lågt antal genkopior i S. polyrhiza på föredragna genförluster av duplicerade gener . Det skulle vara intressant att studera genantalet och förhållandet mellan genfamiljerna i andra Lemna-genom som håller på att utvecklas, till exempel L. gibba G3 DWC131 (450 Mbp) och Lemna minor klon 8627 (800 Mbp) . Det är tänkbart att Lemna-arternas stamgenom innehöll minst en nyligen genomförd duplikation av hela genomet efter uppdelningen mellan släktena L. minor och S. polyrhiza, följt av olika grad av genborttagning av duplicerade gener, vilket resulterade i olika Lemna-arter med en genomstorlek som varierade från 323 till 760 Mbp . Den mest omfattande genförlusten kan resultera i ett minskat totalt antal gener, vilket är fallet med L. minor 5500. En alternativ hypotes skulle å andra sidan kunna vara att L. minor 5500 representerar Lemna-förfaderns arvsmassa som innehåller liknande geninnehåll som Spirodela-arvsmassan. Andra Lemna-arter med större arvsmassa kan ha utvecklats genom en större expansion av upprepningar eller genom mycket nyligen genomförda och oberoende duplikationer av hela arvsmassan. Denna hypotes kan testas genom framtida arbete där man studerar makrosyntesförhållandet mellan S. polyrhiza 7498-genomet (2n = 40, 158 Mbp) och L. minor 5500-genomet (2n = 40, 481 Mbp).

Genannoteringsinformation stöder ytterligare funktionell analys av genomet och tillämpningar för biomassaproduktion

För att identifiera de förmodade funktionerna hos L. minor-genmodellerna genomfördes en sekvenslikhetssökning mot Swiss-Prot-proteinsekvenserna av Arabidopsis thaliana och O. sativa (BLASTP , e-värde på 1e-5). Därefter annoterades transkriptionerna med Gene Ontology (GO) och Pfam-termer med hjälp av en lokal installation av Interproscan 5 och KEGG-vägkartläggning med hjälp av KEGG Automatic Annotation Server (KAAS) . Pfam-A-databasen innehåller profilerade dolda Markovmodeller för över 13 672 bevarade proteinfamiljer . GO-projektet tillhandahåller en ontologi med definierade termer som representerar genproduktens egenskaper och som täcker tre områden: cellulär komponent, molekylär funktion och biologisk process. Resultatet av KAAS innehåller KO-tilldelningar (KEGG-ortologi) och automatiskt genererade KEGG-banor. Totalt fick 21 263 genmodeller (95 %) en annoteringslänk med minst en av de inkluderade databaserna, varav 18 597 (83,1 %) tilldelades en eller flera Pfam-domäner, 7329 (32,7 %) en KEGG-ontologiterm och 15 512 (69,3 %) av proteinerna annoterades framgångsrikt med Gene Ontology-termer. GO-termerna för L. minor uppvisar övergripande likhet med GO-annoteringarna för S. polyrhiza, O. sativa och Z. mays (fig. 3, tilläggsfil 12: figur S3, tilläggsfil 13: tabell S10). GO-anrikningsanalysen mellan de två andmatarterna visar att L. minor-proteomet innehåller 24 överrepresenterade och 15 underrepresenterade GO-termer med signifikant FDR <0,05 (fig. 3, tilläggsfil 14: tabell S11). Berikade proteiner i L. minor 5500 inkluderade (1) enzymer som är involverade i kataboliska processer (GO:9056, 422 proteiner), hydrolasaktivitet (GO:16787, 2739 proteiner); (2) proteiner som svar på olika stimulus (t.ex, stress (GO:6950, 529 proteiner), abiotisk stimulans (GO:9628, 86 proteiner), extracellulär stimulans (GO:9991, 19 proteiner), endogen stimulans (GO:9719, 55 proteiner), och (3) biosyntesprocesser (t.ex. prekursormetaboliter och energi (GO:6091, 258 proteiner), DNA-metabolism (GO:6259, 350 proteiner), kolhydratmetabolism (GO:5975, 776 proteiner). Dessa proteiner kan bidra till L. minor förmåga att 1) avlägsna överskottsnäring från avloppsvatten, 2) anpassa sig till olika klimatförhållanden, vilket leder till att de är spridda över hela världen, och 3) ge näringsvärde och hög produktivitet i fråga om biomassa. Intressant nog finns 2381 specifika L. minor-gener (36,9 %) och 326 tandemdubblade L. minor-gener (17,4 %) i de överrepresenterade GO-termerna. Dessutom innehåller L. minor sekvenser som kodar för 12 glutaminsyntetaser (GS) och 21 glutamatsyntetaser (GOGAT) jämfört med 7 respektive 11 sekvenser i S. polyrhiza (Additional files 15, 16: Fig. S4, S5; Additional file 17: Table S12). Båda enzymerna reglerar ammoniumassimilering, vilket är en viktig biokemisk väg för användning av L. minor vid rening av avloppsvatten, eventuellt i kombination med energiproduktion . Därför kan dessa amplifierade gener, som kan divergera för att producera nya funktioner via neofunktionalisering, vara potentiella kandidater för ytterligare funktionella studier, eftersom det finns effektiva transformationsprotokoll för L. minor .

Figur 3
Figur3

Varjämförelse av de mest relevanta växt-GO slim-termerna för tre strukturerade ontologier mellan L. minor (svart) och S. polyrhiza (gul). Mer specifika GO-termer som är över-/underrepresenterade i L. minor visas på höger sida. Asterisksymboler visar att dessa GO-termer är signifikant berikade (Fisher exact test, FDR <0,05) i L. minor (svart) eller S. polyrhiza (gul) (Fisher exact test, FDR <0,05). pro process, organ. organisation, dev. development, TF transkriptionell faktor

.

Lämna ett svar

Din e-postadress kommer inte publiceras.