Det første udkast til genomet af den akvatiske modelplante Lemna minor åbner vejen for fremtidig forskning i stressfysiologi og bioteknologiske anvendelser

De novo samling af L. minor-genom med større 100× Illumina-dækning
Repetitive sekvenser udgør 62 % af L. minor-genomsamlingen
L. minor 5500 indeholder et lignende antal proteinkodende gener som S. polyrhiza 7498
Lemna proteom er for det meste (66.2 %) delt med Spirodela proteomet
Genannotationsoplysninger understøtter yderligere funktionel analyse af genomet og anvendelser inden for biomasseproduktion

De novo samling af L. minor-genom med større 100× Illumina-dækning

Genomet af L. minor-klon 5500 blev estimeret til 481 Mbp ved flowcytometri (Fig. 1b) og er komprimeret i 20 kromosompar (2n = 40, Fig. 1c). For at opnå referencesekvensen af L. minor-genomet blev det samlede genomiske DNA isoleret for at skabe to parvise biblioteker til Illumina-platformen. Et 2 × 100 HiSeq-bibliotek med høj dækningsgrad blev suppleret med længere læsninger fra et 2 × 300 MiSeq-bibliotek. Der blev ikke medtaget nogen huller mellem begge ender af fragmenterne, hvilket resulterede i paired-end-reads med en nominel fragmentlængde på henholdsvis 200 og 600 bp. HiSeq-biblioteket bestod af 215 721 669 læsninger (43 Gbp) svarende til en genomdækning på ca. 90× genomdækning, mens Miseq-biblioteket indeholdt 26 270 063 (15 Gbp) læsninger svarende til en genomdækning på 30×. Efter at have fjernet adaptorer og læsninger, der indeholdt ukendte nukleotider eller nukleotider af lav kvalitet, blev de resterende 207 985 822 og 24 416 556 læsninger af høj kvalitet (dækning på henholdsvis 87× og 29×) anvendt til at samle L. minor-genomet (Additional file 1: Table S1). For at opnå det bedst mulige sekvensudkast blev tre forskellige samlingsprogrammer evalueret til de novo-samlingen, nemlig SOAPdenovo2 og CLC bio, der begge anvender en de Bruijn-grafbaseret algoritme, og MaSuRCA, der anvender en overlapbaseret samlingsalgoritme til de såkaldte super-reads. Sådanne super-reads er unikt forlængede korte reads fra parvise reads med høj dækningsgrad for at komprimere dataene betydeligt. Efterfølgende blev de opnåede samlinger yderligere behandlet med SSPACE til at skabe stilladser og Gapcloser til at lukke hullerne i et sidste trin. Med hensyn til antallet af contigs/scaffolds, de tilsvarende N50-værdier og mismatchfejlfrekvensen blev det konstateret, at udkastet til genom genereret af MaSuRCA genererede en mere robust genomsekvens sammenlignet med genomerne genereret af SOAPdenovo2 og CLC bio (Additional file 2: Table S2). MaSuRCA’s fejlkorrektions- og super-reads-processer reducerede de rå parvise end-reads til 2 145 090 super-reads, som blev anvendt til at beregne parvis overlapning mellem disse reads. Fra disse super-reads genererede MaSuRCA-pipelinen 49 027 contigs (N50 contig-størrelse 20,9 kbp) og 46 105 scaffolds (N50 scaffold-størrelse 23,6 kbp) med en minimumslængde på 1 000 bp (Additional file 2: Tabel S2). Derfor blev de stilladser, der fremkom fra MaSuRCA, anvendt til yderligere downstream-analyse.

Ved anvendelse af CEGMA-pipeline , blev 233 proteinkodende gener (94 %) af et sæt stærkt konserverede eukaryote gener (248) genkendt i det MaSuRCA-samlede genom, hvoraf 215 gener (86 %) var fuldstændig (>70 % af deres længde) dækket (Yderligere fil 3: Tabel S3). For at vurdere nøjagtigheden af de novo-samlingen blev et de novo-genereret sæt af transkriptioner, der stammer fra den samme L. minor-stamme, tilpasset til stilladserne. Ved hjælp af BLAT-softwaren blev det konstateret, at ~97 % af de rensede transkripter tilpassede sig til mindst ét stillads med ≥95 % dækning og ≥90 % sekvensidentitet (Yderligere fil 4: Tabel S4). Den endelige sammensatte sekvens strakte sig over 472 128 703 baser indlejret i 46 047 scaffolds med en N50-længde på 23 801 baser, når scaffolds på 1000 bp eller mindre er udelukket. Denne længde svarer til den forudsagte genomstørrelse ved hjælp af Kmergenie, der estimerede samlingsstørrelsen til 475 Mbp baseret på k-mer-statistik, eller til 481 Mbp ved hjælp af flowcytometri (Fig. 1b). Som en andel af det nukleare DNA-indhold var L. minor-genomsekvensen derfor næsten fuldt ud (98,15 %) dækket af de sammensatte stilladser. Scaffolds med en sekvenslængde på 2 kbp eller mere dækkede ca. 96 % af de novo-genomsamlingssekvensen, hvoraf 17 scaffolds havde en sekvenslængde på mindst 0,5 Mbp (Additional file 5: Figur S1). Ved hjælp af de tilgængelige L. minor kloroplast-DNA-data blev det fulde kloroplastgenom af L. minor-klon 5500 opnået her ved at aligne NGS-læsninger ved hjælp af BWA med Genbank L. minor kloroplastgenom som reference (NC_010109.1) . Dette kloroplastgenom var 165,9 Mbp og indeholdt 48 varianter relateret til 117 bp (0,07 %) sammenlignet med Genbank-referencesekvensen, som oprindeligt stammer fra en anden klon/ecotype (Additional file 6: Table S5).

I denne undersøgelse blev der anvendt en helgenom shotgun-tilgang til at sekventere L. minor-genomet ved hjælp af de novo-assembling af udelukkende paired-end read-biblioteker, hvilket resulterede i en moderat N50-værdi. Manglen på mate-pair-biblioteker gør en betydelig forskel i størrelsen af scaffolds og dermed også i N50-værdien. Biblioteker med parvise læsninger kan simpelthen ikke dække mange af de repetitive sekvenser i et genom, især ikke i plantegenomer, som er kendt for at have en stor mængde repetitive sekvenser . Inddragelse af et sæt mattepar-biblioteker ville give længere scaffolds, hvilket ville gøre N50-værdierne 10-100 gange højere . Vores genomsamling indeholder en N50-værdi på mere end 20 kbp, hvilket kan sammenlignes med N50-værdien for genomsamlinger fra Cannabis sativa og Phoenix dactylifera . Desuden er de genererede N50-værdier af andre sekventerede plantegenomsamlinger, hvor der ikke er inkluderet mate-pair-biblioteker (scaffold N50-værdi), også på linje med den her opnåede scaffold N50-værdi . Dette tyder på, at den producerede L. minor-sammensætning dækker de fleste af de ikke-gennemførte sekvenser. Der kan være behov for nye sekventeringsbiblioteker sammen med kortlægningsoplysninger som f.eks. fysiske kort, optiske kort eller cytogenetiske kort for at forbedre kvaliteten af genomsekvenserne med henblik på at analysere komparativ genomforskning, helgenomduplikationer eller evolution af genomet hos arter af ællingelarver. Den nuværende samling giver os imidlertid mulighed for at karakterisere de grundlæggende elementer (f.eks. gentagelses- og genindhold) i L. minor-genomet.

Repetitive sekvenser udgør 62 % af L. minor-genomsamlingen

Homologibaserede sammenligninger afslørede, at 62 % af L. minor-genomsamlingen bestod af gentagelsessekvenser (tabel 1). Gentagelserne blev kategoriseret i retrotransposoner (31,20 %), DNA-transposoner (5,08 %), tandemrepeater (3,91 %) og andre uklassificerede gentagelser (21,27 %). Retrotransposoner med lange terminale gentagelser (LTR) er den fremherskende klasse af transposable elementer (29,57 %), hvilket er i overensstemmelse med andre plantegenomer

Tabel 1 De novo-identifikation af sekvensrepetitioner i genomet af L. minor

De hyppigst forekommende transposonfamilier var gypsy og copia, der bidrog med henholdsvis 10,59 og 18,79 % af genomet. For DNA-transposable elementer blev det fundet, at DNA_hAT-Ac-elementer var mest udbredte og dækkede næsten 2,7 % af kernegenomet. Den høje andel af repetitive sekvenser kunne forklare den spredte fordeling af heterokromatinsignaturer i L. minor-klon 8623 (377 Mbp, ). I betragtning af at plasticiteten af genomstørrelsen i forskellige L. minor-kloner (fra 323 til 760 Mbp) kan skyldes forskellig repetitiv forstærkning og/eller nylige helgenom-duplikeringer, er det interessant at undersøge gentagelsesindholdet og karyotypen af forskellige geografiske L. minor-kloner. Sammenlignet med S. polyrhiza-genomet, som er den ældste andemad, kunne gentagne amplifikationer i L. minor forklare 94,5 % af forskellen i genomstørrelse mellem to referencegenomer af andemad. Overraskende nok er LTR copia mere hyppigt forekommende end LTR gypsy i L. minor-genomet. Forholdet mellem gypsy/copia i L. minor er 0,56, mens det tilsvarende forhold i S. polyrhiza er 3,5 . Selv om vores metode til identifikation af gentagelser er assemblageafhængig, hvilket indebærer, at gentagelsesindholdet kan være undervurderet, og at andelen af uklassificerede gentagelser er høj (34,37 % gentagelsesindhold, tabel 1), tyder gentagelsesindholdet i L. minor på, at amplifikationen af LTR retrotransposoner har spillet en vigtig rolle i udviklingen af andegræsgenomet. En mere detaljeret karakterisering af gentagelser i offentliggjorte eller igangværende projekter til sekventering af andemadgenomer kunne kaste mere lys over denne interessante historie.

L. minor 5500 indeholder et lignende antal proteinkodende gener som S. polyrhiza 7498

Skaffolder på 2 kbp eller længere blev udvalgt til genprædiktion, da genprædiktorer kræver en vis mængde sekvens opstrøms og nedstrøms for et gen for at fungere nøjagtigt. Derfor blev scaffolds mindre end 2 kbp udeladt for at reducere falsk positive fejl og fragmenterede genmodeller i genprædiktionen. CEGMA-værktøjet blev anvendt til at vurdere fuldstændigheden af dette valg af scaffold-sekvenser. Det blev konstateret, at der stadig var 213 fuldlængdegener, som var fuldstændig tilpasset, hvilket betyder, at det endelige antal genannotationer repræsenterer mindst 85 % af det sande antal gener (Additional file 3: Table S3). Genmodeller fra maskerede L. minor-genomsekvenser blev forudsagt og annoteret med den ab initio- og homologibaserede genprædiktionspipeline MAKER-P (Additional file 7: Tabel S6). For at opnå et omfattende sæt af L. minor-genmodeller blev RNA isoleret og sekventeret fra L. minor-planter dyrket under sunde vækstbetingelser og fra L. minor-planter, der var udsat for forskellige stressbetingelser (herunder uran, gammastråling og Sr-90-behandling). Ved hjælp af Illumina HiSeq-platformen blev der opnået ca. 592 326 402 rene sekventeringsreads efter trimning af adapterreads og reads af lav kvalitet (Yderligere fil 8: Tabel S7). 530 159 transskriptioner blev fremstillet med Trinity de novo assembler, herunder forskellige isoformer pr. transkript . Disse transkriptomiske data fra L. minor, sammen med alle tilgængelige transkripter fra andemadarter Landoltia punctata, Lemna gibba og S. polyrhiza og suppleret med ni proteomer fra monokotyledonplanter, tjente som bevis for genprædiktionsværktøjerne SNAP og Augustus inside Maker-P pipeline. I alt blev der annoteret 22 382 proteinkodende gener, hvoraf 18 744 gener (84 %) havde en AED-score (Annotation Edit Distance) på under 0,25, hvilket kan betragtes som meget præcist (fig. 1d). Selv om antallet af gener er lavere end det antal, der er fundet i andre sekventerede monokotydeplanter, ligner det i høj grad antallet af gener hos den nært beslægtede S. polyrhiza. Dette understøtter hypotesen om, at den lille og strukturelt enkle anatomi hos andemad-arterne gjorde det muligt at miste et antal gener. I gennemsnit bestod genmodellerne af 1934 bp og gennemsnitligt af 4,8 exoner pr. gen (Tabel 2; Additional file 9: Figur S2). Exonlængdefordelingen var i overensstemmelse med andre arter, selv om L. minor intronlængde havde en tendens til at være kortere end hos andre arter, der blev anvendt i sammenligningen (tabel 2). For at vurdere nøjagtigheden af den opnåede annotation blev det komplette sæt af L. minor-proteinerne fra National Center of Biotechnology Information (NCBI) sprængt til L. minor-proteinerne. Det viste sig, at 60 ud af de 61 NCBI-accessioner (downloadet 11-09-2015) kunne tilpasses til mindst én af L. minor-proteinerne (BLASTP , e-værdi på 1e-10) (Additional file 10: Table S8).

Figur3 — Tabel 2 Oversigt over genfunktioner fra L. minor-proteinerne (BLASTP , e-værdi på 1e-10) (Additional file 10: Table S8).

Tabel 2 Oversigt over genfunktioner fra L. minor og tre andre monokotyledone planter

Da L. minor-genomet er blevet sekventeret ved hjælp af en WGS-tilgang uden brug af mate-pair-biblioteker eller konstruktion af et fysisk kort, er det ikke udelukket, at nogle alleler kan være blevet annoteret som individuelle gener. Heterozygositet er nemlig mere udbredt i aseksuelle individer sammenlignet med seksuelle arter gennem mutationsakkumulering i klonale lineager . En undersøgelse af Cole og Voskuil viste, at dette også var tilfældet for en population af L. minor . Men når MaSuRCA-pipelinen anvendes i stedet for den de Bruijn-grafbaserede samlemetode, overvinder den gentagne sekvenser, fejl, områder med lav dækning og små strukturelle forskelle forårsaget af heterozygositet på grund af dens overlap-layout-konsensusmetode . For at vurdere nøjagtigheden af de novo-annotationen undersøgte vi andelen af de novo-skabte transskriptioner, der er repræsenteret i det annoterede transkriptom. I alt 179 736 forskellige RNA-transskriptioner blev lavet af Transdecoder, hvoraf 179 734 kunne kortlægges til de annoterede transskriptioner (BLASTN , e-værdi på 1e-30).

Lemna proteom er for det meste (66.2 %) delt med Spirodela proteomet

For at studere genindholdet i L. minor og andemad generelt undersøgte vi sekvenslighederne mellem L. minor og S. polyrhiza generne og to andre højt annoterede monokotyle planter. Derfor blev de 22.382 genprodukter fra L. minor grupperet i ortolog- og paraloggrupper med 107.716 genprodukter fra S. polyrhiza, Oryza sativa og Zea mays ved hjælp af OrthoMCL . Selv om de tre sæt af genannotationer indeholder forskellige antal genmodeller, hvilket afspejler den forskellige annotationshistorie, gav denne sammenligning en indikation af den overordnede fuldstændighed af vores samling. Sammenfattende blev der bevaret 8202 ortologgrupper i alle fire arter, som indeholdt 39 % af de indsendte gener (Fig. 2a). Ud over 3546 L. minor singleton gener (ikke grupperet af OrthoMCL, 15,8 % af de samlede L. minor gener) var i alt 795 paraloge grupper, der repræsenterede 2897 gener (12,9 %), unikke for L. minor (Additional file 11: Tabel S9). Disse 6443 gener fra to grupper betegnes yderligere som Lemna-specifikke gener i denne undersøgelse. De mere nært beslægtede arter ville forventes at have et større antal lignende genmodeller. Som følge heraf har 14 830 L. minor-gener (66,2 %) ortologer i S. polyrhiza, mens andre 1109 L. minor-gener (4,9 %) har ortologer i enten O. sativa, Z. mays eller begge, men ikke S. polyrhiza (fig. 2b). Endvidere blev det fundet, at 1821 gener (8,13 %) fra L. minor delte en unik lighed med mindst ét gen fra S. polyrhiza, som yderligere betegnes som andemadspecifikke gener.

Det er blevet vist i S. polyrhiza-genomet, at der har været to gamle runder af helgenom-duplikeringer i løbet af evolutionen (ca. 90 Mya) . I sammenligningen af genfamilier mellem S. polyrhiza og fire repræsentative plantearter (Arabidopsis, tomat, banan og ris) indikerede et lavt genkopiantal i S. polyrhiza foretrukne gentab af duplikerede gener . Det ville være interessant at undersøge antallet af gener og forholdet mellem genfamilier i andre Lemna-genomer, som er under udarbejdelse, såsom L. gibba G3 DWC131 (450 Mbp) og Lemna minor klon 8627 (800 Mbp) . Det er tænkeligt, at Lemna-arternes forfædres genom indeholdt mindst én nylig helgenomduplikation efter opsplitningen mellem slægterne L. minor og S. polyrhiza efterfulgt af forskellige grader af genfjernelsesprocesser af duplikerede gener, hvilket har resulteret i forskellige Lemna-arter med en genomstørrelse på mellem 323 og 760 Mbp . Det mest omfattende tab af gener kan resultere i et reduceret samlet antal gener, som f.eks. hos L. minor 5500. En alternativ hypotese kunne på den anden side være, at L. minor 5500 repræsenterer Lemna-forfædrenes genom, som indeholder samme genindhold som Spirodela-genomet. Andre Lemna-arter med større genomer kunne have udviklet sig på baggrund af større gentagelsesudvidelser eller meget nylige og uafhængige helgenom-duplikeringer. Denne hypotese kan afprøves ved fremtidigt arbejde, hvor man undersøger makro-syntesesammenhængen mellem S. polyrhiza 7498-genomet (2n = 40, 158 Mbp) og L. minor 5500-genomet (2n = 40, 481 Mbp).

Genannotationsoplysninger understøtter yderligere funktionel analyse af genomet og anvendelser inden for biomasseproduktion

For at identificere de formodede funktioner af L. minor-genmodellerne blev der foretaget en sekvenslignende søgning mod Swiss-Prot-proteinsekvenserne af Arabidopsis thaliana og O. sativa (BLASTP , e-værdi på 1e-5). Efterfølgende blev transskriptionerne annoteret med Gene Ontology (GO) og Pfam-termer ved hjælp af en lokal installation af Interproscan 5 og KEGG pathway mapping ved hjælp af KEGG Automatic Annotation Server (KAAS) . Pfam-A-databasen indeholder profil skjulte Markov-modeller af over 13 672 konserverede proteinfamilier . GO-projektet indeholder en ontologi af definerede termer, der repræsenterer genproduktets egenskaber, og som dækker tre områder: cellekomponent, molekylær funktion og biologisk proces. Resultatet af KAAS indeholder KO-tildelinger (KEGG-ortologi) og automatisk genererede KEGG-stier. I alt 21 263 genmodeller (95 %) fik et annotationslink med mindst en af de inkluderede databaser, hvoraf 18 597 (83,1 %) blev tildelt et eller flere Pfam-domæner, 7329 (32,7 %) blev tildelt KEGG-ontologiudtryk, og 15 512 (69,3 %) af proteinerne blev med succes annoteret med Gene Ontology-udtryk. GO-termerne for L. minor har en generel lighed med GO-annotationerne for S. polyrhiza, O. sativa og Z. mays (fig. 3, Additional file 12: Figur S3; Additional file 13: Tabel S10). GO-berigelsesanalysen mellem de to arter af andemad viser, at L. minor-proteomet indeholder 24 overrepræsenterede og 15 underrepræsenterede GO-termer med en signifikant FDR <0,05 (fig. 3; supplerende fil 14: tabel S11). Berigede proteiner i L. minor 5500 omfattede (1) enzymer involveret i kataboliske processer (GO:9056, 422 proteiner), hydrolaseaktivitet (GO:16787, 2739 proteiner); (2) proteiner i respons på forskellige stimulus (f.eks, stress (GO:6950, 529 proteiner), abiotisk stimulus (GO:9628, 86 proteiner), ekstracellulær stimulus (GO:9991, 19 proteiner), endogen stimulus (GO:9719, 55 proteiner) og (3) biosynteseprocesser (f.eks. prækursormetabolitter og energi (GO:6091, 258 proteiner), DNA-metabolismeproces (GO:6259, 350 proteiner), kulhydratmetabolismeproces (GO:5975, 776 proteiner). Disse proteiner kan bidrage til L. minor evne til 1) at fjerne overskydende næringsstoffer fra spildevand, 2) tilpasning til forskellige klimatiske forhold, hvilket resulterer i deres verdensomspændende udbredelse, og 3) til at give næringsværdi og høj biomasseproduktivitet. Det er interessant, at 2381 L. minor-specifikke gener (36,9 %) og 326 L. minor-tandemduplikerede gener (17,4 %) er til stede i de overrepræsenterede GO-termer. Desuden indeholder L. minor sekvenser, der koder for 12 glutaminsyntetaser (GS) og 21 glutamatsynteser (GOGAT) sammenlignet med henholdsvis 7 og 11 sekvenser i S. polyrhiza (Yderligere filer 15, 16: Fig. S4, S5; Yderligere fil 17: Tabel S12). Begge enzymer regulerer ammoniumassimilation, som er en vigtig biokemisk vej til anvendelse af L. minor i spildevandsrensning, muligvis i kombination med energiproduktion . Derfor kunne disse forstærkede gener, som kan divergere for at frembringe nye funktioner via neofunktionalisering, være potentielle kandidater til yderligere funktionelle undersøgelser, da der findes effektive transformationsprotokoller for L. minor .

Figur 3

Sammenligning af de mest relevante plante GO slanke termer for tre strukturerede ontologier mellem L. minor (sort) og S. polyrhiza (gul). Mere specifikke GO-termer, der er over/underrepræsenteret i L. minor, er vist i højre side. Asterisk-symboler angiver, at disse GO-termer er signifikant beriget (Fisher exact test, FDR <0,05) i L. minor (sort) eller S. polyrhiza (gul) (Fisher exact test, FDR <0,05). pro proces, organ. organisation, dev. udvikling, TF transkriptionel faktor

Alai

De novo samling af L. minor-genom med større 100× Illumina-dækning

Repetitive sekvenser udgør 62 % af L. minor-genomsamlingen

L. minor 5500 indeholder et lignende antal proteinkodende gener som S. polyrhiza 7498

Lemna proteom er for det meste (66.2 %) delt med Spirodela proteomet

Genannotationsoplysninger understøtter yderligere funktionel analyse af genomet og anvendelser inden for biomasseproduktion

Skriv et svar Annuller svar