- De novo samling af L. minor-genom med større 100× Illumina-dækning
- Repetitive sekvenser udgør 62 % af L. minor-genomsamlingen
- L. minor 5500 indeholder et lignende antal proteinkodende gener som S. polyrhiza 7498
- Lemna proteom er for det meste (66.2 %) delt med Spirodela proteomet
- Genannotationsoplysninger understøtter yderligere funktionel analyse af genomet og anvendelser inden for biomasseproduktion
De novo samling af L. minor-genom med større 100× Illumina-dækning
Genomet af L. minor-klon 5500 blev estimeret til 481 Mbp ved flowcytometri (Fig. 1b) og er komprimeret i 20 kromosompar (2n = 40, Fig. 1c). For at opnå referencesekvensen af L. minor-genomet blev det samlede genomiske DNA isoleret for at skabe to parvise biblioteker til Illumina-platformen. Et 2 × 100 HiSeq-bibliotek med høj dækningsgrad blev suppleret med længere læsninger fra et 2 × 300 MiSeq-bibliotek. Der blev ikke medtaget nogen huller mellem begge ender af fragmenterne, hvilket resulterede i paired-end-reads med en nominel fragmentlængde på henholdsvis 200 og 600 bp. HiSeq-biblioteket bestod af 215 721 669 læsninger (43 Gbp) svarende til en genomdækning på ca. 90× genomdækning, mens Miseq-biblioteket indeholdt 26 270 063 (15 Gbp) læsninger svarende til en genomdækning på 30×. Efter at have fjernet adaptorer og læsninger, der indeholdt ukendte nukleotider eller nukleotider af lav kvalitet, blev de resterende 207 985 822 og 24 416 556 læsninger af høj kvalitet (dækning på henholdsvis 87× og 29×) anvendt til at samle L. minor-genomet (Additional file 1: Table S1). For at opnå det bedst mulige sekvensudkast blev tre forskellige samlingsprogrammer evalueret til de novo-samlingen, nemlig SOAPdenovo2 og CLC bio, der begge anvender en de Bruijn-grafbaseret algoritme, og MaSuRCA, der anvender en overlapbaseret samlingsalgoritme til de såkaldte super-reads. Sådanne super-reads er unikt forlængede korte reads fra parvise reads med høj dækningsgrad for at komprimere dataene betydeligt. Efterfølgende blev de opnåede samlinger yderligere behandlet med SSPACE til at skabe stilladser og Gapcloser til at lukke hullerne i et sidste trin. Med hensyn til antallet af contigs/scaffolds, de tilsvarende N50-værdier og mismatchfejlfrekvensen blev det konstateret, at udkastet til genom genereret af MaSuRCA genererede en mere robust genomsekvens sammenlignet med genomerne genereret af SOAPdenovo2 og CLC bio (Additional file 2: Table S2). MaSuRCA’s fejlkorrektions- og super-reads-processer reducerede de rå parvise end-reads til 2 145 090 super-reads, som blev anvendt til at beregne parvis overlapning mellem disse reads. Fra disse super-reads genererede MaSuRCA-pipelinen 49 027 contigs (N50 contig-størrelse 20,9 kbp) og 46 105 scaffolds (N50 scaffold-størrelse 23,6 kbp) med en minimumslængde på 1 000 bp (Additional file 2: Tabel S2). Derfor blev de stilladser, der fremkom fra MaSuRCA, anvendt til yderligere downstream-analyse.
Ved anvendelse af CEGMA-pipeline , blev 233 proteinkodende gener (94 %) af et sæt stærkt konserverede eukaryote gener (248) genkendt i det MaSuRCA-samlede genom, hvoraf 215 gener (86 %) var fuldstændig (>70 % af deres længde) dækket (Yderligere fil 3: Tabel S3). For at vurdere nøjagtigheden af de novo-samlingen blev et de novo-genereret sæt af transkriptioner, der stammer fra den samme L. minor-stamme, tilpasset til stilladserne. Ved hjælp af BLAT-softwaren blev det konstateret, at ~97 % af de rensede transkripter tilpassede sig til mindst ét stillads med ≥95 % dækning og ≥90 % sekvensidentitet (Yderligere fil 4: Tabel S4). Den endelige sammensatte sekvens strakte sig over 472 128 703 baser indlejret i 46 047 scaffolds med en N50-længde på 23 801 baser, når scaffolds på 1000 bp eller mindre er udelukket. Denne længde svarer til den forudsagte genomstørrelse ved hjælp af Kmergenie, der estimerede samlingsstørrelsen til 475 Mbp baseret på k-mer-statistik, eller til 481 Mbp ved hjælp af flowcytometri (Fig. 1b). Som en andel af det nukleare DNA-indhold var L. minor-genomsekvensen derfor næsten fuldt ud (98,15 %) dækket af de sammensatte stilladser. Scaffolds med en sekvenslængde på 2 kbp eller mere dækkede ca. 96 % af de novo-genomsamlingssekvensen, hvoraf 17 scaffolds havde en sekvenslængde på mindst 0,5 Mbp (Additional file 5: Figur S1). Ved hjælp af de tilgængelige L. minor kloroplast-DNA-data blev det fulde kloroplastgenom af L. minor-klon 5500 opnået her ved at aligne NGS-læsninger ved hjælp af BWA med Genbank L. minor kloroplastgenom som reference (NC_010109.1) . Dette kloroplastgenom var 165,9 Mbp og indeholdt 48 varianter relateret til 117 bp (0,07 %) sammenlignet med Genbank-referencesekvensen, som oprindeligt stammer fra en anden klon/ecotype (Additional file 6: Table S5).
I denne undersøgelse blev der anvendt en helgenom shotgun-tilgang til at sekventere L. minor-genomet ved hjælp af de novo-assembling af udelukkende paired-end read-biblioteker, hvilket resulterede i en moderat N50-værdi. Manglen på mate-pair-biblioteker gør en betydelig forskel i størrelsen af scaffolds og dermed også i N50-værdien. Biblioteker med parvise læsninger kan simpelthen ikke dække mange af de repetitive sekvenser i et genom, især ikke i plantegenomer, som er kendt for at have en stor mængde repetitive sekvenser . Inddragelse af et sæt mattepar-biblioteker ville give længere scaffolds, hvilket ville gøre N50-værdierne 10-100 gange højere . Vores genomsamling indeholder en N50-værdi på mere end 20 kbp, hvilket kan sammenlignes med N50-værdien for genomsamlinger fra Cannabis sativa og Phoenix dactylifera . Desuden er de genererede N50-værdier af andre sekventerede plantegenomsamlinger, hvor der ikke er inkluderet mate-pair-biblioteker (scaffold N50-værdi), også på linje med den her opnåede scaffold N50-værdi . Dette tyder på, at den producerede L. minor-sammensætning dækker de fleste af de ikke-gennemførte sekvenser. Der kan være behov for nye sekventeringsbiblioteker sammen med kortlægningsoplysninger som f.eks. fysiske kort, optiske kort eller cytogenetiske kort for at forbedre kvaliteten af genomsekvenserne med henblik på at analysere komparativ genomforskning, helgenomduplikationer eller evolution af genomet hos arter af ællingelarver. Den nuværende samling giver os imidlertid mulighed for at karakterisere de grundlæggende elementer (f.eks. gentagelses- og genindhold) i L. minor-genomet.
Repetitive sekvenser udgør 62 % af L. minor-genomsamlingen
Homologibaserede sammenligninger afslørede, at 62 % af L. minor-genomsamlingen bestod af gentagelsessekvenser (tabel 1). Gentagelserne blev kategoriseret i retrotransposoner (31,20 %), DNA-transposoner (5,08 %), tandemrepeater (3,91 %) og andre uklassificerede gentagelser (21,27 %). Retrotransposoner med lange terminale gentagelser (LTR) er den fremherskende klasse af transposable elementer (29,57 %), hvilket er i overensstemmelse med andre plantegenomer
De hyppigst forekommende transposonfamilier var gypsy og copia, der bidrog med henholdsvis 10,59 og 18,79 % af genomet. For DNA-transposable elementer blev det fundet, at DNA_hAT-Ac-elementer var mest udbredte og dækkede næsten 2,7 % af kernegenomet. Den høje andel af repetitive sekvenser kunne forklare den spredte fordeling af heterokromatinsignaturer i L. minor-klon 8623 (377 Mbp, ). I betragtning af at plasticiteten af genomstørrelsen i forskellige L. minor-kloner (fra 323 til 760 Mbp) kan skyldes forskellig repetitiv forstærkning og/eller nylige helgenom-duplikeringer, er det interessant at undersøge gentagelsesindholdet og karyotypen af forskellige geografiske L. minor-kloner. Sammenlignet med S. polyrhiza-genomet, som er den ældste andemad, kunne gentagne amplifikationer i L. minor forklare 94,5 % af forskellen i genomstørrelse mellem to referencegenomer af andemad. Overraskende nok er LTR copia mere hyppigt forekommende end LTR gypsy i L. minor-genomet. Forholdet mellem gypsy/copia i L. minor er 0,56, mens det tilsvarende forhold i S. polyrhiza er 3,5 . Selv om vores metode til identifikation af gentagelser er assemblageafhængig, hvilket indebærer, at gentagelsesindholdet kan være undervurderet, og at andelen af uklassificerede gentagelser er høj (34,37 % gentagelsesindhold, tabel 1), tyder gentagelsesindholdet i L. minor på, at amplifikationen af LTR retrotransposoner har spillet en vigtig rolle i udviklingen af andegræsgenomet. En mere detaljeret karakterisering af gentagelser i offentliggjorte eller igangværende projekter til sekventering af andemadgenomer kunne kaste mere lys over denne interessante historie.
L. minor 5500 indeholder et lignende antal proteinkodende gener som S. polyrhiza 7498
Skaffolder på 2 kbp eller længere blev udvalgt til genprædiktion, da genprædiktorer kræver en vis mængde sekvens opstrøms og nedstrøms for et gen for at fungere nøjagtigt. Derfor blev scaffolds mindre end 2 kbp udeladt for at reducere falsk positive fejl og fragmenterede genmodeller i genprædiktionen. CEGMA-værktøjet blev anvendt til at vurdere fuldstændigheden af dette valg af scaffold-sekvenser. Det blev konstateret, at der stadig var 213 fuldlængdegener, som var fuldstændig tilpasset, hvilket betyder, at det endelige antal genannotationer repræsenterer mindst 85 % af det sande antal gener (Additional file 3: Table S3). Genmodeller fra maskerede L. minor-genomsekvenser blev forudsagt og annoteret med den ab initio- og homologibaserede genprædiktionspipeline MAKER-P (Additional file 7: Tabel S6). For at opnå et omfattende sæt af L. minor-genmodeller blev RNA isoleret og sekventeret fra L. minor-planter dyrket under sunde vækstbetingelser og fra L. minor-planter, der var udsat for forskellige stressbetingelser (herunder uran, gammastråling og Sr-90-behandling). Ved hjælp af Illumina HiSeq-platformen blev der opnået ca. 592 326 402 rene sekventeringsreads efter trimning af adapterreads og reads af lav kvalitet (Yderligere fil 8: Tabel S7). 530 159 transskriptioner blev fremstillet med Trinity de novo assembler, herunder forskellige isoformer pr. transkript . Disse transkriptomiske data fra L. minor, sammen med alle tilgængelige transkripter fra andemadarter Landoltia punctata, Lemna gibba og S. polyrhiza og suppleret med ni proteomer fra monokotyledonplanter, tjente som bevis for genprædiktionsværktøjerne SNAP og Augustus inside Maker-P pipeline. I alt blev der annoteret 22 382 proteinkodende gener, hvoraf 18 744 gener (84 %) havde en AED-score (Annotation Edit Distance) på under 0,25, hvilket kan betragtes som meget præcist (fig. 1d). Selv om antallet af gener er lavere end det antal, der er fundet i andre sekventerede monokotydeplanter, ligner det i høj grad antallet af gener hos den nært beslægtede S. polyrhiza. Dette understøtter hypotesen om, at den lille og strukturelt enkle anatomi hos andemad-arterne gjorde det muligt at miste et antal gener. I gennemsnit bestod genmodellerne af 1934 bp og gennemsnitligt af 4,8 exoner pr. gen (Tabel 2; Additional file 9: Figur S2). Exonlængdefordelingen var i overensstemmelse med andre arter, selv om L. minor intronlængde havde en tendens til at være kortere end hos andre arter, der blev anvendt i sammenligningen (tabel 2). For at vurdere nøjagtigheden af den opnåede annotation blev det komplette sæt af L. minor-proteinerne fra National Center of Biotechnology Information (NCBI) sprængt til L. minor-proteinerne. Det viste sig, at 60 ud af de 61 NCBI-accessioner (downloadet 11-09-2015) kunne tilpasses til mindst én af L. minor-proteinerne (BLASTP , e-værdi på 1e-10) (Additional file 10: Table S8).