De novo assembly of L. minor s větším 100× pokrytím Illumina

Genom L. minor klonu 5500 byl průtokovou cytometrií odhadnut na 481 Mbp (obr. 1b) a je zhutněn do 20 chromozomových párů (2n = 40, obr. 1c). Za účelem získání referenční sekvence genomu L. minor byla izolována celková genomová DNA pro vytvoření dvou knihoven s párovým koncem pro platformu Illumina. Knihovna 2 × 100 HiSeq s vysokým pokrytím byla doplněna delšími čteními z knihovny 2 × 300 MiSeq. Mezi oběma konci fragmentů nebyly zahrnuty žádné mezery, což vedlo k párovým čtením o nominální délce fragmentu 200 a 600 bp. Knihovna HiSeq obsahovala 215 721 669 čtení (43 Gbp), což představuje přibližně 90× pokrytí genomu, zatímco knihovna Miseq obsahovala 26 270 063 čtení (15 Gbp), což odpovídá 30× pokrytí genomu. Po odstranění adaptérů a čtení obsahujících neznámé nebo nekvalitní nukleotidy bylo zbývajících 207 985 822 a 24 416 556 vysoce kvalitních čtení (pokrytí 87× a 29×) použito k sestavení genomu L. minor (Additional file 1: Table S1). Pro získání co nejlepšího návrhu sekvence byly pro de novo sestavení hodnoceny tři různé sestavovací programy, a to SOAPdenovo2 a CLC bio, oba využívající algoritmus založený na de Bruijnově grafu, a MaSuRCA, který využívá sestavovací algoritmus založený na překrývání tzv. superčtení. Taková superčtení jsou unikátně prodloužená krátká čtení z párových čtení s vysokým pokrytím, která výrazně komprimují data. Následně byla získaná sestavení dále zpracována pomocí SSPACE k sestavení lešení a Gapcloser k uzavření mezer v posledním kroku. S ohledem na počet kontigů/scaffoldů, odpovídající hodnoty N50 a četnost chyb v neshodách bylo zjištěno, že draft genomu vytvořený pomocí MaSuRCA generuje robustnější sekvenci genomu ve srovnání s genomy vytvořenými pomocí SOAPdenovo2 a CLC bio (doplňkový soubor 2: tabulka S2). Procesy MaSuRCA pro opravu chyb a superčtení zredukovaly surová párová čtení na 2 145 090 superčtení, která byla použita pro výpočet párového překryvu mezi těmito čteními. Z těchto super-čtení pipeline MaSuRCA vygenerovala 49 027 kontigů (velikost N50 kontigu 20,9 kbp) a 46 105 scaffoldů (velikost N50 scaffoldu 23,6 kbp) o minimální délce 1000 bp (Additional file 2: Table S2). Proto byly scaffoldy získané z MaSuRCA použity pro další následnou analýzu.

Pomocí pipeline CEGMA bylo v sestaveném genomu MaSuRCA rozpoznáno 233 protein kódujících genů (94 %) ze souboru vysoce konzervovaných eukaryotických genů (248), z nichž 215 genů (86 %) bylo zcela pokryto (>70 % jejich délky) (doplňkový soubor 3: tabulka S3). Pro posouzení přesnosti sestavení de novo byla ke scaffoldům zarovnána de novo vytvořená sada transkriptů pocházejících ze stejného kmene L. minor. Pomocí softwaru BLAT bylo zjištěno, že ~97 % vyčištěných transkriptů se zarovnalo alespoň k jednomu scaffoldu s ≥95 % pokrytím a ≥90 % sekvenční identitou (Additional file 4: Table S4). Konečná sestavená sekvence zahrnovala 472 128 703 bází vložených do 46 047 scaffoldů s délkou N50 23 801 bází, pokud se vyloučí scaffoldy o délce 1000 bp nebo menší. Tato délka je podobná předpovězené velikosti genomu pomocí programu Kmergenie, který odhadl velikost sestavy na 475 Mbp na základě statistiky k-merů nebo na 481 Mbp pomocí průtokové cytometrie (obr. 1b). V poměru k obsahu jaderné DNA byla tedy sekvence genomu L. minor téměř plně (98,15 %) pokryta sestavenými scaffoldy. Scaffoldy s délkou sekvence 2 kbp nebo více pokrývaly přibližně 96 % velikosti sekvence de novo sestaveného genomu, z toho 17 scaffoldů mělo minimální délku sekvence 0,5 Mbp (Additional file 5: Figure S1). S využitím dostupných údajů o chloroplastové DNA L. minor zde byl získán úplný chloroplastový genom klonu L. minor 5500 zarovnáním čtení NGS pomocí BWA s genomem chloroplastu L. minor Genbank jako referencí (NC_010109.1) . Tento chloroplastový genom měl 165,9 Mbp a obsahoval 48 variant týkajících se 117 bp (0,07 %) ve srovnání s referenční sekvencí Genbank, která pochází z jiného klonu/ekotypu (Additional file 6: Table S5).

Obr. 2
obr. 2

Vennův diagram znázorňující shluky ortologických a paralogických genových rodin u L. minor, S. polyrhiza, Z. mays a O. sativa identifikovaných pomocí OrthoMCL. Číslo genové rodiny je uvedeno v každé ze složek; počet genů v rámci rodin pro všechny druhy v rámci složky je zaznamenán v závorkách

V této studii byl pro sekvenování genomu L. minor použit celogenomový shotgun přístup s použitím de novo sestavení výhradně párových knihoven čtení, což vedlo k mírné hodnotě N50. Absence párových knihoven má významný vliv na velikost scaffoldů, a tím i na hodnotu N50. Knihovny párových čtení jednoduše nemohou obsáhnout mnoho repetitivních sekvencí v genomu, zejména u rostlinných genomů, o kterých je známo, že mají vysoké množství repetitivních sekvencí . Zapojení souboru párových knihoven by vedlo k vytvoření delších scaffoldů, díky čemuž by hodnoty N50 byly 10-100krát vyšší . Naše sestava genomu obsahuje scaffold N50 o hodnotě více než 20 kbp, což je srovnatelné s hodnotou scaffoldu N50 sestav genomů Cannabis sativa a Phoenix dactylifera . Kromě toho jsou vygenerované hodnoty N50 jiných sekvenovaných genomových sestav rostlin, u nichž nejsou zahrnuty knihovny mate-párů (hodnota scaffold N50), také v souladu se zde získanou hodnotou scaffold N50 . To naznačuje, že vytvořená sestava L. minor pokrývá většinu neopakovaných sekvencí. Ke zlepšení kvality sekvencí genomu může být zapotřebí nových sekvenačních knihoven spolu s mapovacími informacemi, jako jsou fyzické mapy, optické mapy nebo cytogenetické mapy, aby bylo možné analyzovat srovnávací genomiku, celogenomové duplikace nebo evoluci genomu u druhů kachen. Současná sestava nám však umožňuje charakterizovat základní prvky (např. obsah repetic a genů) genomu L. minor.

Repetitivní sekvence tvoří 62 % sestavy genomu L. minor

Srovnání na základě homologie ukázala, že 62 % sestavy genomu L. minor tvoří repetitivní sekvence (tabulka 1). Opakování byla rozdělena na retrotranspozony (31,20 %), DNA transpozony (5,08 %), tandemová opakování (3,91 %) a ostatní nezařazená opakování (21,27 %). Retrotranspozony s dlouhými terminálními repeticemi (LTR) jsou převažující třídou transpozabilních elementů (29,57 %), což odpovídá genomům jiných rostlin.

Tabulka 1 De novo identifikace sekvenčních repetic v genomu L. minor

Nejpočetnějšími rodinami transpozonů byly gypsy a copia, které se podílely na 10,59 %, resp. 18,79 % genomu. U DNA transpozabilních elementů bylo zjištěno, že nejhojnější byly elementy DNA_hAT-Ac, které pokrývaly téměř 2,7 % jaderného genomu. Vysoký podíl repetitivních sekvencí by mohl vysvětlit rozptýlenou distribuci heterochromatinových znaků klonu L. minor 8623 (377 Mbp, ). Vzhledem k tomu, že plasticita velikosti genomu u různých klonů L. minor (v rozmezí od 323 do 760 Mbp) by mohla být důsledkem rozdílné repetitivní amplifikace a/nebo nedávných celogenomových duplikací, je zajímavé studovat obsah repetic a karyotyp různých geografických klonů L. minor. Ve srovnání s genomem S. polyrhiza, který je nejstarší kachničkou, by opakovaná amplifikace u L. minor mohla vysvětlit 94,5 % rozdílu ve velikosti genomu mezi dvěma referenčními genomy kachniček. Překvapivě je LTR kopie v genomu L. minor hojnější než LTR cikánka. Poměr gypsy/copia u L. minor je 0,56, zatímco odpovídající poměr u S. polyrhiza je 3,5 . Přestože naše metoda identifikace repetic je závislá na sestavě, což znamená, že obsah repetic může být podhodnocený a vysoký podíl neklasifikovaných repetic (34,37 % obsahu repetic, tab. 1), obsah repetic v L. minor naznačuje, že amplifikace LTR retrotranspozonů hrála důležitou roli v evoluci genomu kachničky. Podrobnější charakterizace repetic v publikovaných nebo probíhajících projektech sekvenování genomů kachnovitých by mohla vnést více světla do tohoto zajímavého příběhu.

L. minor 5500 obsahuje podobný počet genů kódujících proteiny jako S. polyrhiza 7498

Pro predikci genů byly vybrány sklady o velikosti 2 kbp nebo delší, protože prediktory genů vyžadují pro přesnou práci určité množství sekvence před a za genem. Proto byly scaffoldy menší než 2 kbp vynechány, aby se snížily falešně pozitivní chyby a fragmentované modely genů při predikci genů. K posouzení úplnosti tohoto výběru sekvencí lešení byl použit nástroj CEGMA. Bylo zjištěno, že stále 213 genů plné délky bylo kompletně zarovnáno, což znamená, že konečný počet genových anotací představuje nejméně 85 % skutečného počtu genů (Additional file 3: Table S3). Modely genů z maskovaných sekvencí genomu L. minor byly predikovány a anotovány pomocí pipeline MAKER-P pro predikci genů založené na ab initio a homologii (Additional file 7: Table S6). Pro získání komplexní sady genových modelů L. minor byla izolována a sekvenována RNA z rostlin L. minor pěstovaných za zdravých růstových podmínek a z rostlin L. minor vystavených různým stresovým podmínkám (včetně ošetření uranem, gama zářením a Sr-90). Pomocí platformy Illumina HiSeq bylo po ořezání adaptérů a nekvalitních čtení získáno přibližně 592 326 402 čistých sekvenačních čtení (Additional file 8: Table S7). Pomocí de novo assembleru Trinity bylo získáno 530 159 transkriptů, včetně různých izoforem na transkript . Tato transkriptomická data L. minor spolu se všemi dostupnými transkripty z kachničkovitých druhů Landoltia punctata, Lemna gibba a S. polyrhiza a doplněná devíti proteomy z jednoděložných rostlin posloužila jako důkaz pro nástroje pro predikci genů SNAP a Augustus uvnitř pipeline Maker-P . Celkem bylo anotováno 22 382 genů kódujících proteiny, z nichž 18 744 genů (84 %) obsahovalo skóre AED (Annotation Edit Distance) pod 0,25, což lze považovat za velmi přesné (obr. 1d). Ačkoli je počet genů nižší než počet zjištěný u jiných sekvenovaných jednoděložných rostlin, byl velmi podobný počtu genů u blízce příbuzné S. polyrhiza. To podporuje hypotézu, že malá a strukturně jednoduchá anatomie kachničkovitých druhů umožnila ztratit množství genů. V průměru se modely genů skládaly z 1934 bp a znamenaly 4,8 exonu na gen (tabulka 2; doplňkový soubor 9: obrázek S2). Rozložení délky exonů odpovídalo ostatním druhům, i když délka intronů u L. minor byla spíše kratší než u ostatních druhů použitých ve srovnání (tab. 2). Pro posouzení přesnosti získané anotace byla k proteinům L. minor přiřazena kompletní sada proteinů L. minor z Národního centra biotechnologických informací (NCBI). Ukázalo se, že 60 z 61 přístupů NCBI (staženo 11-09-2015) lze přiřadit alespoň k jednomu z proteinů L. minor (BLASTP , e-hodnota 1e-10) (Additional file 10: Table S8).

Tabulka 2 Přehled vlastností genů z L. minor. minor a tří dalších jednoděložných rostlin

Jelikož byl genom L. minor sekvenován metodou WGS bez použití knihoven mate-párů nebo konstrukce fyzické mapy, není vyloučeno, že některé alely mohly být anotovány jako jednotlivé geny. Heterozygotnost je totiž častější u asexuálních jedinců ve srovnání s pohlavními druhy díky akumulaci mutací v klonálních liniích . Studie Colea a Voskuila odhalila, že to platí i pro populaci L. minor . Při použití pipeline MaSuRCA namísto de Bruijnova přístupu založeného na sestavování grafů však překonává opakující se sekvence, chyby, oblasti s nízkým pokrytím a malé strukturní rozdíly způsobené heterozygozitou díky svému přístupu založenému na překrývání a rozložení konsenzu . Pro posouzení přesnosti de novo anotace jsme zkoumali podíl de novo vytvořených transkriptů zastoupených v anotovaném transkriptomu. Pomocí programu Transdecoder bylo vytvořeno celkem 179 736 různých transkriptů RNA, z nichž 179 734 bylo možné namapovat na anotované transkripty (BLASTN , e-hodnota 1e-30).

Proteom Lemna je z větší části (66 %) tvořen bílkovinami.2 %) sdílený s proteomem Spirodela

Pro studium genového obsahu L. minor a kačenky obecně jsme zkoumali sekvenční podobnost genů L. minor a S. polyrhiza s dalšími dvěma vysoce anotovanými jednoděložnými rostlinami. Proto bylo 22 382 genových produktů L. minor shlukováno do ortologických a paralogických skupin se 107 716 genovými produkty z S. polyrhiza, Oryza sativa a Zea mays pomocí OrthoMCL . Přestože tyto tři sady genových anotací obsahují různý počet genových modelů, což odráží rozdílnou historii anotací, toto srovnání poskytlo představu o celkové úplnosti naší sestavy. Celkově bylo u všech čtyř druhů zachováno 8202 ortologických skupin, které obsahovaly 39 % předložených genů (obr. 2a). Kromě 3546 singletonových genů L. minor (neseskupených podle OrthoMCL, 15,8 % z celkového počtu genů L. minor) bylo pro L. minor unikátních celkem 795 paralogních skupin představujících 2897 genů (12,9 %) (Additional file 11: Table S9). Těchto 6443 genů ze dvou skupin je v této studii dále označováno jako geny specifické pro Lemnu. U příbuznějších druhů by se očekával vyšší počet podobných genových modelů. Výsledkem je, že 14 830 genů L. minor (66,2 %) má ortology v S. polyrhiza, zatímco dalších 1109 genů L. minor (4,9 %) má ortology buď v O. sativa, Z. mays, nebo v obou, ale ne v S. polyrhiza (obr. 2b). Dále bylo zjištěno, že 1821 genů (8,13 %) L. minor sdílí jedinečnou podobnost s alespoň jedním genem ze S. polyrhiza, které jsou dále označovány jako geny specifické pro kachničku.

U genomu S. polyrhiza bylo prokázáno, že během evoluce došlo ke dvěma dávným kolům duplikací celého genomu (cca 90 Mya) . Při srovnání genových rodin mezi S. polyrhiza a čtyřmi reprezentativními druhy rostlin (Arabidopsis, rajče, banán a rýže) naznačoval nízký počet genových kopií u S. polyrhiza přednostní ztráty duplikovaných genů . Bylo by zajímavé studovat počet genů a vztah genových rodin dalších genomů Lemna, které se připravují, např. genomu L. gibba G3 DWC131 (450 Mbp) a Lemna minor klon 8627 (800 Mbp) . Lze předpokládat, že genom předků druhu Lemna obsahoval nejméně jednu nedávnou celogenomovou duplikaci po rozdělení mezi rody L. minor a S. polyrhiza, po níž následoval různý stupeň procesů odstranění duplikovaných genů, což vedlo ke vzniku různých druhů Lemna s velikostí genomu od 323 do 760 Mbp . Nejrozsáhlejší ztráta genů může vést ke snížení celkového počtu genů, jako je tomu v případě L. minor 5500. Alternativní hypotézou by naopak mohlo být, že L. minor 5500 představuje genom předka Lemny, který obsahuje podobný obsah genů jako genom Spirodela. Ostatní druhy Lemna s větším genomem se mohly vyvinout z větší expanze opakování nebo z velmi nedávných a nezávislých duplikací celého genomu. Tuto hypotézu by mohla ověřit budoucí práce, která bude studovat vztah makrosyntézy mezi genomem S. polyrhiza 7498 (2n = 40, 158 Mbp) a genomem L. minor 5500 (2n = 40, 481 Mbp).

Informace o anotaci genů podporují další funkční analýzu genomu a aplikace pro produkci biomasy

Pro identifikaci předpokládaných funkcí genových modelů L. minor bylo provedeno vyhledávání sekvenční podobnosti se sekvencemi proteinů Swiss-Prot Arabidopsis thaliana a O. sativa (BLASTP , e-hodnota 1e-5). Následně byly transkripty anotovány pomocí termínů genové ontologie (GO) a Pfam pomocí lokální instalace programu Interproscan 5 a mapování drah KEGG pomocí serveru KEGG Automatic Annotation Server (KAAS) . Databáze pfam-A poskytuje profilové skryté Markovovy modely více než 13 672 konzervovaných proteinových rodin . Projekt GO poskytuje ontologii definovaných termínů reprezentujících vlastnosti genových produktů, která pokrývá tři oblasti: buněčnou složku, molekulární funkci a biologický proces. Výsledek KAAS obsahuje přiřazení KO (KEGG Orthology) a automaticky generované dráhy KEGG. Celkem 21 263 genových modelů (95 %) získalo anotační spojení alespoň s jednou ze zahrnutých databází, z nichž 18 597 (83,1 %) bylo přiřazeno k jedné nebo více doménám Pfam, 7329 (32,7 %) k termínu ontologie KEGG a 15 512 (69,3 %) proteinů bylo úspěšně anotováno termíny genové ontologie. GO termíny L. minor vykazují celkovou podobnost s GO anotacemi S. polyrhiza, O. sativa a Z. mays (obr. 3, Additional file 12: Figure S3; Additional file 13: Table S10). Analýza obohacení GO mezi oběma druhy kačenek ukazuje, že proteom L. minor obsahuje 24 nadreprezentovaných a 15 podreprezentovaných GO termínů s významnou FDR <0,05 (obr. 3; doplňkový soubor 14: tabulka S11). Obohacené proteiny u L. minor 5500 zahrnovaly (1) enzymy zapojené do katabolických procesů (GO:9056, 422 proteinů), hydrolázovou aktivitu (GO:16787, 2739 proteinů); (2) proteiny v reakci na různé podněty (např, stres (GO:6950, 529 proteinů), abiotický stimul (GO:9628, 86 proteinů), extracelulární stimul (GO:9991, 19 proteinů), endogenní stimul (GO:9719, 55 proteinů); a (3) procesy biosyntézy (např. prekurzorové metabolity a energie (GO:6091, 258 proteinů), proces metabolismu DNA (GO:6259, 350 proteinů), proces metabolismu sacharidů (GO:5975, 776 proteinů). Tyto proteiny by mohly přispívat ke schopnosti L. minor (1) odstraňovat přebytečné živiny z odpadních vod, (2) přizpůsobovat se různým klimatickým podmínkám, což vede k jejich celosvětovému rozšíření, a (3) poskytovat nutriční hodnotu a vysokou produktivitu biomasy. Zajímavé je, že 2381 specifických genů L. minor (36,9 %) a 326 tandemově duplikovaných genů L. minor (17,4 %) je přítomno v nadreprezentovaných termínech GO. Dále L. minor obsahuje sekvence kódující 12 glutamin syntetáz (GS) a 21 glutamát syntetáz (GOGAT) ve srovnání se 7, resp. 11 sekvencemi u S. polyrhiza (doplňkové soubory 15, 16: obr. S4, S5; doplňkový soubor 17: tabulka S12). Oba enzymy regulují asimilaci amoniaku, což je důležitá biochemická dráha pro využití L. minor při sanaci odpadních vod, případně v kombinaci s produkcí energie . Proto by tyto amplifikované geny, které mohou divergovat a vytvářet nové funkce prostřednictvím neofunkcionalizace, mohly být potenciálními kandidáty pro další funkční studie, protože jsou k dispozici účinné transformační protokoly pro L. minor .

Obr. 3
obr. 3

Srovnání nejdůležitějších rostlinných štíhlých termínů GO pro tři strukturované ontologie mezi L. minor (černá) a S. polyrhiza (žlutá). Specifičtější GO termíny nad/pod zastoupené u L. minor jsou uvedeny vpravo. Symboly hvězdičky označují, že tyto GO termíny jsou významně obohaceny (Fisherův přesný test, FDR <0,05) u L. minor (černá) nebo S. polyrhiza (žlutá) (Fisherův přesný test, FDR <0,05). pro proces, org. organizace, dev. vývoj, TF transkripční faktor

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.