- De novo assembly of L. minor genomjának 100× nagyobb Illumina-lefedettséggel történő összeállítása
- A L. minor genom összeállításának 62%-át ismétlődő szekvenciák teszik ki
- Az L. minor 5500 hasonló számú fehérjekódoló gént tartalmaz, mint az S. polyrhiza 7498
- A Lemna proteom többnyire (66.2 %) közös a Spirodela proteommal
- A gén annotációs információ támogatja a genom további funkcionális elemzését és a biomassza termelési alkalmazásokat
De novo assembly of L. minor genomjának 100× nagyobb Illumina-lefedettséggel történő összeállítása
A L. minor 5500-as klónjának genomját áramlási citometriával 481 Mbp-ra becsülték (1b. ábra), és 20 kromoszómapárba tömörül (2n = 40, 1c. ábra). A L. minor genom referenciaszekvenciájának meghatározásához teljes genomiális DNS-t izoláltunk, hogy két páros végű könyvtárat hozzunk létre az Illumina platformra. A nagy lefedettségű 2 × 100 HiSeq könyvtárat egy 2 × 300 MiSeq könyvtárból származó hosszabb leolvasásokkal egészítettük ki. A fragmentumok két vége között nem hagytunk hézagokat, így a páros végű leolvasások névleges fragmentumhossza 200, illetve 600 bp volt. A HiSeq könyvtár 215 721 669 leolvasásból (43 Gbp) állt, ami körülbelül 90×-es genomlefedettséget jelent, míg a Miseq könyvtár 26 270 063 (15 Gbp) leolvasást tartalmazott, ami 30×-es genomlefedettségnek felel meg. Az adaptorok és az ismeretlen vagy rossz minőségű nukleotidokat tartalmazó olvasatok eltávolítása után a fennmaradó 207 985 822 és 24 416 556 jó minőségű olvasatot (87×, illetve 29× lefedettség) használtuk fel a L. minor genom összeállításához (Additional file 1: S1 táblázat). A lehető legjobb szekvencia-tervezet elérése érdekében három különböző összeszerelő programot értékeltünk a de novo összeszereléshez, nevezetesen a SOAPdenovo2-t és a CLC bio-t, amelyek mindkettő de Bruijn-gráf-alapú algoritmust használ, valamint a MaSuRCA-t, amely egy átfedés-alapú összeszerelő algoritmust használ az úgynevezett szuperolvasatokhoz. Az ilyen super-readek a nagy lefedettségű párosított végű olvasatokból egyedileg meghosszabbított rövid olvasatok, amelyek jelentősen tömörítik az adatokat. Ezt követően a kapott összeszereléseket SSPACE-vel dolgoztuk fel tovább az állványozáshoz, majd a Gapcloserrel a hézagok lezárásához egy utolsó lépésben. A contigs/scaffoldok száma, a megfelelő N50 értékek és a mismatch hibák gyakorisága tekintetében azt találtuk, hogy a MaSuRCA által generált draft genom robusztusabb genomszekvenciát generált, mint a SOAPdenovo2 és a CLC bio által generált genomok (Additional file 2: S2. táblázat). A MaSuRCA hibajavító és szuperolvasási folyamatai a nyers páros végű leolvasásokat 2 145 090 szuperolvasásra csökkentették, amelyeket e leolvasások közötti páronkénti átfedés kiszámítására alkalmaztunk. Ezekből a szuperolvasásokból a MaSuRCA pipeline 49 027 kontigot (N50 kontig méret 20,9 kbp) és 46 105 scaffoldot (N50 scaffold méret 23,6 kbp) generált, amelyek minimális hossza 1000 bp volt (Additional file 2: S2 táblázat). Ezért a MaSuRCA-ból származó scaffoldokat használtuk a további downstream elemzésekhez.
A CEGMA pipeline segítségével a MaSuRCA által összeállított genomban 233 fehérjekódoló gént (94 %) ismertünk fel a magasan konzervált eukarióta gének (248) közül, amelyek közül 215 gént (86 %) teljesen (>hosszuk 70 %-ában) lefedtek (Additional file 3: S3 táblázat). A de novo összeszerelés pontosságának értékeléséhez egy de novo generált, ugyanabból az L. minor törzsből származó transzkriptumkészletet igazítottunk a scaffoldokhoz. A BLAT szoftver segítségével megállapítottuk, hogy a megtisztított transzkriptek ~97 %-a illeszkedett legalább egy állványzathoz, ≥95 %-os lefedettséggel és ≥90 %-os szekvenciaazonossággal (Additional file 4: S4 táblázat). A végső összeállított szekvencia 472 128 703 bázist fedett le 46 047 állványzatba ágyazva, az N50 hossz 23 801 bázis, ha az 1000 bp vagy annál kisebb állványzatokat kizárjuk. Ez a hossz hasonló a Kmergenie segítségével megjósolt genom méretéhez, amely a k-mer statisztikák alapján 475 Mbp-ra, illetve áramlási citometria segítségével 481 Mbp-ra becsülte az összeállítás méretét (1b. ábra). Ezért a nukleáris DNS-tartalom arányában a L. minor genomszekvenciát majdnem teljes mértékben (98,15 %) lefedték az összerakott állványok. A 2 kbp vagy annál nagyobb szekvenciahosszúságú állványok a de novo összeszerelt genomszekvencia mintegy 96 %-át fedték le, amelyből 17 állvány legalább 0,5 Mbp szekvenciahosszúságú volt (Additional file 5: S1 ábra). A rendelkezésre álló L. minor kloroplasztisz DNS-adatok felhasználásával a L. minor 5500-as klónjának teljes kloroplasztisz genomját úgy kaptuk meg, hogy az NGS leolvasásokat BWA segítségével a Genbank L. minor kloroplasztisz genomjával (NC_010109.1) mint referenciával igazítottuk. Ez a kloroplasztisz genom 165,9 Mbp volt, és 48 variánst tartalmazott 117 bp (0,07 %) viszonylatban a Genbank referenciaszekvenciához képest, amely eredetileg egy másik klón/ekotípusból származik (Additional file 6: Table S5).
A L. minor genomjának szekvenálásához ebben a tanulmányban teljes genom shotgun megközelítést alkalmaztunk, kizárólag párosított végű leolvasási könyvtárak de novo összeállításával, ami mérsékelt N50 értéket eredményezett. A párpáros könyvtárak hiánya jelentősen befolyásolja a scaffoldok méretét és így az N50 értéket is. A páros végű leolvasásokból álló könyvtárak egyszerűen nem képesek átfogni a genom sok ismétlődő szekvenciáját, különösen a növényi genomokban, amelyek köztudottan nagy mennyiségű ismétlődő szekvenciával rendelkeznek. A párpáros könyvtárak bevonása hosszabb scaffoldokat eredményezne, így az N50 értékek 10-100-szor magasabbak lennének . A mi genom-összeállításunk több mint 20 kbp N50 értéket tartalmaz, ami összehasonlítható a Cannabis sativa és a Phoenix dactylifera genom-összeállítások N50 értékével . Továbbá, más szekvenált növényi genom-összeállítások generált N50 értékei, amelyeknél nem szerepelnek páros könyvtárak (scaffold N50 érték), szintén összhangban vannak az itt kapott scaffold N50 értékkel . Ez arra utal, hogy az előállított L. minor összeállítás a nem ismétlődő szekvenciák nagy részét lefedi. A genomszekvencia minőségének javításához új szekvenáló könyvtárakra lehet szükség olyan térképezési információkkal együtt, mint a fizikai térképek, optikai térképek vagy citogenetikai térképek, hogy elemezni lehessen az összehasonlító genomikát, a teljes genom duplikációkat vagy a genom evolúcióját a kacsafélékben. A jelenlegi összeállítás azonban lehetővé teszi a L. minor genom alapvető elemeinek (pl. ismétlődés- és géntartalom) jellemzését.
A L. minor genom összeállításának 62%-át ismétlődő szekvenciák teszik ki
A homológián alapuló összehasonlítások kimutatták, hogy a L. minor genom összeállításának 62%-a ismétlődő szekvenciákból áll (1. táblázat). Az ismétlődéseket retrotranszpozonok (31,20 %), DNS-transzpozonok (5,08 %), tandem ismétlődések (3,91 %) és egyéb nem osztályozott ismétlődések (21,27 %) kategóriájába sorolták. A hosszú terminális ismétlődésű (LTR) retrotranszpozonok a transzpozíciós elemek uralkodó osztálya (29,57 %), ami összhangban van más növényi genomokkal.
A leggyakoribb transzpozoncsaládok a cigány és a kopia voltak, amelyek a genom 10,59, illetve 18,79 %-át tették ki. A DNS-transzponálható elemek esetében azt találtuk, hogy a DNS_hAT-Ac elemek voltak a legelterjedtebbek, amelyek a nukleáris genom közel 2,7 %-át tették ki. A repetitív szekvenciák magas aránya magyarázatot adhat a L. minor 8623-as klón heterokromatin-jelzések szétszórt eloszlására (377 Mbp, ). Tekintettel arra, hogy a különböző L. minor klónok genomméretének plaszticitása (323 és 760 Mbp között) a különböző repetitív amplifikáció és/vagy a közelmúltbeli teljes genom duplikációk eredménye lehet, érdekes a különböző L. minor földrajzi klónok repetitív tartalmának és kariotípusának vizsgálata. A S. polyrhiza genomjával összehasonlítva, amely a legősibb kacsafű genomja, az L. minorban az ismétlődő amplifikáció a két kacsafű referencia genom közötti genomméretbeli különbség 94,5 %-át magyarázza. Meglepő módon az L. minor genomban az LTR copia nagyobb mennyiségben fordul elő, mint az LTR cigány. A cigány/kopia arány az L. minorban 0,56, míg a S. polyrhiza megfelelő aránya 3,5 . Bár az ismétlődések azonosítási módszerünk összeszerelésfüggő, ami azt jelenti, hogy az ismétlődéstartalmat alulbecsülhetjük, és magas az osztályozatlan ismétlődések aránya (34,37 % ismétlődéstartalom, 1. táblázat), az L. minorban az ismétlődéstartalom arra utal, hogy az LTR retrotranszpozonok amplifikációja fontos szerepet játszott a kacsafű genomjának evolúciójában. A publikált vagy folyamatban lévő kacsafű genom szekvenálási projektek részletesebb ismétlődési jellemzése több fényt vethetne erre az érdekes történetre.
Az L. minor 5500 hasonló számú fehérjekódoló gént tartalmaz, mint az S. polyrhiza 7498
A génpredikcióhoz 2 kbp vagy annál hosszabb szekvenciákat választottunk, mivel a génprediktorok a gén pontos működéséhez bizonyos mennyiségű, a gén előtt és után elhelyezkedő szekvenciát igényelnek. Ezért a 2 kbp-nál kisebb scaffoldokat kihagytuk, hogy csökkentsük a génpredikcióban a hamis pozitív hibákat és a töredezett génmodelleket. A CEGMA eszközt használtuk a szekvenciák e kiválasztásának teljességének értékelésére. Megállapítottuk, hogy még mindig 213 teljes hosszúságú gént sikerült teljesen összehangolni, ami azt jelenti, hogy a génannotáció végleges száma a gének valódi számának legalább 85 %-át képviseli (Additional file 3: S3 táblázat). A maszkolt L. minor genomszekvenciákból származó génmodelleket a MAKER-P ab initio és homológia alapú génpredikciós csővezetékkel prediktáltuk és annotáltuk (7. kiegészítő fájl: S6. táblázat). A L. minor génmodellek átfogó készletének megszerzése érdekében RNS-t izoláltunk és szekvenáltunk egészséges növekedési körülmények között termesztett L. minor növényekből, valamint különböző stresszkörülményeknek (többek között urán, gamma-sugárzás és Sr-90 kezelés) kitett L. minor növényekből. Az Illumina HiSeq platform segítségével körülbelül 592 326 402 tiszta szekvenálási olvasatot kaptunk az adapter és a gyenge minőségű olvasatok trimmelése után (Additional file 8: Table S7). A Trinity de novo assemblerrel 530 159 transzkriptet állítottunk elő, beleértve a különböző izoformákat transzkriptenként. Ezek a L. minor transzkriptomikai adatai, a Landoltia punctata, Lemna gibba és S. polyrhiza kacsafű fajok összes rendelkezésre álló transzkriptumával együtt, valamint az egyszikű növények kilenc proteomjával kiegészítve, bizonyítékként szolgáltak a SNAP és Augustus gén-előrejelző eszközökhöz a Maker-P csővezetéken belül. Összesen 22 382 fehérjekódoló gént annotáltak, amelyek közül 18 744 gén (84 %) tartalmazott 0,25 alatti AED (Annotation Edit Distance) pontszámot, ami nagy pontosságúnak tekinthető (1d. ábra). Bár a gének száma alacsonyabb, mint a más szekvenált egyszikű növényeknél találtak, nagyon hasonló volt a közeli rokon S. polyrhiza génszámához. Ez alátámasztja azt a hipotézist, hogy a kacsafűfajok kicsi és szerkezetileg egyszerű anatómiája lehetővé tette a gének számának elvesztését. A génmodellek átlagosan 1934 bp-ból és átlagosan 4,8 exonból álltak génenként (2. táblázat; 9. kiegészítő fájl: S2 ábra). Az exonhossz-eloszlás összhangban volt más fajokkal, bár a L. minor intronhossza általában rövidebb volt, mint az összehasonlításban használt más fajoké (2. táblázat). A kapott annotáció pontosságának értékeléséhez a National Center of Biotechnology Information (NCBI) L. minor fehérjék teljes készletét blastoltuk a L. minor fehérjékhez. Kiderült, hogy a 61 NCBI-hozzáférésből (letöltve 2015. szeptember 11-én) 60 illeszthető legalább egy L. minor fehérjéhez (BLASTP , e-érték 1e-10) (Additional file 10: Table S8).
Mivel a L. minor genomját WGS-megközelítéssel szekvenálták, párpár-könyvtárak használata vagy fizikai térkép készítése nélkül, nem kizárt, hogy egyes allélokat egyedi génekként annotáltak. A heterozigozitás ugyanis az aszexuális egyedeknél az ivaros fajokhoz képest gyakoribb a mutációk klonális vonalakban történő felhalmozódása révén . Cole és Voskuil tanulmánya kimutatta, hogy ez a L. minor populációra is igaz . Ha azonban a MaSuRCA csővezetéket használjuk a de Bruijn-gráf alapú összeszerelési megközelítés helyett, az átfedés-kiosztás-konszenzus megközelítés miatt a MaSuRCA legyőzi a heterozigozitás által okozott ismétlődő szekvenciákat, hibákat, alacsony lefedettségű régiókat és kis szerkezeti különbségeket . A de novo annotáció pontosságának értékeléséhez megvizsgáltuk a de novo létrehozott transzkriptumok arányát az annotált transzkriptomban. Összesen 179 736 különböző RNS-transzkriptumot készített a Transdecoder, amelyek közül 179 734-et sikerült leképezni az annotált transzkriptumokhoz (BLASTN , e-érték 1e-30).
A Lemna proteom többnyire (66.2 %) közös a Spirodela proteommal
A L. minor és általában a kacsvirágok géntartalmának tanulmányozására megvizsgáltuk a L. minor és a S. polyrhiza génjei és két másik, magasan annotált monokotikus növény szekvencia-hasonlóságát. Ezért az L. minor 22 382 géntermékét OrthoMCL segítségével ortológ és paralóg csoportokba klasztereztük a S. polyrhiza, az Oryza sativa és a Zea mays 107 716 géntermékével. Bár a három génannotációs készlet különböző számú génmodellt tartalmaz, ami tükrözi az eltérő annotációs történetet, ez az összehasonlítás jelezte az összeállításunk általános teljességét. Összefoglalva, mind a négy fajban 8202 ortológ csoport konzerválódott, ami a benyújtott gének 39%-át teszi ki (2a. ábra). A 3546 L. minor singleton gén mellett (nem az OrthoMCL szerint csoportosítva, az összes L. minor gén 15,8 %-a) összesen 795 paralóg csoport, amelyek 2897 gént (12,9 %) képviselnek, csak a L. minorra jellemzőek voltak (11. kiegészítő fájl: S9. táblázat). Ezt a két csoportból származó 6443 gént a továbbiakban Lemna-specifikus géneknek nevezzük ebben a tanulmányban. A közelebbi rokonságban álló fajoknál várhatóan több hasonló génmodell található. Ennek eredményeként 14 830 L. minor génnek (66,2 %) van ortológja a S. polyrhiza-ban, míg a többi 1109 L. minor génnek (4,9 %) vagy az O. sativa-ban, vagy a Z. mays-ban, vagy mindkettőben van ortológja, de a S. polyrhiza-ban nem (2b. ábra). Továbbá azt találták, hogy az L. minor 1821 génje (8,13 %) osztozott egyedi hasonlóságban legalább egy S. polyrhiza génnel, amelyeket a továbbiakban kacsafű-specifikus géneknek nevezünk.
A S. polyrhiza genomban kimutatták, hogy az evolúció során (kb. 90 Mya) a teljes genom duplikációjának két ősi fordulója volt. Az S. polyrhiza és négy reprezentatív növényfaj (Arabidopsis, paradicsom, banán és rizs) géncsaládjainak összehasonlítása során az S. polyrhiza alacsony génkópiaszámát a duplikált gének preferált génveszteségére utalt . Érdekes lenne tanulmányozni a génszámot és a géncsaládok viszonyát más, folyamatban lévő Lemna genomokban, mint például a L. gibba G3 DWC131 (450 Mbp) és a Lemna minor 8627 klón (800 Mbp) . Elképzelhető, hogy a Lemna fajok ősi genomja a L. minor és a S. polyrhiza nemzetségek közötti szétválást követően legalább egy újabb teljes genom duplikációt tartalmazott, amelyet a duplikált gének különböző mértékű géneltávolítási folyamatai követtek, ami különböző, 323 és 760 Mbp közötti genommérettel rendelkező Lemna fajokat eredményezett. A legkiterjedtebb génvesztés az összes génszám csökkenését eredményezheti, mint például az L. minor 5500 esetében. Egy alternatív hipotézis viszont az lehet, hogy az L. minor 5500 a Lemna ős genomját képviseli, amely hasonló géntartalmat tartalmaz, mint a Spirodela genomja. Más, nagyobb genomú Lemna-fajok nagyobb ismétlődési expanzióból vagy nagyon friss és független teljes genomduplikációkból fejlődhettek ki. Ezt a hipotézist a jövőbeni munkával lehet tesztelni, amely a S. polyrhiza 7498 genom (2n = 40, 158 Mbp) és az L. minor 5500 genom (2n = 40, 481 Mbp) közötti makroszintű kapcsolatot vizsgálja.
A gén annotációs információ támogatja a genom további funkcionális elemzését és a biomassza termelési alkalmazásokat
A L. minor génmodellek feltételezett funkcióinak azonosítása érdekében szekvencia hasonlósági keresést végeztünk az Arabidopsis thaliana és az O. sativa Swiss-Prot fehérje szekvenciáival (BLASTP , e-érték 1e-5). Ezt követően a transzkripteket Gene Ontology (GO) és Pfam kifejezésekkel annotáltuk az Interproscan 5 helyi telepítésével és KEGG útvonalak feltérképezésével a KEGG Automatic Annotation Server (KAAS) segítségével. A pfam-A adatbázis több mint 13 672 konzervált fehérjecsalád rejtett Markov-modelljét tartalmazza. A GO projekt a géntermékek tulajdonságait reprezentáló meghatározott kifejezések ontológiáját biztosítja, amely három területet fed le: sejtkomponens, molekuláris funkció és biológiai folyamat. A KAAS eredménye KO (KEGG Orthology) hozzárendeléseket és automatikusan generált KEGG útvonalakat tartalmaz. Összesen 21 263 génmodell (95 %) kapott annotációs kapcsolatot a bevont adatbázisok legalább egyikével, amelyek közül 18 597 (83,1 %) egy vagy több Pfam-tartományhoz, 7329 (32,7 %) KEGG-ontológia terminushoz, és 15 512 (69,3 %) fehérjét sikeresen annotáltak Gene Ontology terminusokkal. Az L. minor GO-terminusai összességében hasonlóságot mutatnak a S. polyrhiza, O. sativa és Z. mays GO-jelöléseivel (3. ábra, 12. kiegészítő fájl: S3 ábra; 13. kiegészítő fájl: S10 táblázat). A két kacsafűfaj közötti GO-gazdagodási elemzés azt mutatja, hogy a L. minor proteom 24 felülreprezentált és 15 alulreprezentált GO-terminust tartalmaz szignifikáns FDR <0,05 értékkel (3. ábra; 14. kiegészítő fájl: S11. táblázat). A L. minor 5500-ban feldúsult fehérjék közé tartoztak (1) a katabolikus folyamatokban részt vevő enzimek (GO:9056, 422 fehérje), hidroláz aktivitás (GO:16787, 2739 fehérje); (2) a különböző ingerekre reagáló fehérjék (pl, stressz (GO:6950, 529 fehérje), abiotikus inger (GO:9628, 86 fehérje), extracelluláris inger (GO:9991, 19 fehérje), endogén inger (GO:9719, 55 fehérje); és (3) bioszintézis folyamatok (pl. prekurzor metabolitok és energia (GO:6091, 258 fehérje), DNS metabolikus folyamat (GO:6259, 350 fehérje), szénhidrát metabolikus folyamat (GO:5975, 776 fehérje). Ezek a fehérjék hozzájárulhatnak a L. minor azon képességéhez, hogy (1) eltávolítsa a felesleges tápanyagokat a szennyvízből, (2) alkalmazkodjon a különböző éghajlati viszonyokhoz, ami világméretű elterjedését eredményezi, és (3) táplálkozási értéket és magas biomassza termelékenységet biztosítson. Érdekes módon 2381 L. minor specifikus gén (36,9 %) és 326 L. minor tandemduplikált gén (17,4 %) van jelen a felülreprezentált GO-kifejezések között. Továbbá a L. minor 12 glutaminsintetázt (GS) és 21 glutamát-szintázt (GOGAT) kódoló szekvenciát tartalmaz, szemben a S. polyrhiza 7, illetve 11 szekvenciájával (Additional files 15, 16: S4, S5 ábra; Additional file 17: S12 táblázat). Mindkét enzim az ammónium-asszimilációt szabályozza, amely fontos biokémiai útvonal a L. minor szennyvíz-helyreállításban való felhasználása szempontjából, esetleg energiatermeléssel kombinálva. Ezért ezek az amplifikált gének, amelyek a neofunkcionalizáció révén új funkciókat hozhatnak létre, potenciális jelöltek lehetnek további funkcionális vizsgálatokra, mivel hatékony transzformációs protokollok állnak rendelkezésre a L. minor számára .