- De novo assembly of L. minorin genomin kokoaminen yli 100-kertaisella Illumina-peittävyydellä
- Repetitiiviset sekvenssit muodostavat 62 % L. minor -lajin genomikokoonpanosta
- L. minor 5500 sisältää samankaltaisen määrän proteiineja koodaavia geenejä kuin S. polyrhiza 7498
- Lemnan proteomi on enimmäkseen (66.2 %) jaettu Spirodela-proteomin kanssa
- Geenien annotaatiotiedot tukevat genomin funktionaalisen analyysin jatkamista ja biomassan tuotantosovelluksia
De novo assembly of L. minorin genomin kokoaminen yli 100-kertaisella Illumina-peittävyydellä
L. minor -kloonin 5500 genomi arvioitiin virtaussytometrialla 481 Mbp:ksi (kuva 1b), ja se on tiivistetty 20 kromosomipariin (2n = 40, kuva 1c). L. minor -lajin genomin referenssisekvenssin saamiseksi genomisen DNA:n kokonaismäärä eristettiin, jotta voitiin luoda kaksi pareittain päättyvää kirjastoa Illumina-alustalle. Korkean kattavuuden omaavaa 2 × 100 HiSeq-kirjastoa täydennettiin pidemmillä lukemilla 2 × 300 MiSeq-kirjastosta. Fragmenttien molempien päiden väliin ei sisällytetty aukkoja, minkä tuloksena saatiin parilukuja, joiden fragmenttien nimellispituudet olivat 200 ja 600 bp. HiSeq-kirjastossa oli 215 721 669 lukua (43 Gbp), mikä vastaa noin 90 ×:n genomipeittoa, kun taas Miseq-kirjastossa oli 26 270 063 lukua (15 Gbp), mikä vastaa 30 ×:n genomipeittoa. Kun adapterit ja lukemat, jotka sisälsivät tuntemattomia tai heikkolaatuisia nukleotideja, oli poistettu, jäljelle jääneitä 207 985 822 ja 24 416 556 korkealaatuista lukua (87×:n ja 29×:n kattavuus) käytettiin L. minor -genomin kokoamiseen (lisätiedosto 1: taulukko S1). Parhaan mahdollisen sekvenssiluonnoksen saamiseksi arvioitiin kolmea eri kokoamisohjelmaa de novo -kokoonpanoa varten: SOAPdenovo2 ja CLC bio, jotka molemmat käyttävät de Bruijnin graafipohjaista algoritmia, sekä MaSuRCA, joka käyttää päällekkäisyyteen perustuvaa kokoamisalgoritmia niin sanottuja superlukuja varten. Tällaiset super-readit ovat ainutlaatuisesti pidennettyjä lyhyitä lukuja korkeapeitteisistä parilukulukemista, jotka pakkaavat dataa merkittävästi. Tämän jälkeen saatuja kokoonpanoja käsiteltiin edelleen SSPACE-ohjelmalla telineiden muodostamiseksi ja Gapcloser-ohjelmalla aukkojen sulkemiseksi viimeisessä vaiheessa. Kontigien/scaffoldien lukumäärän, vastaavien N50-arvojen ja mismatch-virheiden frekvenssin osalta havaittiin, että MaSuRCA:lla tuotettu genomiluonnos tuotti vankemman genomisekvenssin verrattuna SOAPdenovo2:lla ja CLC bio:lla tuotettuihin genomeihin (lisätiedosto 2: taulukko S2). MaSuRCA:n virheenkorjaus- ja superlukuprosessit pienensivät raa’at pareittain luetut lukemat 2 145 090 superlukuun, joita käytettiin näiden lukujen pareittaisen päällekkäisyyden laskemiseen. Näistä superluvuista MaSuRCA-putki tuotti 49 027 contigia (N50 contig-koko 20,9 kbp) ja 46 105 scaffoldia (N50 scaffold-koko 23,6 kbp), joiden vähimmäispituus oli 1000 bp (lisätiedosto 2: taulukko S2). Siksi MaSuRCA:n tuloksena saatuja telineitä käytettiin jatkoanalyyseissä.
Käytettäessä CEGMA-putkea MaSuRCA:lla kootusta genomista tunnistettiin 233 proteiineja koodaavaa geeniä (94 %) erittäin konservoitujen eukaryoottisten geenien joukosta (248), joista 215 geeniä (86 %) oli täysin (>70 % pituudestaan) katettu (Lisätiedosto 3: Taulukko S3). De-novo-kokoonpanon tarkkuuden arvioimiseksi samasta L. minor -kannasta peräisin olevien transkriptien de-novo-sarja kohdistettiin telineisiin. BLAT-ohjelmiston avulla havaittiin, että ~97 prosenttia puhdistetuista transkripteistä oli linjassa vähintään yhden telineen kanssa, kattavuus oli ≥95 prosenttia ja sekvenssi-identiteetti ≥90 prosenttia (lisätiedosto 4: taulukko S4). Lopullinen koottu sekvenssi käsitti 472 128 703 emästä, jotka oli upotettu 46 047 telineeseen, ja N50-pituus oli 23 801 emästä, kun 1000 bp:n tai pienempiä telineitä ei oteta huomioon. Tämä pituus on samankaltainen kuin Kmergenie-ohjelmalla ennustettu genomin koko, joka arvioi kokoonpanon k-mer-tilastojen perusteella 475 Mbp:ksi tai 481 Mbp:ksi virtaussytometriaa käyttäen (kuva 1b). Näin ollen L. minor -lajin genomisekvenssin osuus ydin-DNA:n sisällöstä oli lähes kokonaan (98,15 %) koottujen telineiden peitossa. Telineet, joiden sekvenssin pituus oli vähintään 2 kbp, kattoivat noin 96 prosenttia de novo -genomikokoonpanon sekvenssistä, joista 17:llä oli vähintään 0,5 Mbp:n sekvenssin pituus (lisätiedosto 5: kuva S1). Saatavilla olevien L. minor -kloonin 5500 kloroplastin DNA-tietojen avulla saatiin L. minor -kloonin 5500 täydellinen kloroplastigenomi kohdistamalla NGS-lukemat BWA:n avulla Genbankin L. minor -kloonin kloroplastigenomin kanssa (NC_010109.1). Tämän kloroplastigenomin koko oli 165,9 Mbp, ja se sisälsi 48 varianttia, jotka liittyivät 117 bp:hen (0,07 %) verrattuna Genbankin referenssisekvenssiin, joka on alun perin peräisin eri kloonista/ekotyypistä (lisätiedosto 6: taulukko S5).
Tässä tutkimuksessa L. minorin genomin sekvensointiin käytettiin koko genomin shotgun-menetelmää, jossa käytettiin yksinomaan pareittain luettujen lukukirjastojen de-novo-kokoonpanoa, mikä johti kohtalaiseen N50-arvoon. Mate-pair-kirjastojen puuttuminen vaikuttaa merkittävästi scaffoldien kokoon ja siten myös N50-arvoon. Parilukukirjastot eivät yksinkertaisesti pysty kattamaan monia genomin toistuvia sekvenssejä, varsinkaan kasvigenomeissa, joissa tiedetään olevan paljon toistuvia sekvenssejä. Parilukukirjastojen käyttäminen tuottaisi pidempiä telineitä, jolloin N50-arvot olisivat 10-100 kertaa korkeammat. Meidän genomikokoonpanossamme on yli 20 kbp:n N50-arvo, joka on verrattavissa Cannabis sativan ja Phoenix dactyliferan genomikokoonpanojen N50-arvoihin. Lisäksi muiden sekvensoitujen kasvien genomikokoonpanojen N50-arvot, joihin ei ole sisällytetty mate-pair-kirjastoja (scaffold N50 -arvo), ovat myös linjassa tässä saadun scaffold N50 -arvon kanssa. Tämä viittaa siihen, että tuotettu L. minor -kokoelma kattaa suurimman osan toistamattomista sekvensseistä. Uusia sekvensointikirjastoja yhdessä kartoitustietojen, kuten fyysisten karttojen, optisten karttojen tai sytogeneettisten karttojen, kanssa saatetaan tarvita genomisekvenssin laadun parantamiseksi, jotta voidaan analysoida vertailevaa genomiikkaa, koko genomin duplikaatioita tai genomin evoluutiota sorsalajeissa. Nykyisen kokoonpanon avulla voimme kuitenkin luonnehtia L. minor -lajin genomin peruselementtejä (esim. toisto- ja geenipitoisuutta).
Repetitiiviset sekvenssit muodostavat 62 % L. minor -lajin genomikokoonpanosta
Homologiaan perustuvista vertailuista kävi ilmi, että 62 % L. minor -lajin genomikokoonpanosta koostui toistosekvensseistä (taulukko 1). Toistot luokiteltiin retrotransposoneihin (31,20 %), DNA-transposoneihin (5,08 %), tandemtoistoistoihin (3,91 %) ja muihin luokittelemattomiin toistoihin (21,27 %). Pitkien terminaalisten toistojen (Long terminal repeat, LTR) retrotransposonit ovat transposable elementtien hallitseva luokka (29,57 %), mikä on yhdenmukaista muiden kasvien genomien kanssa.
Runsaslukuisimmat transposoniperheet olivat gypsy- ja copia-lajin perheet, joiden osuus genomista oli 10,59 % ja 18,79 %. DNA:n siirtokelpoisten elementtien osalta havaittiin, että DNA_hAT-Ac-elementit olivat runsaimpia ja kattoivat lähes 2,7 prosenttia ydingenomista. Toistuvien sekvenssien suuri osuus voisi selittää L. minor -kloonin 8623 (377 Mbp, ) heterokromatiinisignatuurien hajanaisen jakautumisen. Koska eri L. minor -kloonien genomin koon plastisuus (323-760 Mbp) voi johtua erilaisesta toistuvasta monistumisesta ja/tai hiljattain tapahtuneista koko genomin päällekkäisyyksistä, on mielenkiintoista tutkia eri maantieteellisten L. minor -kloonien toistopitoisuutta ja karyotyyppiä. Verrattuna S. polyrhiza -lajin genomiin, joka on vanhin sorsalemmikki, L. minor -lajin toistuvalla monistumisella voidaan selittää 94,5 prosenttia genomin kokoerosta kahden sorsalemmikin vertailugenomin välillä. Yllättäen L. minorin genomissa LTR copia on runsaampi kuin LTR gypsy. Gypsy/kopia-suhde L. minorissa on 0,56, kun vastaava suhde S. polyrhizassa on 3,5 . Vaikka toistojen tunnistamismenetelmämme on kokoonpanosta riippuvainen, mikä merkitsee sitä, että toistopitoisuus voi olla aliarvioitu ja että toistojen osuus luokittelemattomista toistoista on suuri (34,37 % toistopitoisuudesta, taulukko 1), toistopitoisuus L. minorissa viittaa siihen, että LTR-retrotransposonien monistumisella on ollut tärkeä rooli sorsalemmikkien genomin evoluutiossa. Yksityiskohtaisempi toistojen karakterisointi julkaistuissa tai meneillään olevissa sorsalemmikkien genomien sekvensointihankkeissa voisi tuoda lisää valoa tähän mielenkiintoiseen tarinaan.
L. minor 5500 sisältää samankaltaisen määrän proteiineja koodaavia geenejä kuin S. polyrhiza 7498
Geenien ennustamista varten valittiin 2 kbp:n pituiset tai sitä pidemmät kaistaleet, koska geenien ennustajat vaativat tietyn määrän sekvenssia ylävirtaan (upstream) ja alavirtaan (downstream) geenin edellä ja alapuolella (downstream) toimiakseen täsmällisesti. Siksi alle 2 kbp:n telineet jätettiin väliin, jotta voitaisiin vähentää vääriä positiivisia virheitä ja pirstaleisia geenimalleja geenien ennustamisessa. CEGMA-työkalua käytettiin arvioitaessa, onko tämä telineiden sekvenssien valinta täydellinen. Todettiin, että edelleen 213 täyspitkää geeniä oli täysin linjattu, mikä tarkoittaa, että geenien annotaation lopullinen määrä edustaa vähintään 85 prosenttia geenien todellisesta määrästä (lisätiedosto 3: taulukko S3). Naamioitujen L. minor -genomisekvenssien geenimallit ennustettiin ja annotoitiin ab initio- ja homologiapohjaisella geenien ennustusputkella MAKER-P (Lisätiedosto 7: Taulukko S6). L. minor -geenimallien kattavan joukon saamiseksi RNA eristettiin ja sekvensoitiin L. minor -kasveista, joita oli viljelty terveissä kasvuolosuhteissa, ja L. minor -kasveista, jotka oli altistettu erilaisille stressiolosuhteille (mukaan luettuina uraani, gammasäteily ja Sr-90-käsittely). Illumina HiSeq -alustan avulla saatiin noin 592 326 402 puhdasta sekvensointilukua adapterin ja huonolaatuisten lukujen trimmauksen jälkeen (lisätiedosto 8: taulukko S7). Trinity de novo -assemblerilla tuotettiin 530 159 transkriptiä, mukaan lukien eri isoformit transkriptiä kohti. Nämä L. minor -lajin transkriptomitiedot yhdessä kaikkien saatavilla olevien Landoltia punctata-, Lemna gibba- ja S. polyrhiza -lajin sorsalajeista saatujen transkriptien kanssa ja täydennettyinä yhdeksällä yksisirkkaisten kasvien proteomilla toimivat todisteena geenien ennustustyökaluille SNAP ja Augustus inside Maker-P pipeline. Kaikkiaan annotoitiin 22 382 proteiineja koodaavaa geeniä, joista 18 744 geenin (84 %) AED-pistemäärä (Annotation Edit Distance) oli alle 0,25, mitä voidaan pitää erittäin tarkkana (kuva 1d). Vaikka geenien määrä on pienempi kuin muilla sekvensoiduilla yksisirkkaisilla kasveilla, se oli hyvin samankaltainen kuin lähisukulaisella S. polyrhizalla. Tämä tukee hypoteesia, jonka mukaan sorsalahnalajien pieni ja rakenteellisesti yksinkertainen anatomia mahdollisti useiden geenien häviämisen. Geenimallit koostuivat keskimäärin 1934 bp:stä ja keskimäärin 4,8 eksonista geeniä kohti (taulukko 2; lisätiedosto 9: kuva S2). Eksonien pituusjakauma oli yhdenmukainen muiden lajien kanssa, vaikka L. minor -lajin intronien pituudet olivat yleensä lyhyempiä kuin muiden vertailussa käytettyjen lajien (taulukko 2). Saadun annotaation tarkkuuden arvioimiseksi L. minor -proteiineihin blastattiin National Center of Biotechnology Informationin (NCBI) koko L. minor -proteiinisarja. Kävi ilmi, että 60 NCBI:n 61:stä liittymästä (ladattu 11-09-2015) pystyttiin kohdistamaan vähintään yhteen L. minor -proteiineista (BLASTP , e-arvo 1e-10) (Lisätiedosto 10: Taulukko S8).
Koska L. minorin genomi on sekvensoitu WGS-menetelmällä ilman mattiparikirjastojen käyttöä tai fyysisen kartan rakentamista, ei ole poissuljettua, että jotkin alleelit on saatettu annotoida yksittäisinä geeneinä. Heterotsygotia on nimittäin yleisempää suvuttomissa yksilöissä kuin suvullisissa lajeissa mutaatioiden kasautumisen kautta klonaalisissa linjoissa . Colen ja Voskuilin tutkimus osoitti, että tämä pätee myös L. minor -lajin populaatioon . Kun MaSuRCA-putkea käytetään de Bruijnin graafipohjaisen kokoamismenetelmän sijasta, se kuitenkin voittaa heterotsygotiasta johtuvat toistosekvenssit, virheet, heikosti kattavat alueet ja pienet rakenteelliset erot päällekkäisyyksien asetteluun ja konsensukseen perustuvan lähestymistapansa ansiosta . Arvioidaksemme de novo -annotaation tarkkuutta tarkastelimme de novo luotujen transkriptien osuutta annotoidussa transkriptomissa. Transdecoderilla tehtiin yhteensä 179 736 erilaista RNA-transkriptiä, joista 179 734 voitiin kartoittaa annotoituihin transkripteihin (BLASTN , e-arvo 1e-30).
Lemnan proteomi on enimmäkseen (66.2 %) jaettu Spirodela-proteomin kanssa
L. minorin ja sorsalemmikkien geenisisällön tutkimiseksi tarkastelimme L. minorin ja S. polyrhizan geenien sekvenssiyhtäläisyyksiä L. minorin ja S. polyrhizan geenien ja kahden muun pitkälle annotoidun monokotisen kasvin välillä. Tämän vuoksi L. minorin 22 382 geenituotetta klusteroitiin OrthoMCL:n avulla ortologisiin ja paralogisiin ryhmiin S. polyrhizan, Oryza sativan ja Zea maysin 107 716 geenituotteen kanssa. Vaikka nämä kolme geenien annotaatiosarjaa sisältävät eri määrän geenimalleja, mikä heijastaa erilaista annotaatiohistoriaa, tämä vertailu antoi viitteitä kokoonpanomme yleisestä täydellisyydestä. Yhteenvetona voidaan todeta, että kaikissa neljässä lajissa konservoitui 8202 ortologista ryhmää, jotka sisälsivät 39 prosenttia toimitetuista geeneistä (kuva 2a). L. minorin 3546 singleton-geenin (joita ei ole ryhmitelty OrthoMCL:llä, 15,8 % L. minorin kaikista geeneistä) lisäksi yhteensä 795 paralogista ryhmää, jotka edustavat 2897 geeniä (12,9 %), olivat ainutlaatuisia L. minorille (Additional file 11: Table S9). Näitä 6443 geeniä kahdesta ryhmästä kutsutaan tässä tutkimuksessa Lemna-spesifisiksi geeneiksi. Läheisemmin sukua olevilla lajeilla odotetaan olevan enemmän samankaltaisia geenimalleja. Näin ollen 14 830 L. minor -geenillä (66,2 %) on ortologeja S. polyrhizassa, kun taas muilla 1109 L. minor -geenillä (4,9 %) on ortologeja joko O. sativassa, Z. maysissa tai molemmissa, mutta ei S. polyrhizassa (kuva 2b). Lisäksi havaittiin, että 1821 L. minor -lajin geenillä (8,13 %) oli ainutlaatuinen samankaltaisuus vähintään yhden S. polyrhiza -lajin geenin kanssa, ja näitä geenejä kutsutaan sorsalemmikkispesifisiksi geeneiksi.
S. polyrhiza -lajin genomissa on osoitettu, että evoluution aikana (n. 90 Mya) on tapahtunut kaksi ikivanhaa koko genomin duplikaatiokierrosta. Geeniperheiden vertailussa S. polyrhizan ja neljän edustavan kasvilajin (Arabidopsis, tomaatti, banaani ja riisi) välillä S. polyrhizan alhainen geenikopioluku osoitti, että kaksoiskopioidut geenit hävisivät mieluummin . Olisi mielenkiintoista tutkia geenien lukumäärää ja geeniperheiden suhdetta muissa valmisteilla olevissa Lemna-genomeissa, kuten L. gibba G3 DWC131 (450 Mbp) ja Lemna minor -klooni 8627 (800 Mbp) . On mahdollista, että Lemna-lajien esi-isien genomissa oli ainakin yksi äskettäinen koko genomin duplikaatio L. minor- ja S. polyrhiza-sukujen jakautumisen jälkeen, jota seurasi eriasteinen geenien poistoprosessi duplikoituneista geeneistä, mikä johti erilaisiin Lemna-lajeihin, joiden genomin koko vaihtelee 323 ja 760 Mbp välillä. Laajin geenikato voi johtaa geenien kokonaismäärän vähenemiseen, kuten L. minor 5500:n tapauksessa. Vaihtoehtoinen hypoteesi voisi toisaalta olla, että L. minor 5500 edustaa Lemnan esi-isän genomia, joka sisältää samanlaisen geenipitoisuuden kuin Spirodelan genomi. Muut suuremman genomin omaavat Lemna-lajit ovat voineet kehittyä laajempien toistojen laajenemisen tai hyvin tuoreiden ja itsenäisten koko genomin duplikaatioiden tuloksena. Tätä hypoteesia voitaisiin testata tulevassa työssä, jossa tutkitaan S. polyrhiza 7498 -genomin (2n = 40, 158 Mbp) ja L. minor 5500 -genomin (2n = 40, 481 Mbp) makrosynteniasuhteita.
Geenien annotaatiotiedot tukevat genomin funktionaalisen analyysin jatkamista ja biomassan tuotantosovelluksia
L. minor -geenimallien oletettujen toimintojen tunnistamiseksi suoritettiin sekvenssin samankaltaisuushaku Arabidopsis thalianan ja O. sativan Swiss-Prot-proteiinisekvenssejä vastaan (BLASTP , e-arvo 1e-5). Tämän jälkeen transkripteille annotoitiin Gene Ontology (GO) – ja Pfam-termejä käyttämällä Interproscan 5 -ohjelman paikallista asennusta ja KEGG-polkukartoitusta KEGG Automatic Annotation Server (KAAS) -palvelimella. Pfam-A-tietokanta tarjoaa yli 13 672 konservoidun proteiiniperheen piilotetut Markovin profiilimallit. GO-hanke tarjoaa ontologian määritellyistä termeistä, jotka edustavat geenituotteiden ominaisuuksia ja jotka kattavat kolme aluetta: solukomponentti, molekyylitoiminta ja biologinen prosessi. KAAS:n tulos sisältää KO (KEGG Orthology) -luokitukset ja automaattisesti luodut KEGG-polut. Kaikkiaan 21 263 geenimallia (95 %) sai annotaatiolinkin vähintään yhteen mukana olleista tietokannoista, joista 18 597 (83,1 %) osoitettiin yhdelle tai useammalle Pfam-alueelle, 7329 (32,7 %) KEGG-ontologiatermille ja 15 512 (69,3 %) proteiinia annotoitiin onnistuneesti Gene Ontology -termeillä. L. minorin GO-termit ovat yleisesti ottaen samankaltaisia kuin S. polyrhizan, O. sativan ja Z. maysin GO-merkinnät (kuva 3, lisätiedosto 12: kuva S3; lisätiedosto 13: taulukko S10). GO-rikastumisanalyysi näiden kahden sorsalajin välillä paljastaa, että L. minorin proteomi sisältää 24 yliedustettua ja 15 aliedustettua GO-termiä, joiden FDR on merkitsevästi <0,05 (kuva 3; lisätiedosto 14: taulukko S11). Rikastuneisiin proteiineihin L. minor 5500:ssa kuuluivat (1) entsyymit, jotka osallistuvat katabolisiin prosesseihin (GO:9056, 422 proteiinia), hydrolaasiaktiivisuus (GO:16787, 2739 proteiinia); (2) proteiinit, jotka reagoivat erilaisiin ärsykkeisiin (esim, stressi (GO:6950, 529 proteiinia), abioottinen ärsyke (GO:9628, 86 proteiinia), solunulkoinen ärsyke (GO:9991, 19 proteiinia), endogeeninen ärsyke (GO:9719, 55 proteiinia); ja (3) biosynteesiprosessit (esim. aineenvaihdunnan esiasteet ja energia (GO:6091, 258 proteiinia), DNA:n aineenvaihduntaprosessi (GO:6259, 350 proteiinia), hiilihydraattien aineenvaihduntaprosessi (GO:5975, 776 proteiinia). Nämä proteiinit voivat osaltaan vaikuttaa L. minorin kykyyn 1) poistaa ylimääräisiä ravinteita jätevedestä, 2) sopeutua erilaisiin ilmasto-olosuhteisiin, mikä on johtanut sen maailmanlaajuiseen levinneisyyteen, ja 3) tarjota ravintoarvoa ja korkeaa biomassan tuottavuutta. Mielenkiintoista on, että 2381 L. minor -spesifistä geeniä (36,9 %) ja 326 L. minor -tandemiduplikoitunutta geeniä (17,4 %) on yliedustetuissa GO-termeissä. Lisäksi L. minor sisältää sekvenssejä, jotka koodaavat 12 glutamiinisyntetaasia (GS) ja 21 glutamaattisyntaasia (GOGAT) verrattuna S. polyrhiza -lajin 7 ja 11 sekvenssiin (lisätiedostot 15, 16: kuvat S4, S5; lisätiedosto 17: taulukko S12). Molemmat entsyymit säätelevät ammoniumin assimilaatiota, joka on tärkeä biokemiallinen reitti L. minorin käytölle jäteveden kunnostuksessa, mahdollisesti yhdessä energiantuotannon kanssa. Näin ollen nämä monistetut geenit, jotka voivat erilaistua ja tuottaa uusia toimintoja neofunktionaalistumisen kautta, voisivat olla potentiaalisia ehdokkaita toiminnallisiin jatkotutkimuksiin, koska L. minorille on saatavilla tehokkaita transformaatioprotokollia.