- De novo assembly of L. minor with greater 100× of Illumina coverage
- Sekwencje repetytywne stanowią 62 % złożenia genomu L. minor
- L. minor 5500 zawiera podobną liczbę genów kodujących białka jak S. polyrhiza 7498
- Proteom Lemna jest w większości (66.2%) dzielony z proteomem Spirodeli
- Informacja o anotacji genów wspiera dalszą analizę funkcjonalną genomu i zastosowania w produkcji biomasy
De novo assembly of L. minor with greater 100× of Illumina coverage
Genom klonu L. minor 5500 został oszacowany na 481 Mbp metodą cytometrii przepływowej (Rys. 1b) i jest zagęszczony w 20 parach chromosomów (2n = 40, Rys. 1c). W celu uzyskania sekwencji referencyjnej genomu L. minor, wyizolowano całkowite genomowe DNA w celu utworzenia dwóch sparowanych bibliotek na platformę Illumina. Biblioteka HiSeq o wysokim pokryciu 2 × 100 została uzupełniona dłuższymi odczytami z biblioteki MiSeq 2 × 300. Pomiędzy oba końce fragmentów nie wstawiono przerw, co dało sparowane odczyty o nominalnej długości fragmentu odpowiednio 200 i 600 bp. Biblioteka HiSeq zawierała 215 721 669 odczytów (43 Gbp) odpowiadających w przybliżeniu 90-krotnemu pokryciu genomu, podczas gdy biblioteka Miseq zawierała 26 270 063 (15 Gbp) odczytów odpowiadających 30-krotnemu pokryciu genomu. Po usunięciu adaptorów i odczytów zawierających nieznane lub niskiej jakości nukleotydy, pozostałe 207 985 822 i 24 416 556 wysokiej jakości odczyty (pokrycie odpowiednio 87× i 29×) zostały wykorzystane do złożenia genomu L. minor (Dodatkowy plik 1: Tabela S1). Aby uzyskać najlepszy możliwy draft sekwencji, do asemblacji de novo wykorzystano trzy różne programy asemblacyjne: SOAPdenovo2 i CLC bio, oba wykorzystujące algorytm oparty na grafie de Bruijna oraz MaSuRCA, który wykorzystuje algorytm asemblacji oparty na nakładaniu się tzw. super-readów. Takie super-odczyty są unikalnie przedłużonymi krótkimi odczytami z wysokopokrywających sparowanych odczytów w celu znacznej kompresji danych. Następnie uzyskane asemblacje były dalej przetwarzane za pomocą SSPACE do scaffoldingu oraz Gapcloser do zamykania luk w ostatnim kroku. W odniesieniu do liczby kontigów/scaffoldów, odpowiadających im wartości N50 i częstości błędów niedopasowania, stwierdzono, że draft genomu wygenerowany przez MaSuRCA jest bardziej odporną sekwencją genomową w porównaniu do genomów wygenerowanych przez SOAPdenovo2 i CLC bio (plik dodatkowy 2: Tabela S2). Procesy korekcji błędów i super-reads w MaSuRCA zredukowały surowe sparowane odczyty do 2,145,090 super-reads, które zostały zastosowane do obliczenia nakładania się parami tych odczytów. Z tych superodczytów potok MaSuRCA wygenerował 49 027 kontigów (rozmiar N50 kontigu 20,9 kbp) i 46 105 rusztowań (rozmiar N50 rusztowania 23,6 kbp) o minimalnej długości 1000 bp (plik dodatkowy 2: Tabela S2). Wykorzystując potok CEGMA, w zmontowanym przez MaSuRCA genomie rozpoznano 233 geny kodujące białka (94%) z zestawu wysoce konserwatywnych genów eukariotycznych (248), z czego 215 genów (86%) zostało całkowicie (>70% ich długości) pokrytych (plik dodatkowy 3: Tabela S3). Aby ocenić dokładność złożenia de novo, wygenerowany de novo zestaw transkryptów pochodzących z tego samego szczepu L. minor został wyrównany do rusztowań. Przy użyciu oprogramowania BLAT stwierdzono, że ~97% oczyszczonych transkryptów dopasowało się do co najmniej jednego rusztowania, z ≥95% pokryciem i ≥90% identycznością sekwencji (plik dodatkowy 4: Tabela S4). Ostatecznie zmontowana sekwencja obejmowała 472 128 703 zasad osadzonych w 46 047 rusztowaniach, z długością N50 wynoszącą 23 801 zasad po wykluczeniu rusztowań o długości 1000 bp lub mniejszych. Długość ta jest podobna do przewidywanego rozmiaru genomu przy użyciu Kmergenie, który oszacował rozmiar zespołu na 475 Mbp na podstawie statystyki k-mer lub na 481 Mbp przy użyciu cytometrii przepływowej (Rys. 1b). Zatem, w stosunku do zawartości jądrowego DNA, sekwencja genomu L. minor była prawie w całości (98,15%) pokryta przez zmontowane rusztowania. Rusztowania o długości sekwencji 2 kbp lub większej pokrywały około 96% wielkości sekwencji złożonej de novo genomu, z czego 17 rusztowań miało minimalną długość sekwencji 0,5 Mbp (plik dodatkowy 5: Figura S1). Wykorzystując dostępne dane dotyczące chloroplastowego DNA L. minor, uzyskano tutaj pełny genom chloroplastowy klonu L. minor 5500 poprzez wyrównanie odczytów NGS przy użyciu BWA z genomem chloroplastowym L. minor Genbank jako odniesieniem (NC_010109.1) . Ten genom chloroplastowy miał 165,9 Mbp i zawierał 48 wariantów związanych z 117 bp (0,07%) w porównaniu do sekwencji referencyjnej Genbank, która pochodzi z innego klonu/ekotypu (plik dodatkowy 6: Tabela S5).
W tym badaniu, do sekwencjonowania genomu L. minor zastosowano podejście whole-genome shotgun wykorzystując de novo montaż wyłącznie sparowanych bibliotek odczytów, co dało umiarkowaną wartość N50. Brak bibliotek par mate-pair powoduje znaczącą różnicę w wielkości rusztowań, a tym samym w wartości N50. Biblioteki parowanych odczytów po prostu nie są w stanie objąć wielu powtarzających się sekwencji w genomie, szczególnie w genomach roślin, które jak wiadomo zawierają dużą ilość powtarzających się sekwencji. Zaangażowanie zestawu bibliotek typu mate-pair spowodowałoby powstanie dłuższych rusztowań, przez co wartości N50 byłyby 10-100 razy wyższe. Nasze złożenie genomu zawiera rusztowanie o wartości N50 przekraczającej 20 kbp, co jest porównywalne z wartością N50 rusztowań genomów Cannabis sativa i Phoenix dactylifera. Ponadto, wygenerowane wartości N50 innych sekwencjonowanych genomów roślinnych, do których nie włączono bibliotek mate-pair (scaffold N50 value) są również zgodne z uzyskanymi tutaj wartościami scaffold N50. Sugeruje to, że wytworzony zespół L. minor obejmuje większość niepowtarzających się sekwencji. Nowe biblioteki sekwencjonujące wraz z informacjami mapującymi, takimi jak mapy fizyczne, mapy optyczne czy mapy cytogenetyczne mogą być potrzebne do poprawy jakości sekwencji genomowych w celu analizy genomiki porównawczej, duplikacji całych genomów czy ewolucji genomów u gatunków kaczenic. Obecne złożenie pozwala nam jednak scharakteryzować podstawowe elementy (np. zawartość powtórzeń i genów) genomu L. minor.
Sekwencje repetytywne stanowią 62 % złożenia genomu L. minor
Porównania oparte na homologii ujawniły, że 62 % złożenia genomu L. minor składa się z sekwencji repetytywnych (Tabela 1). Powtórzenia zostały sklasyfikowane jako retrotranspozony (31,20%), transpozony DNA (5,08%), powtórzenia tandemowe (3,91%) i inne niesklasyfikowane powtórzenia (21,27%). Dominującą klasą elementów transpozycyjnych są retrotranspozony o długich terminalnych powtórzeniach (LTR) (29,57 %), co jest zgodne z innymi genomami roślinnymi.
Najliczniej występującymi rodzinami transpozonów były gypsy i copia, stanowiące odpowiednio 10,59 i 18,79 % genomu. W przypadku elementów transpozycyjnych DNA stwierdzono, że najliczniej występowały elementy DNA_hAT-Ac zajmujące prawie 2,7% genomu jądrowego. Wysoki udział sekwencji repetytywnych może tłumaczyć rozproszony rozkład sygnatur heterochromatyny klonu 8623 L. minor (377 Mbp, ). Biorąc pod uwagę, że plastyczność rozmiaru genomu u różnych klonów L. minor (od 323 do 760 Mbp) może wynikać z różnych amplifikacji repetytywnych i/lub niedawnych duplikacji całego genomu, interesujące jest zbadanie zawartości powtórzeń i kariotypu różnych geograficznych klonów L. minor. W porównaniu z genomem S. polyrhiza, który jest najbardziej starożytną kaczką, amplifikacja powtórzeń w L. minor może wyjaśnić 94,5% różnicy w wielkości genomu pomiędzy dwoma genomami referencyjnymi kaczek. Zaskakuj±co, LTR copia jest bardziej obfity niż LTR gypsy w genomie L. minor. Stosunek gipsy/kopia w L. minor wynosi 0,56, podczas gdy analogiczny stosunek w S. polyrhiza wynosi 3,5 . Mimo że nasza metoda identyfikacji powtórzeń jest zależna od zespołu, co sugeruje, że zawartość powtórzeń może być niedoszacowana i wysoki odsetek niesklasyfikowanych powtórzeń (34,37% zawartości powtórzeń, Tabela 1), zawartość powtórzeń w L. minor sugeruje, że amplifikacja retrotranspozonów LTR odegrała ważną rolę w ewolucji genomu kaczenic. Bardziej szczegółowa charakterystyka powtórzeń w opublikowanych lub trwających projektach sekwencjonowania genomów kaczek mogłaby rzucić więcej światła na tę interesującą historię.
L. minor 5500 zawiera podobną liczbę genów kodujących białka jak S. polyrhiza 7498
Skafoldy o długości 2 kbp lub dłuższe zostały wybrane do przewidywania genów, ponieważ predyktory genów wymagają pewnej ilości sekwencji przed i za genem, aby działać dokładnie. Dlatego też, rusztowania mniejsze niż 2 kbp były pomijane w celu zredukowania błędów fałszywie pozytywnych i fragmentacji modeli genów w predykcji genów. Narzędzie CEGMA zostało wykorzystane do oceny kompletności tej selekcji sekwencji rusztowań. Stwierdzono, że nadal 213 pełnometrażowych genów było całkowicie wyrównanych, co oznacza, że ostateczna liczba anotacji genów reprezentuje co najmniej 85% prawdziwej liczby genów (plik dodatkowy 3: Tabela S3). Modele genów z zamaskowanych sekwencji genomu L. minor były przewidywane i anotowane za pomocą potoku przewidywania genów opartego na ab initio i homologii MAKER-P (plik dodatkowy 7: Tabela S6). Aby uzyskać kompleksowy zestaw modeli genów L. minor, wyizolowano i zsekwencjonowano RNA z roślin L. minor uprawianych w zdrowych warunkach wzrostu oraz z roślin L. minor poddanych różnym warunkom stresowym (w tym traktowanie uranem, promieniowaniem gamma i Sr-90). Przy użyciu platformy Illumina HiSeq, po przycięciu adapterów i odczytów niskiej jakości, uzyskano około 592 326 402 czystych odczytów sekwencjonowania (plik dodatkowy 8: Tabela S7). Za pomocą asemblera Trinity de novo uzyskano 530 159 transkryptów, w tym różne izoformy dla każdego transkryptu. Te dane transkryptomiczne L. minor, wraz ze wszystkimi dostępnymi transkryptomami z gatunków kaczek Landoltia punctata, Lemna gibba i S. polyrhiza oraz uzupełnione dziewięcioma proteomami z roślin jednoliściennych, posłużyły jako dowód dla narzędzi przewidywania genów SNAP i Augustus wewnątrz potoku Maker-P. W sumie zanotowano 22 382 geny kodujące białka, z których 18 744 (84%) uzyskało wynik AED (Annotation Edit Distance) poniżej 0,25, co można uznać za bardzo dokładne (Rys. 1d). Chociaż liczba genów jest niższa niż u innych sekwencjonowanych roślin jednoliściennych, to jest ona bardzo podobna do liczby genów u blisko spokrewnionej S. polyrhiza. Potwierdza to hipotezę, że niewielka i strukturalnie prosta anatomia gatunków kaczenic pozwoliła na utracenie pewnej liczby genów. Średnio modele genów składały się z 1934 bp i średnio z 4,8 eksonów na gen (Tabela 2; Dodatkowy plik 9: Rysunek S2). Rozkład długości eksonów był zgodny z innymi gatunkami, chociaż długość intronów L. minor była krótsza niż u innych gatunków użytych do porównania (Tabela 2). Aby ocenić dokładność uzyskanej anotacji, do białek L. minor blastowano kompletny zestaw białek L. minor z National Center of Biotechnology Information (NCBI). Okazało się, że 60 z 61 akcesji NCBI (pobranych 11-09-2015) można dopasować do przynajmniej jednego z białek L. minor (BLASTP , e-value of 1e-10) (plik dodatkowy 10: Table S8).
Ponieważ genom L. minor został zsekwencjonowany metodą WGS bez użycia bibliotek par mate lub konstrukcji mapy fizycznej, nie jest wykluczone, że niektóre allele mogły być anotowane jako pojedyncze geny. Heterozygotyczność jest mianowicie bardziej rozpowszechniona u osobników bezpłciowych w porównaniu z gatunkami płciowymi poprzez akumulację mutacji w liniach klonalnych. Badanie Cole’a i Voskuila wykazało, że było to również prawdziwe dla populacji L. minor. Jednakże, gdy używa się potoku MaSuRCA zamiast podejścia montażowego opartego na grafie de Bruijna, przezwycięża on powtarzające się sekwencje, błędy, regiony o niskim pokryciu i małe różnice strukturalne spowodowane heterozygotycznością ze względu na podejście overlap-layout-consensus. Aby ocenić dokładność anotacji de novo, zbadaliśmy proporcję transkryptów utworzonych de novo reprezentowanych w anotowanym transkryptomie. W sumie 179 736 różnych transkryptów RNA zostało utworzonych przez Transdecoder, z których 179 734 można było zmapować do adnotowanych transkryptów (BLASTN , e-value of 1e-30).
Proteom Lemna jest w większości (66.2%) dzielony z proteomem Spirodeli
Aby zbadać zawartość genów u L. minor i ogólnie u kaczeńców, zbadaliśmy podobieństwa sekwencji między genami L. minor i S. polyrhiza a dwoma innymi wysoce anotowanymi roślinami jednoliściennymi. W związku z tym 22 382 produkty genowe L. minor zostały połączone w grupy ortologiczne i paralogiczne z 107 716 produktami genowymi S. polyrhiza, Oryza sativa i Zea mays przy użyciu OrthoMCL . Chociaż trzy zestawy anotacji genów zawierają różną liczbę modeli genów, odzwierciedlając różną historię anotacji, to porównanie to dostarczyło wskazówek na temat ogólnej kompletności naszego montażu. Podsumowując, 8202 grupy ortologiczne były zachowane we wszystkich czterech gatunkach, co stanowi 39% zgłoszonych genów (Ryc. 2a). Oprócz 3546 pojedynczych genów L. minor (nie zgrupowanych przez OrthoMCL, 15,8% wszystkich genów L. minor), 795 grup paralogicznych reprezentujących 2897 genów (12,9%) było unikalnych dla L. minor (Dodatkowy plik 11: Tabela S9). Te 6443 geny z dwóch grup są dalej określane w tym opracowaniu jako geny specyficzne dla Lemna. Oczekuje się, że gatunki bliżej spokrewnione będą miały większą liczbę podobnych modeli genów. W rezultacie 14 830 genów L. minor (66,2%) ma ortologów u S. polyrhiza, podczas gdy 1109 genów L. minor (4,9%) ma ortologów albo u O. sativa, Z. mays, albo u obu, ale nie u S. polyrhiza (Rys. 2b). Ponadto stwierdzono, że 1821 genów (8,13 %) L. minor posiada unikalne podobieństwo z co najmniej jednym genem z S. polyrhiza, które dalej określane są jako geny specyficzne dla kaczeńców.
W genomie S. polyrhiza wykazano, że w trakcie ewolucji (ok. 90 Mya) miały miejsce dwie starożytne rundy duplikacji całego genomu. W porównaniu rodzin genów między S. polyrhiza i czterema reprezentatywnymi gatunkami roślin (Arabidopsis, pomidor, banan i ryż), niska liczba kopii genów w S. polyrhiza wskazywała na preferowaną utratę zduplikowanych genów. Interesujące byłoby zbadanie liczby genów i relacji rodzin genów innych genomów Lemna, które są w trakcie opracowywania, takich jak L. gibba G3 DWC131 (450 Mbp) i Lemna minor clone 8627 (800 Mbp) . Można przypuszczać, że genom przodka gatunków Lemna zawierał co najmniej jedną niedawną duplikację całego genomu po podziale między rodzajami L. minor i S. polyrhiza, po której nastąpiły procesy usuwania zduplikowanych genów w różnym stopniu, w wyniku czego powstały różne gatunki Lemna o wielkości genomu od 323 do 760 Mbp. Najbardziej rozległa utrata genów może prowadzić do zmniejszenia całkowitej liczby genów, jak w przypadku L. minor 5500. Z drugiej strony, alternatywna hipoteza może być taka, że L. minor 5500 reprezentuje genom przodka Lemna, który zawiera podobną zawartość genów jak genom Spirodeli. Inne gatunki Lemna o większym genomie mogły wyewoluować z większej ekspansji powtórzeń lub bardzo niedawnych i niezależnych duplikacji całego genomu. Hipoteza ta może być testowana w przyszłych pracach, w których badane będą relacje makrosynteniczne między genomem S. polyrhiza 7498 (2n = 40, 158 Mbp) i genomem L. minor 5500 (2n = 40, 481 Mbp).
Informacja o anotacji genów wspiera dalszą analizę funkcjonalną genomu i zastosowania w produkcji biomasy
Aby zidentyfikować przypuszczalne funkcje modeli genów L. minor, przeprowadzono wyszukiwanie podobieństwa sekwencji w stosunku do sekwencji białek Swiss-Prot Arabidopsis thaliana i O. sativa (BLASTP , e-value of 1e-5). Następnie transkrypty poddano anotacji terminami Gene Ontology (GO) i Pfam przy użyciu lokalnej instalacji Interproscan 5 oraz mapowaniu ścieżek KEGG przy użyciu KEGG Automatic Annotation Server (KAAS) . Baza danych pfam-A dostarcza profilowanych ukrytych modeli Markowa dla ponad 13 672 konserwatywnych rodzin białek. Projekt GO dostarcza ontologię zdefiniowanych terminów reprezentujących właściwości produktów genowych, która obejmuje trzy domeny: składnik komórkowy, funkcję molekularną i proces biologiczny. Wynik KAAS zawiera przyporządkowania KO (KEGG Orthology) oraz automatycznie wygenerowane ścieżki KEGG. W sumie 21 263 modeli genów (95%) otrzymało powiązanie anotacyjne z przynajmniej jedną z uwzględnionych baz danych, z czego 18 597 (83,1%) zostało przypisanych do jednej lub więcej domen Pfam, 7329 (32,7%) do terminu ontologicznego KEGG, a 15 512 (69,3%) białek zostało pomyślnie anotowanych terminami Gene Ontology. Terminy GO L. minor wykazują ogólne podobieństwo do adnotacji GO S. polyrhiza, O. sativa i Z. mays (Rys. 3, plik dodatkowy 12: Rysunek S3; plik dodatkowy 13: Tabela S10). Analiza wzbogacenia GO pomiędzy dwoma gatunkami kaczenic wykazała, że proteom L. minor zawiera 24 nadreprezentowane i 15 niedoreprezentowanych terminów GO z istotnym FDR <0,05 (Rys. 3; Dodatkowy plik 14: Tabela S11). Wzbogacone białka w L. minor 5500 obejmowały (1) enzymy zaangażowane w procesy kataboliczne (GO:9056, 422 białka), aktywność hydrolaz (GO:16787, 2739 białek); (2) białka w odpowiedzi na różne bodźce (np., stres (GO:6950, 529 białek), bodziec abiotyczny (GO:9628, 86 białek), bodziec zewnątrzkomórkowy (GO:9991, 19 białek), bodziec endogenny (GO:9719, 55 białek); oraz (3) procesy biosyntezy (np. metabolitów prekursorowych i energii (GO:6091, 258 białek), proces metabolizmu DNA (GO:6259, 350 białek), proces metabolizmu węglowodanów (GO:5975, 776 białek). Białka te mogą przyczyniać się do zdolności L. minor do (1) usuwania nadmiaru składników odżywczych ze ścieków, (2) adaptacji do różnych warunków klimatycznych, co skutkuje ich światowym rozpowszechnieniem, oraz (3) dostarczania wartości odżywczych i wysokiej produktywności biomasy. Co ciekawe, 2381 specyficznych genów L. minor (36,9%) i 326 genów L. minor z duplikatami tandemowymi (17,4%) jest obecnych w nadreprezentowanych terminach GO. Ponadto L. minor zawiera sekwencje kodujące 12 syntaz glutaminowych (GS) i 21 syntaz glutaminianowych (GOGAT) w porównaniu z odpowiednio 7 i 11 sekwencjami u S. polyrhiza (pliki dodatkowe 15, 16: Rys. S4, S5; plik dodatkowy 17: Tabela S12). Oba enzymy regulują asymilację amonu, która jest ważnym szlakiem biochemicznym dla wykorzystania L. minor w remediacji ścieków, być może w połączeniu z produkcją energii. Dlatego te amplifikowane geny, które mogą się różnicować w celu wytworzenia nowych funkcji poprzez neofunkcjonalizację, mogą być potencjalnymi kandydatami do dalszych badań funkcjonalnych, ponieważ dostępne są wydajne protokoły transformacji dla L. minor.
.