Asamblarea de novo a L. minor cu o acoperire mai mare de 100× a Illumina

Genomul clonei 5500 de L. minor a fost estimat la 481 Mbp prin citometrie în flux (Fig. 1b) și este compactat în 20 de perechi de cromozomi (2n = 40, Fig. 1c). Pentru a obține secvența de referință a genomului L. minor, ADN genomic total a fost izolat pentru a crea două biblioteci paired-end pentru platforma Illumina. O bibliotecă HiSeq de 2 × 100 HiSeq cu acoperire ridicată a fost completată cu lecturi mai lungi dintr-o bibliotecă MiSeq de 2 × 300 MiSeq. Nu au fost incluse spații între ambele capete ale fragmentelor, rezultând lecturi împerecheate având o lungime nominală a fragmentului de 200 și, respectiv, 600 pb. Librăria HiSeq a fost alcătuită din 215 721 669 de citiri (43 Gbp) reprezentând o acoperire a genomului de aproximativ 90×, în timp ce librăria Miseq a conținut 26 270 063 de citiri (15 Gbp) echivalente cu o acoperire a genomului de 30×. După eliminarea adaptorilor și a citirilor care conțineau nucleotide necunoscute sau de calitate scăzută, cele 207 985 822 și 24 416 556 de citiri de înaltă calitate rămase (acoperire de 87× și, respectiv, 29×) au fost utilizate pentru a asambla genomul L. minor (Fișier suplimentar 1: Tabelul S1). Pentru a obține cel mai bun proiect de secvență posibil, au fost evaluate trei programe de asamblare diferite pentru asamblarea de novo, și anume SOAPdenovo2 și CLC bio, ambele utilizând un algoritm bazat pe grafuri de Bruijn și MaSuRCA, care utilizează un algoritm de asamblare bazat pe suprapunere pentru așa-numitele super-reads. Astfel de super-reads sunt lecturi scurte extinse în mod unic din lecturi împerecheate de mare acoperire pentru a comprima semnificativ datele. Ulterior, ansamblurile obținute au fost prelucrate în continuare cu SSPACE pentru scheletare și cu Gapcloser pentru a închide golurile într-o etapă finală. În ceea ce privește numărul de contigs/scaffolds, valorile N50 corespunzătoare și frecvența erorilor de nepotrivire, s-a constatat că proiectul de genom generat de MaSuRCA a generat o secvență de genom mai robustă în comparație cu genomurile generate de SOAPdenovo2 și CLC bio (Fișier suplimentar 2: Tabelul S2). Procesele de corecție a erorilor și de super-lectură ale MaSuRCA au redus citirile brute de tip paired-end la 2 145 090 de super-lecturi care au fost aplicate pentru a calcula suprapunerea pe perechi între aceste citiri. Din aceste super-read-uri, conducta MaSuRCA a generat 49 027 de contig-uri (dimensiunea N50 a contig-urilor 20,9 kbp) și 46 105 schele (dimensiunea N50 a schelelor 23,6 kbp) cu o lungime minimă de 1000 bp (Fișier suplimentar 2: Tabelul S2). Prin urmare, schelele rezultate din MaSuRCA au fost utilizate pentru analize ulterioare în aval.

Utilizând pipeline-ul CEGMA , 233 de gene codificatoare de proteine (94 %) dintr-un set de gene eucariote foarte conservate (248) au fost recunoscute în cadrul genomului asamblat MaSuRCA, dintre care 215 gene (86 %) au fost acoperite complet (>70 % din lungimea lor) (Fișier suplimentar 3: Tabelul S3). Pentru a evalua acuratețea asamblării de novo, un set de novo generat de novo de transcripte provenind din aceeași tulpină L. minor a fost aliniat la schele. Utilizând software-ul BLAT , s-a constatat că ~97 % din transcriptele curățate s-au aliniat la cel puțin o schemă, cu o acoperire ≥95 % și o identitate de secvență ≥90 % (Fișier suplimentar 4: Tabelul S4). Secvența asamblată finală se întindea pe 472 128 703 baze încorporate în 46 047 schele, cu o lungime N50 de 23 801 baze atunci când sunt excluse scheletele de 1000 pb sau mai mici. Această lungime este similară cu dimensiunea preconizată a genomului cu ajutorul Kmergenie, care a estimat dimensiunea ansamblului la 475 Mbp pe baza statisticilor k-mer sau la 481 Mbp cu ajutorul citometriei de flux (Fig. 1b). Prin urmare, ca proporție a conținutului de ADN nuclear, secvența genomului L. minor a fost acoperită aproape în totalitate (98,15 %) de schemele asamblate. Schelele cu o lungime a secvenței de 2 kbp sau mai mare au acoperit aproximativ 96 % din dimensiunea secvenței de asamblare a genomului de novo, din care 17 schele au avut o lungime minimă a secvenței de 0,5 Mbp (Fișier suplimentar 5: Figura S1). Utilizând datele disponibile privind ADN-ul cloroplastic al L. minor, genomul cloroplastic complet al clonei L. minor 5500 a fost obținut aici prin alinierea citirilor NGS utilizând BWA cu genomul cloroplastic al L. minor din Genbank ca referință (NC_010109.1) . Acest genom de cloroplast avea 165,9 Mbp și conținea 48 de variante legate de 117 bp (0,07 %) în comparație cu secvența de referință Genbank, care provine inițial de la o altă clonă/un alt ecotip (Fișier suplimentar 6: Tabelul S5).

Fig. 2
figura2

O diagramă Venn care arată grupurile de familii de gene ortologe și paraloge în L. minor, S. polyrhiza, Z. mays și O. sativa, așa cum au fost identificate de OrthoMCL. Numărul familiei de gene este listat în fiecare dintre componente; numărul de gene din cadrul familiilor pentru toate speciile din cadrul componentei este notat între paranteze

În acest studiu, a fost utilizată o abordare de tip „shotgun” a întregului genom pentru a secvenția genomul L. minor folosind asamblarea de novo a bibliotecilor de citire exclusiv de tip „paired-end”, ceea ce a dus la o valoare N50 moderată. Lipsa bibliotecilor de perechi pereche face o diferență semnificativă în ceea ce privește dimensiunea schelelor și, prin urmare, și valoarea N50. Bibliotecile de lecturi perechi nu pot pur și simplu să acopere multe dintre secvențele repetitive dintr-un genom, în special în cazul genomurilor de plante, despre care se știe că au o cantitate mare de secvențe repetitive. Implicarea unui set de biblioteci de perechi de perechi mate ar produce eșantioane mai lungi, ceea ce face ca valorile N50 să fie de 10-100 de ori mai mari . Ansamblul nostru genomic conține o valoare N50 a eșantioanelor de peste 20 kbp, care este comparabilă cu valoarea N50 a eșantioanelor din ansamblurile genomice de la Cannabis sativa și Phoenix dactylifera . Mai mult decât atât, valorile N50 generate de alte ansambluri de genomuri de plante secvențiate la care nu sunt incluse biblioteci de perechi de mate (valoarea N50 a schelei) sunt, de asemenea, în concordanță cu valoarea N50 a schelei obținută aici . Acest lucru sugerează că ansamblul L. minor produs acoperă cea mai mare parte a secvențelor nerepetate. Ar putea fi necesare noi biblioteci de secvențiere împreună cu informații de cartografiere, cum ar fi hărțile fizice, hărțile optice sau hărțile citogenetice, pentru a îmbunătăți calitatea secvenței genomului în vederea analizei genomicii comparative, a duplicărilor întregului genom sau a evoluției genomului la speciile de duckweed. Cu toate acestea, ansamblul actual ne permite să caracterizăm elementele de bază (de exemplu, conținutul de repetări și de gene) ale genomului L. minor.

Secvențele repetitive cuprind 62 % din ansamblul genomului L. minor

Comparațiile bazate pe omologie au arătat că 62 % din ansamblul genomului L. minor constau în secvențe repetitive (tabelul 1). Repetițiile au fost clasificate în retrotranspozoni (31,20 %), transpozoni de ADN (5,08 %), repetiții în tandem (3,91 %) și alte repetiții neclasificate (21,27 %). Retrotranspozonii cu repetări terminale lungi (LTR) sunt clasa predominantă de elemente transpozabile (29,57 %), ceea ce este în concordanță cu alte genomuri de plante.

Tabelul 1 Identificarea de novo a secvențelor repetate în genomul de L. minor

Cele mai abundente familii de transpozoni au fost gypsy și copia, contribuind la 10,59 și, respectiv, 18,79 % din genom. În ceea ce privește elementele transpozabile ADN, s-a constatat că elementele DNA_hAT-Ac au fost cele mai abundente, acoperind aproape 2,7 % din genomul nuclear. Proporția ridicată de secvențe repetitive ar putea explica distribuția dispersată a semnăturilor de heterocromatină din clona L. minor 8623 (377 Mbp, ). Având în vedere că plasticitatea dimensiunii genomului în diferite clone L. minor (variind de la 323 la 760 Mbp) ar putea rezulta din diferite amplificări repetitive și/sau duplicații recente ale întregului genom, este interesant de studiat conținutul de repetiții și cariotipul diferitelor clone geografice L. minor. În comparație cu genomul S. polyrhiza, care este cea mai veche plantă de rățușcă, amplificarea repetitivă la L. minor ar putea explica 94,5 % din diferența de dimensiune a genomului dintre cele două genomuri de referință ale plantelor de rățușcă. În mod surprinzător, LTR copia este mai abundentă decât LTR gypsy în genomul L. minor. Raportul gypsy/copia în L. minor este de 0,56, în timp ce raportul corespunzător în S. polyrhiza este de 3,5 . Deși metoda noastră de identificare a repetițiilor este dependentă de asamblare, ceea ce implică faptul că conținutul de repetări ar putea fi subestimat și o proporție ridicată de repetări neclasificate (34,37 % conținut de repetări, tabelul 1), conținutul de repetări în L. minor sugerează că amplificarea retrotranspozonilor LTR a jucat un rol important în evoluția genomului duckweed. O caracterizare mai detaliată a repetițiilor în cadrul proiectelor de secvențiere a genomurilor de duckweed publicate sau în curs de desfășurare ar putea arunca mai multă lumină asupra acestei povești interesante.

L. minor 5500 conține un număr similar de gene codificatoare de proteine ca și S. polyrhiza 7498

Scaffolds de 2 kbp sau mai lungi au fost selectate pentru predicția genelor, deoarece predictorii de gene necesită o anumită cantitate de secvență în amonte și în aval de o genă pentru a funcționa cu precizie. Prin urmare, schelele mai mici de 2 kbp au fost omise pentru a reduce erorile fals pozitive și modelele de gene fragmentate în predicția genelor. Instrumentul CEGMA a fost utilizat pentru a evalua caracterul complet al acestei selecții de secvențe de schelet. S-a constatat că încă 213 gene de lungime completă au fost complet aliniate, ceea ce înseamnă că numărul final al adnotării genelor reprezintă cel puțin 85 % din numărul real de gene (Fișier suplimentar 3: Tabelul S3). Modelele de gene din secvențele mascate ale genomului L. minor au fost prezise și adnotate cu ajutorul conductei de predicție genetică ab initio și bazată pe homologie MAKER-P (Fișier suplimentar 7: Tabelul S6). Pentru a obține un set cuprinzător de modele de gene L. minor, ARN-ul a fost izolat și secvențiat de la plante L. minor cultivate în condiții de creștere sănătoase și de la plante L. minor expuse la diverse condiții de stres (inclusiv uraniu, radiații gamma și tratament cu Sr-90). Cu ajutorul platformei Illumina HiSeq, au fost obținute aproximativ 592 326 402 citiri de secvențiere curate după tăierea adaptorilor și a citirilor de calitate scăzută (Fișier suplimentar 8: Tabelul S7). Au fost produse 530 159 de transcripte cu ansamblatorul Trinity de novo, inclusiv diferite izoforme per transcript . Aceste date transcriptomice ale L. minor, împreună cu toate transcrierile disponibile de la speciile de duckweed Landoltia punctata, Lemna gibba și S. polyrhiza și completate cu nouă proteomuri de la plante monocotiledonate, au servit drept dovadă pentru instrumentele de predicție a genelor SNAP și Augustus în interiorul pipeline-ului Maker-P. În total, au fost adnotate 22 382 de gene codificatoare de proteine, dintre care 18 744 de gene (84 %) conțineau un scor AED (Annotation Edit Distance) sub 0,25, ceea ce poate fi considerat ca fiind foarte precis (Fig. 1d). Deși numărul de gene este mai mic decât cel găsit la alte plante monocotiledonate secvențiate, acesta a fost foarte asemănător cu cel de la S. polyrhiza, o plantă foarte apropiată. Acest lucru susține ipoteza că anatomia mică și structurală simplă a speciilor de duckweed a permis pierderea unui număr de gene. În medie, modelele de gene au constat din 1934 pb și medii de 4,8 exoni pe genă (tabelul 2; fișier suplimentar 9: figura S2). Distribuția lungimii exonilor a fost în concordanță cu alte specii, deși lungimea intronilor din L. minor a avut tendința de a fi mai scurtă decât cea a altor specii utilizate în comparație (tabelul 2). Pentru a evalua acuratețea adnotării obținute, setul complet de proteine L. minor de la National Center of Biotechnology Information (NCBI) a fost comparat cu proteinele L. minor. S-a dovedit că 60 din cele 61 de accesări NCBI (descărcate la 11-09-2015) au putut fi aliniate la cel puțin una dintre proteinele L. minor (BLASTP , e-valoare de 1e-10) (Fișier suplimentar 10: Tabelul S8).

Tabel 2 Prezentare generală a caracteristicilor genelor din L. minor. minor și de alte trei plante monocotiledonate

Din moment ce genomul L. minor a fost secvențiat folosind o abordare WGS fără a utiliza biblioteci de perechi de matrițe sau construirea unei hărți fizice, nu este exclus ca unele alele să fi fost notate ca gene individuale. Heterozigozitatea este mai frecventă la indivizii asexuați în comparație cu speciile sexuale prin acumularea de mutații în liniile clonale. Un studiu realizat de Cole și Voskuil a arătat că acest lucru este valabil și pentru o populație de L. minor . Cu toate acestea, atunci când se utilizează conducta MaSuRCA în locul abordării de asamblare bazată pe grafuri de Bruijn, aceasta depășește secvențele repetate, erorile, regiunile cu acoperire redusă și micile diferențe structurale cauzate de heterozigozitate datorită abordării sale de tip overlap-layout-consensus . Pentru a evalua acuratețea adnotării de novo, am examinat proporția de transcripte create de novo reprezentate în transcriptomul adnotat. Un total de 179.736 de transcripte diferite de ARN au fost realizate de Transdecoder, dintre care 179.734 au putut fi mapate la transcriptele adnotate (BLASTN , e-valoare de 1e-30).

Lemna proteomul este în mare parte (66.2 %) împărtășit cu proteomul Spirodela

Pentru a studia conținutul de gene al L. minor și al duckweed în general, am examinat similitudinile de secvență dintre genele L. minor și S. polyrhiza și alte două plante monocotiledonate foarte bine adnotate. Prin urmare, cei 22.382 de produse genetice din L. minor au fost grupate în grupuri ortologe și paraloge cu 107.716 produse genetice din S. polyrhiza, Oryza sativa și Zea mays folosind OrthoMCL . Deși cele trei seturi de adnotare a genelor conțin numere diferite de modele de gene care reflectă istoricul diferit de adnotare, această comparație a oferit o indicație a completitudinii generale a ansamblului nostru. În rezumat, 8202 grupuri ortologe au fost conservate în toate cele patru specii, conținând 39 % din genele prezentate (Fig. 2a). În plus față de cele 3546 de gene singleton din L. minor (care nu au fost grupate de OrthoMCL, 15,8 % din totalul genelor din L. minor), un total de 795 de grupuri paraloge reprezentând 2897 de gene (12,9 %) au fost unice pentru L. minor (Fișier suplimentar 11: Tabelul S9). Aceste 6443 de gene din două grupuri sunt denumite în continuare gene specifice Lemna în acest studiu. Este de așteptat ca speciile mai strâns înrudite să aibă un număr mai mare de modele de gene similare. Ca urmare, 14 830 de gene L. minor (66,2 %) au ortologi în S. polyrhiza, în timp ce alte 1109 gene L. minor (4,9 %) au ortologi fie în O. sativa, fie în Z. mays, fie în ambele, dar nu și în S. polyrhiza (Fig. 2b). Mai mult decât atât, s-a constatat că 1821 gene (8,13 %) din L. minor au avut o similitudine unică cu cel puțin o genă din S. polyrhiza, care sunt denumite în continuare gene specifice duckweed.

A fost demonstrat în genomul S. polyrhiza că au existat două runde vechi de duplicări ale întregului genom în timpul evoluției (cca. 90 Mya) . În compararea familiilor de gene între S. polyrhiza și patru specii de plante reprezentative (Arabidopsis, tomate, banane și orez), un număr scăzut de copii de gene la S. polyrhiza a indicat pierderi genetice preferate de gene duplicate . Ar fi interesant de studiat numărul de gene și relația dintre familiile de gene ale altor genomuri Lemna care sunt în curs de elaborare, cum ar fi L. gibba G3 DWC131 (450 Mbp) și Lemna minor clona 8627 (800 Mbp) . Este posibil ca genomul strămoșului speciilor de Lemna să fi conținut cel puțin o duplicare recentă a întregului genom după separarea genurilor L. minor și S. polyrhiza, urmată de diferite grade de procese de eliminare a genelor duplicate, ceea ce a dus la diferite specii de Lemna cu dimensiuni genomice cuprinse între 323 și 760 Mbp . Cea mai mare pierdere de gene poate duce la un număr total redus de gene, cum ar fi în cazul L. minor 5500. Pe de altă parte, o ipoteză alternativă ar putea fi aceea că L. minor 5500 reprezintă genomul strămoșului Lemna, care conține un conținut genetic similar cu cel al genomului Spirodela. Alte specii de Lemna cu genom mai mare ar fi putut evolua în urma unei extinderi mai mari a repetițiilor sau a unor duplicații foarte recente și independente ale întregului genom. Această ipoteză ar putea fi testată prin lucrări viitoare, care să studieze relația de macrosinteză dintre genomul S. polyrhiza 7498 (2n = 40, 158 Mbp) și genomul L. minor 5500 (2n = 40, 481 Mbp).

Informațiile de adnotare a genelor sprijină în continuare analiza funcțională a genomului și aplicațiile de producere a biomasei

Pentru a identifica funcțiile presupuse ale modelelor de gene L. minor, s-a efectuat o căutare de similaritate a secvențelor de secvențe de proteine Swiss-Prot din Arabidopsis thaliana și O. sativa (BLASTP , valoare e- de 1e-5). Ulterior, transcriptele au fost adnotate cu termeni Gene Ontology (GO) și Pfam utilizând o instalare locală a Interproscan 5 și cartografierea căilor KEGG cu ajutorul KEGG Automatic Annotation Server (KAAS) . Baza de date pfam-A oferă modele Markov ascunse de profil pentru peste 13.672 de familii de proteine conservate . Proiectul GO furnizează o ontologie de termeni definiți reprezentând proprietățile produselor genice, care acoperă trei domenii: componentă celulară, funcție moleculară și proces biologic. Rezultatul KAAS conține atribuiri KO (KEGG Orthology) și căi KEGG generate automat. În total, 21 263 de modele de gene (95 %) au primit o legătură de adnotare cu cel puțin una dintre bazele de date incluse, dintre care 18 597 (83,1 %) au fost atribuite la unul sau mai multe domenii Pfam, 7329 (32,7 %) la un termen ontologic KEGG, iar 15 512 (69,3 %) dintre proteine au fost adnotate cu succes cu termeni ontologici Gene Ontology. Termenii GO din L. minor prezintă o similitudine generală cu adnotările GO din S. polyrhiza, O. sativa și Z. mays (Fig. 3, Fișier suplimentar 12: Figura S3; Fișier suplimentar 13: Tabelul S10). Analiza de îmbogățire GO între cele două specii de duckweed arată că proteomul L. minor conține 24 de termeni GO suprareprezentați și 15 termeni GO subreprezentați cu FDR semnificativ <0,05 (Fig. 3; Fișier suplimentar 14: Tabelul S11). Proteinele îmbogățite în L. minor 5500 au inclus (1) enzime implicate în procese catabolice (GO:9056, 422 proteine), activitate de hidrolază (GO:16787, 2739 proteine); (2) proteine ca răspuns la diverși stimuli (de ex, stres (GO:6950, 529 proteine), stimuli abiotici (GO:9628, 86 proteine), stimuli extracelulari (GO:9991, 19 proteine), stimuli endogeni (GO:9719, 55 proteine); și (3) procese de biosinteză (de exemplu, metaboliți precursori și energie (GO:6091, 258 proteine), proces metabolic al ADN (GO:6259, 350 proteine), proces metabolic al carbohidraților (GO:5975, 776 proteine). Aceste proteine ar putea contribui la capacitatea L. minor de a (1) elimina surplusul de nutrienți din apele reziduale, (2) de a se adapta la diferite condiții climatice, ceea ce a dus la răspândirea lor în întreaga lume și (3) de a oferi valoare nutritivă și o productivitate ridicată a biomasei. Este interesant faptul că 2381 de gene specifice L. minor (36,9 %) și 326 de gene duplicate în tandem L. minor (17,4 %) sunt prezente în termenii GO suprareprezentați. Mai mult, L. minor conține secvențe care codifică 12 sintetaze ale glutaminei (GS) și 21 de sintetaze ale glutamatului (GOGAT), în comparație cu 7 și, respectiv, 11 secvențe în S. polyrhiza (Fișiere suplimentare 15, 16: Fig. S4, S5; Fișier suplimentar 17: Tabelul S12). Ambele enzime reglează asimilarea amoniului, care este o cale biochimică importantă pentru utilizarea L. minor în remedierea apelor reziduale, posibil în combinație cu producția de energie . Prin urmare, aceste gene amplificate, care pot diverge pentru a produce funcții noi prin neofuncționalizare, ar putea fi candidați potențiali pentru studii funcționale ulterioare, deoarece sunt disponibile protocoale eficiente de transformare pentru L. minor .

Fig. 3
fig. 3

Compararea celor mai relevanți termeni GO slim pentru plante pentru trei ontologii structurate între L. minor (negru) și S. polyrhiza (galben). Termenii GO mai specifici suprareprezentați/subreprezentați în L. minor sunt prezentați în partea dreaptă. Simbolurile asterisc indică faptul că acești termeni GO sunt îmbogățiți semnificativ (testul Fisher exact, FDR <0,05) în L. minor (negru) sau S. polyrhiza (galben) (testul Fisher exact, FDR <0,05). pro process, organ. organization, dev. development, TF transcriptional factor

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.