- Assemblage de novo du génome de L. minor avec plus de 100× de couverture Illumina
- Les séquences répétitives comprennent 62 % de l’assemblage du génome de L. minor
- L. minor 5500 contient un nombre similaire de gènes codant pour des protéines que S. polyrhiza 7498
- Le protéome de Lemna est majoritairement (66.2 %) partagé avec le protéome de Spirodela
- L’information sur l’annotation des gènes soutient l’analyse fonctionnelle ultérieure du génome et les applications de production de biomasse
Assemblage de novo du génome de L. minor avec plus de 100× de couverture Illumina
Le génome du clone 5500 de L. minor a été estimé à 481 Mbp par cytométrie en flux (Fig. 1b) et est compacté en 20 paires de chromosomes (2n = 40, Fig. 1c). Afin d’obtenir la séquence de référence du génome de L. minor, l’ADN génomique total a été isolé pour créer deux librairies en paires pour la plateforme Illumina. Une bibliothèque HiSeq 2 × 100 à haute couverture a été complétée par des lectures plus longues provenant d’une bibliothèque MiSeq 2 × 300. Aucun espace n’a été inclus entre les deux extrémités des fragments, ce qui a donné des lectures en paires ayant une longueur nominale de fragment de 200 et 600 pb, respectivement. La bibliothèque HiSeq était composée de 215 721 669 lectures (43 Gbp) représentant une couverture du génome d’environ 90×, tandis que la bibliothèque Miseq contenait 26 270 063 lectures (15 Gbp) équivalant à une couverture du génome de 30×. Après avoir éliminé les adaptateurs et les lectures contenant des nucléotides inconnus ou de faible qualité, les 207 985 822 et 24 416 556 lectures de haute qualité restantes (couverture de 87× et 29× respectivement) ont été utilisées pour assembler le génome de L. minor (fichier additionnel 1 : tableau S1). Pour obtenir la meilleure ébauche de séquence possible, trois programmes d’assemblage différents ont été évalués pour l’assemblage de novo, à savoir SOAPdenovo2 et CLC bio, qui utilisent tous deux un algorithme basé sur le graphe de Bruijn, et MaSuRCA, qui utilise un algorithme d’assemblage basé sur le chevauchement pour les soi-disant super lectures. Ces super-lectures sont des lectures courtes étendues de manière unique à partir de lectures en paires à couverture élevée afin de compresser les données de manière significative. Par la suite, les assemblages obtenus ont été traités avec SSPACE pour échafauder, et Gapcloser pour combler les lacunes dans une étape finale. En ce qui concerne le nombre de contigs/scaffolds, les valeurs N50 correspondantes et la fréquence d’erreur de mismatch, il a été constaté que le projet de génome généré par MaSuRCA a généré une séquence génomique plus robuste par rapport aux génomes générés par SOAPdenovo2 et CLC bio (fichier supplémentaire 2 : tableau S2). Les processus de correction des erreurs et de superlecture de MaSuRCA ont réduit les lectures brutes appariées à 2 145 090 superlectures qui ont été appliquées pour calculer le chevauchement par paires entre ces lectures. À partir de ces superlectures, le pipeline MaSuRCA a généré 49 027 contigs (taille N50 des contigs : 20,9 kbp) et 46 105 échafaudages (taille N50 des échafaudages : 23,6 kbp) d’une longueur minimale de 1000 pb (fichier supplémentaire 2 : tableau S2). Par conséquent, les échafaudages résultant de MaSuRCA ont été utilisés pour d’autres analyses en aval.
En utilisant le pipeline CEGMA, 233 gènes codant pour des protéines (94 %) d’un ensemble de gènes eucaryotes hautement conservés (248) ont été reconnus dans le génome assemblé MaSuRCA, dont 215 gènes (86 %) étaient complètement (>70 % de leur longueur) couverts (fichier supplémentaire 3 : tableau S3). Pour évaluer la précision de l’assemblage de novo, un ensemble de transcriptions générées de novo provenant de la même souche de L. minor a été aligné sur les échafaudages. En utilisant le logiciel BLAT , il a été constaté que ~97 % des transcrits nettoyés s’alignaient sur au moins un échafaudage, avec une couverture ≥95 % et une identité de séquence ≥90 % (fichier supplémentaire 4 : tableau S4). La séquence finale assemblée couvrait 472 128 703 bases intégrées dans 46 047 échafaudages, avec une longueur N50 de 23 801 bases lorsque les échafaudages de 1000 pb ou moins sont exclus. Cette longueur est similaire à la taille prédite du génome à l’aide de Kmergenie qui a estimé la taille de l’assemblage à 475 Mbp sur la base des statistiques k-mer, ou à 481 Mbp en utilisant la cytométrie en flux (Fig. 1b). Par conséquent, en tant que proportion du contenu de l’ADN nucléaire, la séquence du génome de L. minor était presque entièrement (98,15 %) couverte par les échafaudages assemblés. Les échafaudages ayant une longueur de séquence de 2 kbp ou plus couvraient environ 96 % de la séquence de l’assemblage du génome de novo, dont 17 échafaudages avaient une longueur de séquence minimale de 0,5 Mbp (fichier supplémentaire 5 : figure S1). En utilisant les données disponibles sur l’ADN chloroplastique de L. minor, le génome chloroplastique complet du clone 5500 de L. minor a été obtenu ici en alignant les lectures NGS à l’aide de BWA avec le génome chloroplastique de L. minor de Genbank comme référence (NC_010109.1). Ce génome chloroplastique était de 165,9 Mbp et contenait 48 variantes liées à 117 pb (0,07 %) par rapport à la séquence de référence Genbank qui est originaire d’un clone/écotype différent (fichier additionnel 6 : tableau S5).
Dans cette étude, une approche shotgun du génome entier a été utilisée pour séquencer le génome de L. minor en utilisant l’assemblage de novo de bibliothèques de lecture exclusivement paires, ce qui a donné une valeur N50 modérée. L’absence de bibliothèques de paires de matrices fait une différence significative dans la taille des échafaudages et donc aussi dans la valeur N50. Les bibliothèques de lectures en paires ne peuvent tout simplement pas couvrir un grand nombre de séquences répétitives dans un génome, en particulier dans les génomes de plantes, qui sont connus pour avoir un grand nombre de séquences répétitives. La participation d’un ensemble de bibliothèques de paires de matrices produirait des échafaudages plus longs, ce qui rendrait les valeurs N50 10 à 100 fois plus élevées. Notre assemblage de génome contient une valeur N50 d’échafaudage de plus de 20 kbp, ce qui est comparable à la valeur N50 d’échafaudage des assemblages de génome de Cannabis sativa et Phoenix dactylifera . De plus, les valeurs N50 générées d’autres assemblages de génomes de plantes séquencés auxquels aucune bibliothèque de paires de matrices n’est incluse (valeur N50 de l’échafaudage) sont également en ligne avec la valeur N50 de l’échafaudage obtenue ici. Cela suggère que l’assemblage produit de L. minor couvre la plupart des séquences non répétées. De nouvelles bibliothèques de séquençage ainsi que des informations de cartographie telles que des cartes physiques, des cartes optiques ou des cartes cytogénétiques peuvent être nécessaires pour améliorer la qualité de la séquence du génome afin d’analyser la génomique comparative, les duplications du génome entier ou l’évolution du génome chez les espèces de lentilles d’eau. Cependant, l’assemblage actuel nous permet de caractériser les éléments de base (par exemple, la répétition et le contenu des gènes) du génome de L. minor.
Les séquences répétitives comprennent 62 % de l’assemblage du génome de L. minor
Les comparaisons basées sur l’homologie ont révélé que 62 % de l’assemblage du génome de L. minor était constitué de séquences répétitives (tableau 1). Les répétitions ont été classées en rétrotransposons (31,20 %), transposons d’ADN (5,08 %), répétitions en tandem (3,91 %) et autres répétitions non classées (21,27 %). Les rétrotransposons à longue répétition terminale (LTR) constituent la classe prédominante d’éléments transposables (29,57 %), ce qui est cohérent avec d’autres génomes végétaux.
Les familles de transposons les plus abondantes étaient gypsy et copia, contribuant à 10,59 et 18,79 % du génome, respectivement. En ce qui concerne les éléments transposables de l’ADN, il a été constaté que les éléments DNA_hAT-Ac étaient les plus abondants, couvrant presque 2,7 % du génome nucléaire. La proportion élevée de séquences répétitives pourrait expliquer la distribution dispersée des signatures d’hétérochromatine du clone 8623 de L. minor (377 Mbp, ). Étant donné que la plasticité de la taille du génome dans les différents clones de L. minor (allant de 323 à 760 Mbp) pourrait résulter de différentes amplifications répétitives et/ou de récentes duplications du génome entier, il est intéressant d’étudier le contenu répétitif et le caryotype de différents clones géographiques de L. minor. En comparaison avec le génome de S. polyrhiza qui est la lenticule la plus ancienne, l’amplification répétitive dans L. minor pourrait expliquer 94,5 % de la différence de taille du génome entre deux génomes de référence de la lenticule. De manière surprenante, le LTR copia est plus abondant que le LTR gypsy dans le génome de L. minor. Le rapport gypsy/copia dans L. minor est de 0,56, alors que le rapport correspondant dans S. polyrhiza est de 3,5 . Bien que notre méthode d’identification des répétitions dépende de l’assemblage, ce qui implique que le contenu des répétitions pourrait être sous-estimé et que la proportion de répétitions non classées est élevée (34,37 % du contenu des répétitions, tableau 1), le contenu des répétitions chez L. minor suggère que l’amplification des rétrotransposons LTR a joué un rôle important dans l’évolution du génome des lenticules. Une caractérisation plus détaillée des répétitions dans les projets de séquençage de génomes de lentilles d’eau publiés ou en cours pourrait jeter plus de lumière sur cette histoire intéressante.
L. minor 5500 contient un nombre similaire de gènes codant pour des protéines que S. polyrhiza 7498
Des échafaudages de 2 kbp ou plus ont été sélectionnés pour la prédiction des gènes, car les prédicteurs de gènes nécessitent une certaine quantité de séquence en amont et en aval d’un gène pour fonctionner avec précision. Par conséquent, les échafaudages inférieurs à 2 kbp ont été ignorés afin de réduire les erreurs de faux positifs et les modèles de gènes fragmentés dans la prédiction de gènes. L’outil CEGMA a été utilisé pour évaluer l’exhaustivité de cette sélection de séquences d’échafaudage. Il s’est avéré que 213 gènes de pleine longueur étaient encore complètement alignés, ce qui signifie que le nombre final de l’annotation des gènes représente au moins 85 % du nombre réel de gènes (fichier supplémentaire 3 : tableau S3). Les modèles de gènes provenant des séquences du génome de L. minor masquées ont été prédits et annotés avec le pipeline de prédiction de gènes ab initio et basé sur l’homologie MAKER-P (Additional file 7 : Table S6). Pour obtenir un ensemble complet de modèles de gènes de L. minor, l’ARN a été isolé et séquencé à partir de plantes L. minor cultivées dans des conditions de croissance saines et de plantes L. minor exposées à diverses conditions de stress (y compris le traitement à l’uranium, aux rayons gamma et au Sr-90). En utilisant la plateforme Illumina HiSeq, environ 592 326 402 lectures de séquençage propres ont été obtenues après le triage des adaptateurs et des lectures de mauvaise qualité (fichier supplémentaire 8 : tableau S7). 530 159 transcriptions ont été produites avec l’assembleur de novo Trinity, y compris différentes isoformes par transcription. Ces données transcriptomiques de L. minor, ainsi que tous les transcrits disponibles des espèces de lentilles d’eau Landoltia punctata, Lemna gibba et S. polyrhiza et complétées par neuf protéomes de plantes monocotylédones, ont servi de preuve pour les outils de prédiction de gènes SNAP et Augustus à l’intérieur du pipeline Maker-P. Au total, 22 382 gènes codant pour des protéines ont été annotés, dont 18 744 gènes (84 %) avaient un score AED (Annotation Edit Distance) inférieur à 0,25, ce qui peut être considéré comme très précis (Fig. 1d). Bien que le nombre de gènes soit inférieur à celui trouvé dans d’autres plantes monocotylédones séquencées, il était très similaire à celui de la plante étroitement apparentée S. polyrhiza. Ceci soutient l’hypothèse que l’anatomie petite et structurellement simple des espèces de lentilles d’eau a permis de perdre un certain nombre de gènes. En moyenne, les modèles de gènes étaient constitués de 1934 pb et d’une moyenne de 4,8 exons par gène (tableau 2 ; fichier additionnel 9 : figure S2). La distribution de la longueur des exons était cohérente avec celle des autres espèces, bien que la longueur des introns de L. minor ait eu tendance à être plus courte que celle des autres espèces utilisées dans la comparaison (tableau 2). Pour évaluer la précision de l’annotation obtenue, l’ensemble complet des protéines de L. minor du National Center of Biotechnology Information (NCBI) a été comparé aux protéines de L. minor. Il s’est avéré que 60 des 61 accessions NCBI (téléchargées le 11-09-2015) pouvaient être alignées sur au moins une des protéines L. minor (BLASTP , e-value de 1e-10) (fichier additionnel 10 : tableau S8).
Du fait que le génome de L. minor a été séquencé en utilisant une approche WGS sans l’utilisation de bibliothèques de paires de matrices ou la construction d’une carte physique, il n’est pas exclu que certains allèles aient pu être annotés comme des gènes individuels. L’hétérozygotie est notamment plus répandue chez les individus asexués que chez les espèces sexuées par l’accumulation de mutations dans les lignées clonales. Une étude de Cole et Voskuil a révélé que cela était également vrai pour une population de L. minor . Cependant, lorsque le pipeline MaSuRCA est utilisé à la place de l’approche d’assemblage basée sur le graphique de Bruijn, il permet de surmonter les séquences répétées, les erreurs, les régions à faible couverture et les petites différences structurelles causées par l’hétérozygotie grâce à son approche de consensus par chevauchement et disposition. Pour évaluer la précision de l’annotation de novo, nous avons examiné la proportion de transcrits créés de novo représentés dans le transcriptome annoté. Un total de 179 736 transcriptions ARN différentes ont été faites par Transdecoder dont 179 734 ont pu être mappées aux transcriptions annotées (BLASTN , e-valeur de 1e-30).
Le protéome de Lemna est majoritairement (66.2 %) partagé avec le protéome de Spirodela
Pour étudier le contenu génétique de L. minor et des lentilles d’eau en général, nous avons examiné les similitudes de séquence entre les gènes de L. minor et de S. polyrhiza et deux autres plantes monocotylédones fortement annotées. Ainsi, les 22 382 produits génétiques de L. minor ont été regroupés en groupes orthologues et paralogues avec 107 716 produits génétiques de S. polyrhiza, Oryza sativa et Zea mays en utilisant OrthoMCL . Bien que les trois ensembles d’annotation de gènes contiennent des nombres différents de modèles de gènes reflétant les différents historiques d’annotation, cette comparaison a fourni une indication de l’exhaustivité globale de notre assemblage. En résumé, 8202 groupes orthologues ont été conservés dans les quatre espèces, soit 39 % des gènes soumis (Fig. 2a). En plus des 3546 gènes singleton de L. minor (non regroupés par OrthoMCL, 15,8 % du total des gènes de L. minor), un total de 795 groupes paralogues représentant 2897 gènes (12,9 %) étaient uniques à L. minor (fichier additionnel 11 : tableau S9). Ces 6443 gènes de deux groupes sont appelés gènes spécifiques de Lemna dans cette étude. On s’attend à ce que les espèces les plus étroitement apparentées aient un nombre plus élevé de modèles génétiques similaires. En conséquence, 14 830 gènes L. minor (66,2 %) ont des orthologues dans S. polyrhiza, tandis que 1109 autres gènes L. minor (4,9 %) ont des orthologues soit dans O. sativa, Z. mays, ou les deux mais pas dans S. polyrhiza (Fig. 2b). En outre, il a été constaté que 1821 gènes (8,13 %) de L. minor partageaient une similarité unique avec au moins un gène de S. polyrhiza, qui sont en outre appelés gènes spécifiques de la lenticule.
Il a été montré dans le génome de S. polyrhiza qu’il y a eu deux anciens cycles de duplications du génome entier au cours de l’évolution (environ 90 Mya) . Dans la comparaison des familles de gènes entre S. polyrhiza et quatre espèces végétales représentatives (Arabidopsis, tomate, banane et riz), un faible nombre de copies de gènes chez S. polyrhiza indique des pertes préférentielles de gènes dupliqués . Il serait intéressant d’étudier le nombre de gènes et la relation des familles de gènes d’autres génomes de Lemna qui sont en cours, tels que L. gibba G3 DWC131 (450 Mbp) et Lemna minor clone 8627 (800 Mbp) . Il est concevable que le génome de l’ancêtre des espèces de Lemna contenait au moins une duplication récente du génome entier après la division entre les genres L. minor et S. polyrhiza, suivie par différents degrés de processus d’élimination des gènes dupliqués, ce qui a donné lieu à différentes espèces de Lemna dont la taille du génome varie de 323 à 760 Mbp. La perte de gènes la plus importante peut entraîner une réduction du nombre total de gènes, comme dans le cas de L. minor 5500. Une autre hypothèse, d’un autre côté, pourrait être que L. minor 5500 représente le génome de l’ancêtre Lemna qui contient le même contenu génétique que le génome de Spirodela. D’autres espèces de Lemna au génome plus grand pourraient avoir évolué à partir d’une expansion de répétitions plus importantes ou de duplications très récentes et indépendantes du génome entier. Cette hypothèse pourrait être testée par un travail futur, qui étudie la relation de macro-synténie entre le génome de S. polyrhiza 7498 (2n = 40, 158 Mbp) et le génome de L. minor 5500 (2n = 40, 481 Mbp).
L’information sur l’annotation des gènes soutient l’analyse fonctionnelle ultérieure du génome et les applications de production de biomasse
Pour identifier les fonctions putatives des modèles de gènes de L. minor, une recherche de similarité de séquence a été effectuée par rapport aux séquences de protéines Swiss-Prot d’Arabidopsis thaliana et d’O. sativa (BLASTP , valeur e de 1e-5). Ensuite, les transcriptions ont été annotées avec des termes de Gene Ontology (GO) et de Pfam en utilisant une installation locale d’Interproscan 5 et une cartographie des voies KEGG en utilisant le serveur d’annotation automatique KEGG (KAAS). La base de données pfam-A fournit des modèles de Markov cachés de profil pour plus de 13 672 familles de protéines conservées. Le projet GO fournit une ontologie de termes définis représentant les propriétés des produits génétiques, qui couvre trois domaines : composant cellulaire, fonction moléculaire et processus biologique. Le résultat de KAAS contient des affectations KO (KEGG Orthology) et des voies KEGG générées automatiquement. Au total, 21 263 modèles génétiques (95 %) ont reçu un lien d’annotation avec au moins une des bases de données incluses, dont 18 597 (83,1 %) ont été assignés à un ou plusieurs domaines Pfam, 7329 (32,7 %) à un terme de l’ontologie KEGG et 15 512 (69,3 %) des protéines ont été annotées avec succès avec des termes de l’ontologie génétique. Les termes GO de L. minor présentent une similarité globale avec les annotations GO de S. polyrhiza, O. sativa et Z. mays (Fig. 3, Fichier complémentaire 12 : Figure S3 ; Fichier complémentaire 13 : Tableau S10). L’analyse d’enrichissement GO entre les deux espèces de lentilles d’eau révèle que le protéome de L. minor contient 24 termes GO surreprésentés et 15 sous-représentés avec un FDR significatif <0,05 (Fig. 3 ; Additional file 14 : Table S11). Les protéines enrichies dans L. minor 5500 comprenaient (1) des enzymes impliquées dans les processus cataboliques (GO:9056, 422 protéines), l’activité hydrolase (GO:16787, 2739 protéines) ; (2) des protéines en réponse à divers stimulus (par ex, stress (GO:6950, 529 protéines), stimulus abiotique (GO:9628, 86 protéines), stimulus extracellulaire (GO:9991, 19 protéines), stimulus endogène (GO:9719, 55 protéines) ; et (3) processus de biosynthèse (par exemple, métabolites précurseurs et énergie (GO:6091, 258 protéines), processus métabolique de l’ADN (GO:6259, 350 protéines), processus métabolique des glucides (GO:5975, 776 protéines). Ces protéines pourraient contribuer à la capacité de L. minor (1) à éliminer les nutriments excédentaires des eaux usées, (2) à s’adapter à diverses conditions climatiques, ce qui explique sa répartition mondiale, et (3) à fournir une valeur nutritionnelle et une productivité élevée de la biomasse. Il est intéressant de noter que 2381 gènes spécifiques de L. minor (36,9 %) et 326 gènes dupliqués en tandem de L. minor (17,4 %) sont présents dans les termes GO surreprésentés. De plus, L. minor contient des séquences codant pour 12 glutamine synthétases (GS) et 21 glutamate synthétases (GOGAT) en comparaison avec 7 et 11 séquences chez S. polyrhiza, respectivement (Additional files 15, 16 : Fig. S4, S5 ; Additional file 17 : Table S12). Les deux enzymes régulent l’assimilation de l’ammonium qui est une voie biochimique importante pour l’utilisation de L. minor dans l’assainissement des eaux usées, éventuellement en combinaison avec la production d’énergie. Par conséquent, ces gènes amplifiés, qui peuvent diverger pour produire de nouvelles fonctions via la néofonctionnalisation, pourraient être des candidats potentiels pour des études fonctionnelles supplémentaires, puisque des protocoles de transformation efficaces pour L. minor sont disponibles .
.