Gènes codant pour des protéines avec des domaines AMP dans le génome de B. germanica

Pour identifier les gènes annotés avec des fonctions AMP dans le génome de B. germanica6, deux stratégies ont été utilisées. La première était la recherche de noms de produits comprenant les termes défense, drosomycine, tenecin, phormicine, attacin et coleoptericin. La seconde a été la recherche de domaines Pfam annotés liés aux peptides antimicrobiens. Ils sont inclus dans trois domaines claniques de la base de données Pfam : Knottin_1 (CL0054, superfamille des knottin-like de la toxine du scorpion), Defensin (CL0075, superfamille des defensin/myotoxin-like) et Omega_toxin (CL0083, Omega toxin-like). Les cinq domaines Pfam détectés étaient : PF11581 (Argos), PF03769 (Attacin_C), PF01097 (Defensin_2), PF00304 (Gamma-thionine) et PF11415 (Toxine_37). Après l’élimination de C0J52_07645 (Giant-lens protein) et C0J52_08617 (putative defense protein 3), parce qu’ils ne codent pas pour des AMPs, 24 gènes codants ont été retenus (Supplementary Table 1). Ils ont été initialement classés dans les groupes suivants : (i) protéines Defensin_2 (ci-après Defensin) (10 CDS, dont deux avec l’annotation partielle = 5′), (ii) Drosomycine (domaine Gamma-thionine) (10 CDS), (iii) Termicine (domaine Toxin_37) (3 CDS) et (iv) le CDS C0J52_26498. Ce dernier, annoté comme protéine hypothétique, était une longue protéine (541 acides aminés) avec un domaine Attacin_C. Cependant, une analyse moins rigoureuse des domaines a montré la présence potentielle de deux ou trois domaines supplémentaires dans cette protéine avec des similitudes avec l’Attacin_C et la Coleoptericin (PF06286).

Tableau 1 Gènes codant pour des protéines avec des domaines peptidiques antimicrobiens chez B. germanica.

Afin de réviser les gènes codant pour l’AMP annotés, plusieurs expériences SRA RNA-Seq de B. germanica (PRJNA389591) ont été passées au crible pour leur expression en utilisant BLASTN et plusieurs CDS AMP comme requêtes. Parmi les parcours SRA présentant une abondance de lectures AMP, le parcours RNA-Seq SRR6784710 (corps entier, femelle adulte) a été sélectionné. Le run SRR6784710 a été assemblé avec de novo Trinity25 et une base de données de transcription a été créée.

Le génome annoté a été comparé à la base de données de transcription dans le but d’identifier les ensembles complets de gènes AMP pour chaque classe. Après une révision minutieuse, nous avons identifié 39 gènes AMP (appartenant à cinq types : défensines, termicines, drosomycines, attacines-like et blattellicines), qui seront décrits ci-dessous. Trente-quatre d’entre eux étaient répartis dans dix échafaudages génomiques et cinq gènes n’étaient pas placés (tableau 1 ; tableau supplémentaire 2).

Gènes AMP défensines

Dix CDS AMP annotés avec un domaine défensine ont été utilisés comme requêtes contre la base de données de transcription SRR6784710 avec BLASTN (valeur e = 1,0E-20). Toutes ces requêtes ont produit des résultats avec au moins un transcrit. Au total, 16 transcrits différents ont été identifiés. L’abondance des transcriptions allait de valeurs TPM (transcriptions par million de transcriptions) de 323,64 à 0,00.

Les informations sur l’annotation du génome et les transcriptions assemblées ont été comparées (voir Matériaux & Méthodes) identifiant 16 gènes de défensine (tableaux supplémentaires 2 et 3). Ils ont reçu les noms de defensin_g1 à defensin_g16, defensin_g1 et defensin_g16 incluant deux isoformes alternatives qui n’affectent pas la région codante. Les isoformes i1 et i2 de defensin_g1 différaient par l’élimination ou non d’un intron 3′-UTR, tandis que les deux isoformes de defensin_g16 différaient par l’utilisation de différents signaux poly(A).

Les gènes de defensin (sauf defensin_g1 qui n’était pas placé) étaient regroupés en quatre échafaudages. Le defensin_g1 non placé a été inclus car le programme a identifié trois transcrits appartenant au cluster TRINITY_DN1123_c0. L’un d’entre eux (correspondant à defensin_g2) pourrait être lié au gène C0J52_24001 (codant pour une protéine hypothétique), bien que nous ayons retrouvé le cadre de lecture correct après le placement correct du début du second exon. Les deux autres transcrits présentaient une identité de 100% mais différaient par l’épissage alternatif d’un intron 3′-UTR de 453 nt. Nous les avons considérés comme des isoformes de defensin_g1, un gène différent de defensin_g2, car ils différaient par sept nucléotides (deux dans le CDS) plus trois indels de tailles différentes dans le 3′-UTR. Cependant, une telle séquence n’a été détectée dans aucune séquence d’échafaudage.

Le transcrit hautement exprimé (TRINITY_DN13842_c0_g1_i1) a apparemment été dérivé de l’assemblage incorrect par TRINITY des lectures de quatre loci différents dans le génome avec des séquences presque identiques (defensin_g3 à g6). Trois d’entre eux étaient précédemment annotés avec les qualificatifs locus_tag C0J52_27569, C0J52_22338 et C0J52_24004. Cependant, C0J52_27569 (gène = DEFI_4 dans l’échafaudage PYGN01003429) était un tandem de deux gènes (defensin_g3 et defensin_g4). Une lacune d’assemblage chevauchant defensin_g3 est probablement la raison expliquant pourquoi un seul ARNm expansant les deux gènes a été annoté dans le génome.

Les gènes defensin_g7 et defensin_g8 ont présenté des séquences CDS identiques mais avec plusieurs différences dans les segments UTR des séquences ARNm. Ils ont été placés dans les échafaudages PYGN01002380 et PYGN01001185, respectivement. Un seul d’entre eux, defensin_g8, était précédemment annoté comme le gène C0J52_22336.

Defensin_g9 correspond au gène C0J52_24005 codant pour la Phormicine, une protéine de 91 acides aminés. L’analyse de la transcription a révélé que la protéine codée est plus courte (71 acides aminés) avec une séquence peptidique signal de 20 acides aminés à son extrémité amino-terminale (voir ci-dessous). Defensin_g10 était également une Phormicine située dans un échafaudage différent, mais seul le deuxième exon était présent dans le génome, le premier exon étant très probablement placé dans un écart d’assemblage contigu de 1 kb.

Defensin_g11, g12 et g13 sont équivalents aux gènes annotés précédemment (tableaux supplémentaires 2 et 3). Defensin_g14 est présent dans l’échafaudage PYGN01001185, mais la majeure partie de la séquence du second exon est absente en raison d’un écart d’assemblage. Les séquences CDS de la défensine_g15 et du C0J52_20459 étaient identiques, mais l’analyse de la transcription de la défensine_g15 suggère un ARNm à deux exons au lieu du C0J52_20459 à trois exons.

Toutes les défensines présentaient des peptides signaux de 18 à 22 acides aminés à l’extrémité N-terminale et le domaine PF01097 (défensine_2) à l’extrémité C-terminale (voir des exemples d’organisations de domaines à la figure 1). La longueur de la chaîne d’acides aminés variait de 63 à 81 résidus avec une moyenne de 72 acides aminés. Bien que certaines protéines Defensin soient identiques, le nombre moyen de différences par paires était élevé (29 acides aminés). Une phylogénie de vraisemblance maximale déduite a montré leur distribution en sept groupes (Fig. 2a). Un logo de l’alignement protéique des protéines Defensin montre la séquence hydrophobe N-terminale ainsi que le domaine Defensin_2 (C-terminal) avec les six résidus cystéine conservés (figure supplémentaire 1).

Figure 1
figure1

Organisation des domaines dans les cinq types d’AMP de B. germanica. Une protéine de chaque classe est représentée. Les carrés orange correspondent à des peptides signaux. L’ovale rouge correspond à une région riche en glutamine/acide glutamique. Les ovales verts correspondent aux domaines Pfam-A PF03769 (Attacin_C). Les ovales bleus (de haut en bas) sont les domaines Pfam-A PF01097 (Defensine_2), PF11415 (Toxine_37) et PF00304 (Gamma-thionine), respectivement.

Figure 2
figure2

Phylogénies des protéines Defensin et Drosomycin de B. germanica. (a) Phylogénie de maximum de vraisemblance de 18 protéines Defensin (dérivées des transcriptions de 16 gènes). Modèle WAG + I avec délétion complète. Longueur de l’alignement 57 sites. Réplicats Bootstrap 100. Enracinement au point central. (b) Phylogénie de maximum de vraisemblance des protéines de la drosomycine. Modèle Dayhoff + G avec délétion complète. Longueur de l’alignement 66 sites. Répliques Bootstrap 100. Enracinement au point central. Les valeurs de bootstrap inférieures à 50 sont cachées.

Une comparaison entre les niveaux de transcription des 16 gènes de défensine a été estimée en utilisant une stratégie BLASTN basée sur des recherches BLASTN avec les nucléotides 41-190 de chaque CDS. Toutes les séquences de 150 nt étaient différentes dans, au moins, un nucléotide, à l’exception de defensin_g3 et g5 qui étaient identiques et le niveau de transcription n’a pas pu être attribué à un gène spécifique (Tableau supplémentaire 3). Sur la base des valeurs de MPT estimées par TRINITY et des niveaux de transcription estimés par cette stratégie BLAST, nous avons observé que dans cette montaison adulte femelle, defensin_g15 et g16 (codant pour les protéines Defensin-like), g9 et g10 (codant pour la Phormicine) et g1, g2, g3 et g5 (codant pour les protéines Tenecin-1) sont les gènes de défensine les plus fortement exprimés (Tableau supplémentaire 3).

En utilisant une stratégie TBLASTN, les transcriptions des défensines ont été recherchées dans 45 espèces couvrant l’ordre Blattodea26 (tableau supplémentaire 4). Quarante-quatre espèces contiennent des transcrits de défensine (plage de 1 à 9).

Gènes AMP de la dermicine

Trois gènes codant pour de petites protéines avec le domaine Pfam PF11415 sont annotés dans le génome (tableau supplémentaire 1). Les recherches BLASTN contre la base de données des transcriptions SRR6784710 ont donné des résultats avec seulement deux transcriptions très similaires. Le premier transcrit, TRINITY_DN10017_c0_g1_i1, présentait une seule différence avec C0J52_00758 ou C0J52_26761 au niveau de la séquence CDS mais plusieurs au niveau de la séquence d’ARNm restante, suggérant deux gènes indépendants dans le génome. Le deuxième transcrit, TRINITY_DN10017_c0_g2_i1, était identique à 100% à la fois au CDS et à l’ARNm de C0J52_26762, indiquant un troisième gène de termicine. Les trois protéines codées sont presque identiques avec une seule différence S/A au site 13 (figure supplémentaire 1). Un peptide hydrophobe signal est prédit entre les acides aminés 1 et 19 et le domaine Toxin_37 (PF11415) entre les acides aminés 30 et 63 (Fig. 1). Sur la base des valeurs de MPT estimées par TRINITY et des niveaux de transcription estimés par BLASTN (un segment de 150 pb couvrant quatre sites polymorphes dans le CDS de la termicine), nous pouvons conclure que termicin_g3 (C0J52_26762) est le gène de la termicine le plus fortement exprimé (tableau supplémentaire 5).

Les ARNm de la termicine ont été détectés chez 29 espèces de Blattodea appartenant aux différentes familles taxonomiques (tableau supplémentaire 4). Leur absence était fréquente chez les espèces de Corydioidea, suggérant la perte potentielle de ce type de gène, bien que l’absence d’expression dans ces échantillons ne puisse être exclue.

Gènes AMP de la drosomycine

Dix gènes codant pour des protéines avec le domaine Gamma-thionine (PF00304) sont annotés dans trois échafaudages du génome de B. germanica. Ces protéines antifongiques reçoivent le nom de Drosomycines. Les recherches BLASTN du CDS annoté contre la base de données des transcriptions SRR6784710 n’ont identifié que six transcriptions incluant le CDS complet et deux transcriptions insignifiantes couvrant seulement un segment du CDS.

La comparaison des CDS annotés et ceux dérivés de ces transcrits a révélé que seuls trois gènes annotés (C0J52_03170, C0J52_03171 et C0J52_12810) étaient équivalents à trois de ces transcrits (les premiers avec 2 différences nucléotidiques). Ils ont été annotés comme drosomycine_g2, g3 et g5 (tableaux supplémentaires 2 et 6). L’un des trois transcrits restants, correspondant à la drosomycine_g6, a pu être placé dans le génome, avec quelques différences nucléotidiques, dans un segment non annoté. Enfin, les séquences des deux autres transcrits n’ont pas été détectées dans le génome, bien que leurs séquences CDS soient très similaires à C0J52_03170 (avec 6 et 8 différences nucléotidiques). Ces différences suggèrent qu’il ne s’agit pas d’allèles mais de gènes indépendants et nous les avons annotés comme drosomycine_g1 et g4 (tableaux supplémentaires 2 et 6).

En revanche, six gènes annotés avec locus_tags, C0J52_12811-13 et C0J52_23105-08 n’ont pas été détectés dans le transcriptome de la femelle adulte, mais ils semblent être exprimés à d’autres stades de développement. Ils ont été annotés comme drosomycine_g7 à g13.

Une phylogénie des 13 protéines de la drosomycine a montré que defensin_g6 était le gène le plus éloigné, tandis que les 12 autres gènes formaient deux groupes de six gènes chacun. Les gènes drosomycin_g1 à g5, exprimés chez les femelles adultes, plus le non exprimé drosomycin_g9 formaient un clade bien étayé, tandis que les six autres gènes non exprimés formaient l’autre (figure 2b).

Une estimation du niveau de transcription a révélé que la drosomycine_g5 (C0J52_12810) était le gène avec l’expression la plus élevée, avec 86,1% des lectures de drosomycine pour ce segment dérivées de lui (tableau supplémentaire 6).

Douze des 13 protéines codées étaient longues de 66 acides aminés. La drosomycine_g6 avait une longueur de 71 acides aminés en raison de la présence au milieu de la protéine d’acides aminés supplémentaires dérivés de deux indels (sites 25-26 et 36-38 de l’alignement). Parmi les résidus observés, la caractéristique la plus remarquable des protéines codées est la présence de huit cystéines conservées27 (figure supplémentaire 1). Toutes les Drosomycines présentent un peptide hydrophobe signal à l’extrémité N-terminale et le domaine PF00304 (Gamma-thionine) à l’extrémité C-terminale (Fig. 1).

Les ARNm de la Drosomycine ont été détectés chez 24 espèces de Blattodea mais ils étaient absents chez les espèces d’Isoptera et leur proche parent Cryptocercus wrighti (Tableau supplémentaire 4). Le même fait a été détecté dans le clade Corydioidea, ce qui suggère que les termites et les autres Blattodea peuvent avoir perdu ce type de gène AMP.

Gènes AMP d’attacine : attacin-like et blattellicines

Plus de quatre régions présentant une certaine similitude avec le domaine Attacin_C (PF03769) ont été détectées dans la région de 47 kb couvrant le gène C0J52_26498 placé dans le contigu PYGN01001824. Après une analyse préliminaire du transcriptome assemblé, plus de dix séquences d’ARNm ont été identifiées. Elles ressemblent à des séquences complètes ou partielles d’ARNm appartenant à deux types de gènes d’attacine. Le premier type comprend des gènes codant pour des protéines attacines typiques (environ 120 acides aminés) avec un peptide signal à l’extrémité N-terminale et le domaine Attacin_C à l’extrémité C-terminale, qui ont été nommés gènes attacin-like. Le deuxième type était très différent, car il comprenait un long tronçon de résidus de glutamine/acide glutamique. Puisqu’ils semblaient être une innovation évolutive apparente chez B. germanica, nous les avons appelés blattellicines.

Trois transcriptions de type attacine ont été détectées dans le transcriptome (tableaux supplémentaires 2 et 7). Ils contenaient des séquences codantes de 357-360 nucléotides (118-119 acides aminés codés). Ils ont reçu les noms de attacin-like_g1 à attacin-like_g3. L’extraction et l’assemblage des lectures de ces ARNm ont confirmé leur existence, mais ont suggéré la possibilité d’un quatrième gène. L’attacin-like_g3A et l’attacin-like_g3B ne présentent que deux différences, la délétion d’un segment de 9 nucléotides dans le 5′UTR de l’attacin_g3B et une différence synonyme à la position 288 du CDS (l’inclusion des sites des deux différences dans une lecture était très peu fréquente compte tenu du fait que la longueur d’une lecture est de 301 nucléotides). Comme il n’y avait que deux différences et qu’elles n’étaient pas placées dans le génome, nous avons considéré qu’il s’agissait d’allèles du même gène.

Le CDS de l’attacin-like_g1 était relativement similaire à celui de l’attacin-like_g3 avec 9-10 différences. Cependant, ils étaient suffisamment différents pour être considérés comme des loci indépendants. Le gène attacin-like_g2 était le plus divergent avec 85-88 différences et un codon supplémentaire par rapport aux autres. Seules les séquences d’attacin-like_g1 et g2 étaient localisées dans le génome (tableaux supplémentaires 2 et 7).

L’annotation des blattellicines était beaucoup plus compliquée. Après une analyse préliminaire, un long CDS (> 250 codons) avec une structure curieuse a été observé. Il commençait par le peptide signal hydrophobe à l’extrémité N-terminale, suivi d’un long segment riche en Glx au milieu (> 70 résidus, principalement des glutamines et des acides glutamiques) et d’un domaine Attacin C-terminal (Fig. 1).

Plus de 13 transcrits d’ARNm (tous contenant des segments de CDS incomplets) impliquant ce type de séquences ont été détectés. Les raisons principales étaient que la présence de plusieurs gènes de blattellicine et les longues régions riches en Glx ont drastiquement affecté l’assemblage du transcriptome. Ce fait a probablement eu lieu lors de l’assemblage et de l’annotation du génome de B. germanica5,6.

La séquence 5′ d’un CDS de blattellicine a été utilisée comme requête pour identifier avec BLASTN les lectures dérivées de l’expression des gènes de blattellicine dans le run SRR6784710. Après extraction et assemblage, quatre départs différents de gènes de blattellicine ont été révélés, avec une gamme de 7 à 18 différences nucléotidiques par paires dans le 5′ des ARNm. Ces quatre débuts d’ARNm ont été utilisés pour recruter les séquences de gènes restantes jusqu’à l’achèvement du CDS.

La plupart de la séquence CDS de blattellicine_g1 a pu être identifiée dans le génome, bien qu’environ 200-bp aient été absents en raison de deux lacunes d’assemblage (tableaux supplémentaires 2 et 7). Pour les autres, seul le premier exon codant des blattellicines_g2 et g4 a pu être attribué sans équivoque à un segment contigu spécifique, bien que des occurrences pour d’autres segments du CDS aient également été détectées, mais sans identité à 100 %. Aucune séquence identique au premier exon de blattellicine_g3 n’a pu être identifiée dans le génome. L’explication la plus plausible est que les quatre gènes de blattellicine sont présents en tandem dans le génome, mais que leur structure spéciale de répétition centrale empêche des assemblages corrects dans le génome ou les transcriptomes, sauf si une inspection manuelle des alignements est effectuée. En outre, les variations du nombre de copies de codons Glx dans la population ne peuvent être exclues.

Nous avons détecté que les blattellicines étaient exprimées à un niveau plus élevé que les gènes de type attacine, la blattellicine_g4 étant la plus exprimée dans ce transcriptome (tableau supplémentaire 7).

Les logiques des alignements de protéines pour les trois protéines de type attacine et les quatre protéines blattellicines de B. germanica ont révélé un petit segment d’acides aminés chargés négativement dans les protéines de type Attacine et un long segment dans les Blattellicines (Fig. 3).

Figure 3
figure3

Logos des alignements et composition en acides aminés des protéines de type Attacine et Blattellicine de B. germanica. (a) Logo de l’alignement de trois protéines de type Attacin. (b) Logo de l’alignement de quatre Blattellicines. (c) Composition moyenne en acides aminés (%) des protéines de type Attacin et Blattellicine.

Des ARNm d’Attacin ont été détectés dans la plupart des espèces de Blattodea (tableau supplémentaire 4). Les Hits pour les blattellicines ne couvraient pas la région Glx mais uniquement le domaine attacin_C. Pour comprendre l’histoire de l’évolution des gènes de type attacine et blattellicine chez B. germanica, nous avons extrait les transcriptions des attacines de sept projets TSA de Blattellinae26 (Symploce sp. AD-2014, Loboptera decipiens, Episymploce sundaica, Ischnoptera deropeltiformis, Paratemnopteryx couloniana, Lobopterella dimidiatipes, Asiablatta kyotensis). Ces transcriptomes proviennent de corps entiers d’adultes, à l’exception de I. deropeltiformis (sans information sur le stade de développement). Ils peuvent potentiellement couvrir tous les gènes d’attacines pour chaque génome, bien que la possibilité de gènes sans expression ne puisse être écartée. Le plus grand nombre de gènes d’attacines était de trois chez E. sundaica. Deux gènes ont été observés chez L. decipiens, Symploce sp. AD-2014 et A. kyotensis, bien que chez le premier, l’une des copies était incomplète et très divergente, probablement un pseudogène, tandis que chez le second, les deux copies étaient incomplètes de quelques codons à l’extrémité 5′ du CDS. On a recherché dans le projet SRA les lectures couvrant le début du CDS et, sur la base de celles récupérées, l’une était complète et, dans l’autre, seuls quatre codons étaient manquants. L’espèce restante contenait une seule copie du gène. En outre, afin d’utiliser comme un outgroup, l’unique détecté dans P. americana a été extrait.

Une phylogénie a été réalisée avec un alignement rogné (103 sites) (Fig. 4). La courte longueur de l’alignement de séquences a empêché l’obtention de valeurs bootstrap élevées dans la plupart des nœuds et a empêché de déterminer avec une confiance totale l’histoire évolutive de cette famille de gènes. Cependant, plusieurs faits sont observés à partir de la phylogénie. Premièrement, les gènes de type attacine constituent le type de gène ancestral. Certaines espèces de Blattellinae ne contiennent qu’un ou deux gènes. Dans le cas du clade de B. germanica, E. sundaica, L. decipiens et Symploce sp. AD-2014, la duplication d’un gène ancestral attacin-like a eu lieu avant leur divergence, ce qui a entraîné l’apparition des types attacin-like_g1 et g2. Bien que L. decipiens attacin-like_g1 n’ait pas été inclus dans la phylogénie, une copie incomplète et divergente d’un transcrit de ce type (GDYK01026461.1) est détectée, probablement dérivée d’une copie pseudogénisée.

Figure 4
figure4

Phylogénie des protéines de typettacine et Blattellicine chez les Blattellinae. (a) Phylogénie de maximum de vraisemblance des protéines contenant le domaine Attacin_C dans la sous-famille des Blattellinae. Modèle LG + G avec délétion complète. L’alignement a été rogné pour joindre le peptide signal N-terminal plus le domaine Attacin_C C-terminal (longueur 103 sites). P. americana a été utilisé comme outgroup. Réplicats Bootstrap 100. Les valeurs de bootstrap inférieures à 50 sont masquées. Tous les noms d’espèces sont abrégés (voir les codes dans la topologie de droite), sauf Symploce sp. Ceux sans abréviations sont des protéines de B. germanica. (b) Relations taxonomiques selon26.

L’origine des blattellicines semble être très récente. Bien que non soutenu par une valeur bootstrap significative, potentiellement un gène ancestral de type attacin-like_g2 a été dupliqué et l’une des copies, après une évolution rapide, a généré les blattellicines. La duplication a eu lieu avant la divergence d’E. sundaica et de B. germanica. La protéine de la première est apparemment une pré-Blattellicine, comprenant certaines des nouvelles caractéristiques des Blattellicines, comme une grande taille (182 résidus) et quelques acides aminés supplémentaires à l’extrémité C-terminale (RK chez B. germanica et GKGK chez E. sundaica). Cependant, la principale caractéristique des Blattellicines, la longue région poly-Glx, est absente, bien que la pré-Blattellicine d’E. sundaica comprenne une piste de sept acides glutamiques (avec un A au milieu) près du début du domaine attacine.

Expression de l’AMP chez B. germanica

Pour déterminer l’expression des gènes AMP dans les tissus, les stades de développement ou les sexes de B. germanica, nous avons sélectionné les CDS de 17 types de gènes AMP (defensin_g2, g3, g7, g9, g11, g13 et g15 ; termicin_g1 ; drosomycin_g1, g5, g6, g11 et g12 ; attacin-like_g1 et g2 ; blattellicin_g1 et g4). Ils sont suffisamment différents pour éviter des résultats croisés importants entre ceux sélectionnés du même groupe. Cependant, en raison de la grande similitude du CDS de certains gènes de la même famille, les valeurs obtenues ont montré l’expression des ensembles de gènes avec des séquences presque identiques (par exemple, les trois gènes de termicine ou attacin-like_g1 et g3).

Les niveaux d’expression ont été estimés avec une stratégie BLASTN en tant que nombre de hits/Gb de l’expérience SR (tableau supplémentaire 8). L’analyse heatmap de 28 expériences SR de corps entier correspondant à des échantillons de différents stades de développement (Fig. 5) a révélé plusieurs conclusions. Tout d’abord, les femelles adultes ont montré une forte expression de la plupart des gènes AMP, bien que la plus pertinente ait été la plus forte expression de blattellicine_g1 et g4. Certaines drosomycines étaient également fortement exprimées, en particulier la drosomycine_g5. L’expression de certains gènes était liée au développement (voir, par exemple, l’absence d’expression des drosomycines g11 et g12 chez les femelles adultes mais leur forte expression chez les nymphes). Parmi les défensines, les plus fortement exprimées pendant la plupart des stades de développement étaient les défensines_g9 et g15. L’expression des défensines g2 et g3 était plus élevée chez les femelles adultes que chez les nymphes. Termicin_g1 a montré une faible expression dans les nymphes et les adultes. Les gènes de type attacin-like étaient également exprimés chez les femelles adultes, avec des valeurs d’attacin-like_g1 plus élevées que celles d’attacin-like_g2, ce qui était en accord avec les résultats décrits précédemment (tableau supplémentaire 7), considérant également que les occurrences détectées pour attacin-like_g1 proviennent probablement des gènes g1 et g3.

Figure 5
figure5

Expression génétique de 17 gènes AMP dans les corps entiers de B. germanica. Analyse Heatmap illustrant l’abondance des transcrits pour 17 gènes AMP sélectionnés dans 28 expériences Sequence Read correspondant à des corps entiers provenant de divers stades de développement de B. germanica avec indication, dans certains cas, du sexe de l’échantillon. Les valeurs ont été estimées comme le quotient entre le nombre de lectures produisant un hit avec une valeur e inférieure à 1,0E-40 (en utilisant les séquences CDS complètes comme requêtes dans les recherches BLASTN) et la taille en Gb de l’expérience SR.

En général, les gènes AMP affichent une augmentation de l’expression à mesure que le développement progresse vers les formes adultes. Malheureusement, aucune expérience de SR pour des mâles exclusivement adultes n’a été déposée dans la base de données SRA, bien que certains échantillons mixtes mâles et femelles soient rapportés (tableau supplémentaire 8).

Nous avons également analysé l’expression de ces 17 gènes AMP dans certaines expériences transcriptomiques de SR dans lesquelles les échantillons proviennent d’un seul tissu, d’une partie du corps ou d’un mélange de plusieurs tissus (tableau supplémentaire 8). En général, drosomycin_g5 et defensin_g9 semblent être exprimés dans la plupart de ces échantillons. Dans deux expériences provenant de têtes d’adultes mâles, plusieurs gènes AMP ont été exprimés à un niveau pertinent, y compris defensin_g7 et g9, drosomycin_g5 et attacin-like_g2. En général, le niveau d’expression dans ces échantillons est beaucoup plus faible que ceux provenant de corps entiers. Cela nous amène à proposer que d’autres parties du corps différentes du corps gras, des ovaires ou de l’épiderme sont responsables des niveaux d’expression élevés observés dans les femelles adultes du corps entier (Fig. 5).

Aucune expression de la blattellicine_g1 et de la blattellicine_g4 n’a été observée dans aucun tissu ou partie de l’échantillon du corps, à l’exception d’une expression presque indétectable dans un échantillon d’œufs non fécondés, probablement due à une contamination par des tissus femelles.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.