Gen die coderen voor eiwitten met AMP-domeinen in het genoom van B. germanica

Om geannoteerde genen met AMP-functies in het genoom van B. germanica6 te identificeren werden twee strategieën gebruikt. De eerste was het zoeken naar productnamen met de termen defense, drosomycine, tenecine, phormicine, attacine en coleoptericine. De tweede was het zoeken naar geannoteerde Pfam-domeinen die verband houden met antimicrobiële peptiden. Zij zijn opgenomen in drie clan-domeinen van de Pfam-database: Knottin_1 (CL0054, Scorpion toxin-like knottin superfamily), Defensin (CL0075, Defensin/myotoxin-like superfamily) en Omega_toxin (CL0083, Omega toxin-like). De vijf ontdekte Pfam-domeinen waren: PF11581 (Argos), PF03769 (Attacin_C), PF01097 (Defensin_2), PF00304 (Gamma-thionin) en PF11415 (Toxin_37). Na verwijdering van C0J52_07645 (Giant-lens protein) en C0J52_08617 (putative defense protein 3), omdat deze niet coderen voor AMPs, bleven 24 coderende genen over (supplementaire tabel 1). Zij werden aanvankelijk in de volgende groepen ingedeeld: (i) Defensin_2 eiwitten (hierna Defensin) (10 CDS, waaronder twee met de annotatie partial = 5′), (ii) Drosomycine (Gamma-thionine domein) (10 CDS), (iii) Termicine (Toxine_37 domein) (3 CDS) en (iv) het CDS C0J52_26498. Dit laatste, geannoteerd als hypothetisch eiwit, was een lang eiwit (541 aminozuren) met een Attacin_C domein. Een minder strikte domeinanalyse toonde echter de mogelijke aanwezigheid van twee of drie extra domeinen in dit eiwit met overeenkomsten met Attacin_C en Coleoptericine (PF06286).

Tabel 1 Genen die coderen voor eiwitten met antimicrobiële peptidedomeinen in B. germanica.

Om de geannoteerde AMP-coderende genen te herzien, werden verschillende B. germanica RNA-Seq SRA-experimenten (PRJNA389591) gescreend op hun expressie met behulp van BLASTN en verschillende AMP CDS als query’s. Onder de SRA runs met overvloed aan AMP reads, werd de RNA-Seq run SRR6784710 (gehele lichaam, volwassen vrouw) geselecteerd. Run SRR6784710 werd geassembleerd met de novo Trinity25 en een transcript database werd gecreëerd.

Het geannoteerde genoom werd vergeleken met de transcript database met als doel het identificeren van de complete sets van AMP genen voor elke klasse. Na zorgvuldige revisie identificeerden wij 39 AMP-genen (behorend tot vijf typen: defensines, termicines, drosomycines, attacine-achtige en blattellicines), die hieronder zullen worden beschreven. Vierendertig van hen waren verdeeld over tien genoom scaffolds en vijf genen waren ongeplaatst (tabel 1; aanvullende tabel 2).

Defensin AMP genen

Tien geannoteerde AMP CDS met een Defensin domein werden gebruikt als query’s tegen de SRR6784710 transcript database met BLASTN (e-waarde = 1.0E-20). Deze leverden allemaal hits op met ten minste één transcript. In totaal werden 16 verschillende transcripten geïdentificeerd. De abundantie van de transcripten varieerde van TPM (transcripten per miljoen transcripten) waarden van 323,64-0,00.

Informatie over genoom-annotatie en de geassembleerde transcripten werd vergeleken (zie Materialen & Methoden) waarbij 16 defensine-genen werden geïdentificeerd (Aanvullende tabellen 2 en 3). Zij kregen de namen van defensin_g1 tot defensin_g16, waarbij defensin_g1 en defensin_g16 twee alternatieve isovormen omvatten die geen invloed hebben op de coderende regio. Defensin_g1 isovormen i1 en i2 verschilden in het al dan niet verwijderen van een 3′-UTR intron, terwijl de twee isovormen van defensin_g16 verschilden in het gebruik van verschillende poly(A) signalen.

Defensin genen (behalve defensin_g1 dat ongeplaatst was) werden geclusterd in vier scaffolds. De niet-geplaatste defensin_g1 werd opgenomen omdat het programma drie transcripten die behoren tot de cluster TRINITY_DN1123_c0 geïdentificeerd. Eén daarvan (dat overeenkomt met defensin_g2) zou in verband kunnen worden gebracht met gen C0J52_24001 (dat codeert voor een hypothetisch eiwit), hoewel we het juiste leesframe hebben teruggevonden na de correcte plaatsing van het begin van het tweede exon. De andere twee transcripten vertoonden 100% identiteit, maar verschilden in de alternatieve splicing van een 453-nt 3′-UTR intron. We beschouwden ze als isovormen van defensin_g1, een ander gen van defensin_g2, omdat ze verschilden in zeven nucleotiden (twee in de CDS) plus drie indels van verschillende grootte in het 3′-UTR. Een dergelijke sequentie werd echter in geen enkele scaffoldsequentie gedetecteerd.

Het sterk tot expressie komende transcript (TRINITY_DN13842_c0_g1_i1) was blijkbaar afgeleid van de onjuiste assemblage door TRINITY van de reads van vier verschillende loci in het genoom met vrijwel identieke sequenties (defensin_g3 t/m g6). Drie daarvan waren eerder geannoteerd met de locus_tag qualifiers C0J52_27569, C0J52_22338 en C0J52_24004. C0J52_27569 (gen = DEFI_4 in scaffold PYGN01003429) was echter een tandem van twee genen (defensin_g3 en defensin_g4). Een montagehiaat dat defensin_g3 overlapt is waarschijnlijk de reden waarom een enkel mRNA dat beide genen uitbreidt in het genoom werd geannoteerd.

De genen defensin_g7 en defensin_g8 vertoonden identieke CDS-sequenties maar met verscheidene verschillen in de UTR-segmenten van de mRNA-sequenties. Zij werden respectievelijk in de scaffolds PYGN01002380 en PYGN01001185 geplaatst. Slechts één ervan, defensin_g8, was eerder geannoteerd als gen C0J52_22336.

Defensin_g9 komt overeen met gen C0J52_24005 dat codeert voor Phormicin, een 91-amino-eiwit. Uit de transcriptanalyse bleek dat het gecodeerde eiwit korter is (71 aminozuren) met een signaalpeptidesequentie van 20 aminozuren aan de amino-terminus (zie hieronder). Defensin_g10 was ook een formicine in een andere scaffold, maar alleen het tweede exon was in het genoom aanwezig, waarbij het eerste exon hoogstwaarschijnlijk in een aaneengesloten assemblagehiaat van 1 kb was geplaatst.

Defensin_g11, g12 en g13 zijn gelijkwaardig aan eerder geannoteerde genen (supplementaire tabellen 2 en 3). Defensin_g14 is aanwezig in scaffold PYGN01001185, maar het grootste deel van de sequentie van het tweede exon is afwezig als gevolg van een assembly gap. De CDS-sequenties van defensin_g15 en C0J52_20459 waren identiek, maar transcriptanalyse van defensin_g15 suggereerde een twee-exon mRNA in plaats van het drie-exon C0J52_20459.

Alle defensins vertoonden signaalpeptiden van 18 tot 22 aminozuren aan de N-terminus en het PF01097 (Defensin_2)-domein aan de C-terminus (zie voorbeelden van domeinorganisaties in Fig. 1). De lengte van de aminozuurketen varieerde van 63 tot 81 residuen met een gemiddelde van 72 aminozuren. Hoewel sommige Defensin-eiwitten identiek waren, was het gemiddelde aantal paarsgewijze verschillen hoog (29 aminozuren). Een afgeleide maximale waarschijnlijkheid fylogenie toonde hun verdeling in zeven clusters (Fig. 2a). Een logo van de eiwituitlijning van de Defensine-eiwitten toont de hydrofobe N-terminale sequentie alsook het Defensine_2-domein (C-terminus) met de zes geconserveerde cysteïneresiduen (supplementaire fig. 1).

Figuur 1
figuur 1

Domeinorganisatie in de vijf soorten AMP’s van B. germanica. Van elke klasse is één eiwit afgebeeld. Oranje vierkanten zijn signaalpeptiden. Een rode ovaal komt overeen met een glutamine/glutaminezuur-rijke regio. Groene ovalen zijn Pfam-A domeinen PF03769 (Attacin_C). Blauwe ovalen (van boven naar beneden) zijn respectievelijk Pfam-A domeinen PF01097 (Defensin_2), PF11415 (Toxin_37) en PF00304 (Gamma-thionine).

Figuur 2
figuur2

B. germanica Defensine- en Drosomycine-eiwitfylogenieën. (a) Maximale aannemelijkheid fylogenie van 18 Defensine-eiwitten (afgeleid van transcripties van 16 genen). Model WAG + I met volledige deletie. Alignment lengte 57 sites. Bootstrap replicaten 100. Worteling in het midden. (b) Maximale waarschijnlijkheid fylogenie van Drosomycine eiwitten. Model Dayhoff + G met volledige deletie. Alignment lengte 66 sites. Bootstrap repliceert 100. Mid-point rooting. Bootstrap-waarden kleiner dan 50 zijn verborgen.

Een vergelijking tussen de transcriptieniveaus van de 16 defensine-genen werd geschat met behulp van een BLASTN-strategie op basis van BLASTN-zoekopdrachten met nucleotiden 41-190 van elke CDS. Alle 150-nt sequenties verschilden in ten minste één nucleotide, behalve defensin_g3 en g5, die identiek waren en waarvan het transcriptieniveau niet aan een specifiek gen kon worden toegewezen (aanvullende tabel 3). Op basis van de door TRINITY geschatte TPM-waarden en de door deze BLAST-strategie geschatte transcriptieniveaus hebben wij geconstateerd dat in deze vrouwelijke volwassen run defensine_g15 en g16 (coderend voor Defensine-achtige proteïnen), g9 en g10 (coderend voor Phormicine) en g1, g2, g3 en g5 (coderend voor Tenecin-1 proteïnen) de meest tot expressie komende defensine-genen zijn (aanvullende tabel 3).

Met behulp van een TBLASTN-strategie werden defensine-transcripten opgezocht in 45 soorten die de orde Blattodea26 bestrijken (aanvullende tabel 4). Vierenveertig soorten bevatten defensine-transcripten (range 1 tot 9).

Termicine AMP-genen

Drie genen die coderen voor kleine eiwitten met het Pfam-domein PF11415 zijn geannoteerd in het genoom (aanvullende tabel 1). BLASTN-zoekopdrachten tegen de SRR6784710 transcriptdatabase leverden hits op met slechts twee zeer vergelijkbare transcripten. Het eerste transcript, TRINITY_DN10017_c0_g1_i1, vertoonde één enkel verschil met C0J52_00758 of C0J52_26761 bij de CDS-sequentie maar verscheidene bij de resterende mRNA-sequentie, wat twee onafhankelijke genen in het genoom suggereert. Het tweede transcript, TRINITY_DN10017_c0_g2_i1, was 100% identiek met zowel CDS als mRNA van C0J52_26762, wat wijst op een derde termicinegen. De drie gecodeerde eiwitten zijn bijna identiek met een enkel S/A verschil op plaats 13 (Supplementary Fig. 1). Een hydrofoob signaalpeptide wordt voorspeld tussen aminozuren 1 en 19 en het Toxine_37 domein (PF11415) tussen aminozuren 30 en 63 (Fig. 1). Op basis van de door TRINITY geschatte TPM-waarden en de door BLASTN geschatte transcriptieniveaus (een segment van 150 bp dat vier polymorfe plaatsen in de termicine-CDS omvat), kunnen we concluderen dat termicine_g3 (C0J52_26762) het meest tot expressie komende termicinegen is (aanvullende tabel 5).

Termicine-mRNA’s werden gedetecteerd in 29 Blattodea-soorten die tot de verschillende taxonomische families behoren (aanvullende tabel 4). Hun afwezigheid was frequent in soorten van Corydioidea, wat wijst op een mogelijk verlies van dit type gen, hoewel het ontbreken van expressie in deze monsters niet kan worden uitgesloten.

Drosomycine AMP-genen

Tien genen die coderen voor eiwitten met het domein Gamma-thionine (PF00304) zijn geannoteerd in drie scaffolds van het B. germanica-genoom. Deze antischimmeleiwitten krijgen de naam Drosomycines. BLASTN-zoekopdrachten van de geannoteerde CDS tegen de SRR6784710-transcriptdatabank identificeerden slechts zes transcripten die de volledige CDS omvatten en twee onbelangrijke transcripten die slechts een CDS-segment omvatten.

Vergelijking van de geannoteerde CDS en die afgeleid van deze transcripten bracht aan het licht dat slechts drie geannoteerde genen (C0J52_03170, C0J52_03171 en C0J52_12810) equivalent waren met drie van deze transcripten (de eerstgenoemde met 2 nucleotide verschillen). Zij werden geannoteerd als drosomycine_g2, g3 en g5 (aanvullende tabellen 2 en 6). Eén van de drie resterende transcripten, overeenkomend met drosomycine_g6, kon in het genoom worden geplaatst, met enkele nucleotide verschillen, in een niet-geannoteerd segment. Tenslotte werden de sequenties van de twee andere transcripten niet in het genoom gedetecteerd, hoewel hun CDS-sequenties sterk leken op C0J52_03170 (met 6 en 8 nucleotide-verschillen). Deze verschillen suggereren dat het geen allelen zijn maar onafhankelijke genen en we annoteerden ze als drosomycine_g1 en g4 (aanvullende tabellen 2 en 6).

Anderzijds werden zes geannoteerde genen met locus_tags, C0J52_12811-13 en C0J52_23105-08, niet gedetecteerd in het transcriptoom van het volwassen vrouwtje, maar ze lijken tot expressie te komen in andere ontwikkelingsstadia. Zij werden geannoteerd als drosomycine_g7 tot g13.

Een fylogenie van de 13 drosomycine-eiwitten toonde aan dat defensine_g6 het meest afgelegen gen was, terwijl de andere 12 genen twee clusters van elk zes genen vormden. De genen drosomycine_g1 tot g5, tot expressie gebracht in volwassen wijfjes, plus het niet-geëxprimeerde drosomycine_g9 vormden één goed ondersteunde clade, terwijl de andere zes niet-geëxprimeerde genen de andere vormden (Fig. 2b).

Een schatting van het transcriptieniveau toonde aan dat drosomycine_g5 (C0J52_12810) het gen met de hoogste expressie was, met 86,1% van de drosomycine-lezingen voor dit segment afkomstig van het (aanvullende tabel 6).

Twaalf van de 13 gecodeerde eiwitten waren 66 aminozuren lang. Drosomycine_g6 was 71 aminozuren lang als gevolg van de aanwezigheid in het midden van het eiwit van extra aminozuren afkomstig van twee indels (plaatsen 25-26 en 36-38 van de uitlijning). Van de waargenomen residuen is het meest opmerkelijke kenmerk in de gecodeerde eiwitten de aanwezigheid van acht geconserveerde cysteïnen27 (supplementaire fig. 1). Alle Drosomycines vertonen een hydrofoob signaalpeptide aan de N-terminus en het PF00304 domein (Gamma-thionine) aan de C-terminus (Fig. 1).

Drosomycine mRNA’s werden gedetecteerd in 24 Blattodea soorten, maar ze waren afwezig in soorten van Isoptera en hun nauwe verwant Cryptocercus wrighti (supplementaire tabel 4). Hetzelfde feit werd vastgesteld in de clade Corydioidea, wat suggereert dat termieten en andere Blattodea dit type AMP-gen verloren kunnen hebben.

Attacine AMP-genen: attacine-achtige en blattellicines

Tot vier regio’s met enige overeenkomst met het Attacin_C domein (PF03769) werden gedetecteerd in de 47-kb-regio die het C0J52_26498 gen omspant, geplaatst in contig PYGN01001824. Na een voorlopige analyse van het geassembleerde transcriptoom werden meer dan tien mRNA-sequenties geïdentificeerd. Deze lijken op volledige of gedeeltelijke sequenties van mRNA’s die behoren tot twee typen attacine-genen. Het eerste type omvat genen die coderen voor typische attacine-eiwitten (ongeveer 120 aminozuren) met een signaalpeptide aan de N-terminus en het Attacin_C-domein aan de C-terminus, die werden aangeduid als attacine-achtige genen. Het tweede type was zeer verschillend, omdat het een lange strook van glutamine/glutaminezuur-residuen bevatte. Omdat ze een duidelijke evolutionaire innovatie leken in B. germanica, noemden we ze blattellicines.

Drie attacine-achtige transcripten werden gedetecteerd in het transcriptoom (supplementaire tabellen 2 en 7). Zij bevatten coderende sequenties van 357-360 nucleotiden (118-119 gecodeerde aminozuren). Zij kregen de namen attacin-like_g1 tot attacin-like_g3. De extractie en assemblage van de gegevens voor deze mRNA’s bevestigden hun bestaan, maar suggereerden de mogelijkheid van een vierde gen. Attacin-like_g3A en attacin-like_g3B vertonen slechts twee verschillen, de deletie van een 9-nucleotide-segment in de 5′UTR van attacin_g3B en een synoniem verschil op CDS-positie 288 (de opname van de locaties voor de twee verschillen in een lees was zeer zeldzaam gezien het feit dat de lengte van een lees 301 nucleotiden is). Omdat er slechts twee verschillen waren en ze niet in het genoom waren geplaatst, beschouwden we ze als allelen van hetzelfde gen.

Attacin-like_g1 CDS was relatief vergelijkbaar met attacin-like_g3 CDS met 9-10 verschillen. Zij waren echter voldoende verschillend om als onafhankelijke loci te worden beschouwd. Attacin-like_g2 was het meest divergente gen met 85-88 verschillen en een extra codon ten opzichte van de anderen. Alleen de sequenties van attacin-like_g1 en g2 werden in het genoom gelokaliseerd (supplementaire tabellen 2 en 7).

De annotatie van blattellicines was veel gecompliceerder. Na een voorlopige analyse werd een lange CDS (> 250 codons) met een merkwaardige structuur waargenomen. Het begon met het hydrofobe signaalpeptide aan de N-terminus, gevolgd door een lang Glx-rijk segment in het midden (> 70 residuen, hoofdzakelijk glutaminen en glutaminezuren) en een C-terminaal Attacin-domein (Fig. 1).

Tot 13 mRNA-transcripten (die alle onvolledige CDS-segmenten bevatten) met dit type sequenties werden gedetecteerd. De belangrijkste redenen hiervoor waren dat de aanwezigheid van verschillende blattellicine-genen en de lange Glx-rijke regio’s de assemblage van het transcriptoom drastisch beïnvloedden. Dit feit vond waarschijnlijk plaats tijdens de assemblage en annotatie van het B. germanica genoom5,6.

De 5′-sequentie van een blattellicine CDS werd gebruikt als query om met BLASTN die gelezen te identificeren die afkomstig waren van de expressie van blattellicine genen in de run SRR6784710. Na extractie en assemblage werden vier verschillende starts van blattellicine-genen onthuld, met een bereik van 7 tot 18 paarsgewijze nucleotide-verschillen in de 5′ van mRNAs. Deze vier mRNA start werden gebruikt om de resterende gen sequenties te werven tot CDS voltooiing.

Het grootste deel van de CDS-sequentie voor blattellicine_g1 kon worden geïdentificeerd in het genoom, hoewel ongeveer 200-bp ontbraken als gevolg van twee montage gaten (Supplementary tabellen 2 en 7). Voor de andere kon alleen het eerste coderende exon van blattellicine_g2 en g4 ondubbelzinnig aan een specifiek contig-segment worden toegewezen, hoewel ook hits voor andere segmenten van de CDS werden gevonden, maar zonder 100% identiteit. In het genoom kon geen identieke sequentie voor het eerste exon van blattellicine_g3 worden geïdentificeerd. De meest haalbare verklaring is dat de vier blattellicine-genen in tandemkopieën in het genoom aanwezig zijn, maar dat hun speciale centrale herhaalstructuur een correcte assemblage in het genoom of het transcriptoom verhindert, behalve wanneer handmatige inspectie van de alignments wordt uitgevoerd. Bovendien kunnen variaties in het aantal Glx codon-kopieën in de populatie niet worden uitgesloten.

Wij ontdekten dat blattellicines op een hoger niveau tot expressie kwamen dan attacine-achtige genen, waarbij blattellicine_g4 het meest tot expressie kwam in dit transcriptoom (supplementaire tabel 7).

Logos van de eiwituitlijningen voor de drie attacine-achtige en de vier blattellicine-eiwitten van B. germanica onthulden een klein segment van negatief geladen aminozuren in Attacin-achtige eiwitten en een lang segment in Blattellicins (fig. 3).

Figuur 3
figure3

Logo’s van uitlijningen en aminozuursamenstelling van B. germanica Attacin-achtige en Blattellicin-eiwitten. (a) Logo van de uitlijning van drie Attacin-achtige eiwitten. (b) Logo van de uitlijning van vier Blattellicines. (c) Gemiddelde aminozuursamenstelling (%) van Attacin-achtige en Blattellicine-eiwitten.

Attacin-mRNA’s werden in de meeste Blattodea-soorten gedetecteerd (aanvullende tabel 4). Hits voor blattellicins hadden geen betrekking op de Glx regio, maar alleen op het attacin_C domein. Om de evolutionaire geschiedenis van attacine-achtige en blattellicine-genen in B. germanica te begrijpen, extraheerden we de attacine-transcripten van zeven Blattellinae TSA-projecten26 (Symploce sp. AD-2014, Loboptera decipiens, Episymploce sundaica, Ischnoptera deropeltiformis, Paratemnopteryx couloniana, Lobopterella dimidiatipes, Asiablatta kyotensis). Deze transcriptomen zijn afkomstig van volwassen hele lichamen, behalve I. deropeltiformis (zonder informatie over het ontwikkelingsstadium). Zij kunnen potentieel alle attacine-genen voor elk genoom omvatten, hoewel de mogelijkheid van genen zonder expressie niet kan worden uitgesloten. Het grootste aantal attacine-genen was drie in E. sundaica. Twee genen werden waargenomen in L. decipiens, Symploce sp. AD-2014 en A. kyotensis, hoewel bij de eerste een van de kopieën incompleet en zeer afwijkend was, waarschijnlijk een pseudogeen, terwijl bij de laatste de twee kopieën een paar codons incompleet waren aan het 5′-einde van het CDS. Het SRA-project werd gescreend op leest die het begin van de CDS bestreek en op basis van de teruggevonden leest was één exemplaar compleet en in het andere ontbraken slechts vier codons. De overblijvende soort bevatte een enkele genkopie. Bovendien werd, om als outgroup te dienen, de enige in P. americana gevonden kopie geëxtraheerd.

Een fylogenie werd uitgevoerd met een getrimde uitlijning (103 sites) (Fig. 4). De korte lengte van de sequentie alignment verhinderde hoge bootstrap waarden in de meeste knooppunten en bemoeilijkte het bepalen met volledige betrouwbaarheid van de evolutionaire geschiedenis van deze genfamilie. Uit de fylogenie kunnen echter verschillende feiten worden afgeleid. Ten eerste, attacine-achtige genen zijn het voorouderlijke gen type. Sommige Blattellinae soorten bevatten slechts één of twee genen. In het geval van de clade van B. germanica, E. sundaica, L. decipiens en Symploce sp. AD-2014, vond de duplicatie van een voorouderlijk attacine-achtig gen plaats vóór hun divergentie, wat resulteerde in het verschijnen van attacine-achtige_g1 en g2 types. Hoewel L. decipiens attacin-like_g1 niet in de fylogenie werd opgenomen, wordt een onvolledige en divergente kopie van een transcript van dit type (GDYK01026461.1) gedetecteerd, waarschijnlijk afgeleid van een gepseudogeniseerde kopie.

Figuur 4
figuur4

Attacine-achtige en Blattellicine-eiwitfylogenie in Blattellinae. (a) Maximale waarschijnlijkheidsfylogenie van eiwitten met het Attacin_C-domein in de onderfamilie Blattellinae. Model LG + G met volledige deletie. De alignie werd getrimd om het N-terminale signaalpeptide plus het C-terminale attacin_C domein (lengte 103 sites) te verbinden. P. americana werd gebruikt als outgroup. Bootstrap repliceert 100 keer. Bootstrapwaarden kleiner dan 50 zijn verborgen. Alle soortnamen zijn afgekort (zie codes in de rechter topologie), behalve Symploce sp. Die zonder afkortingen zijn eiwitten van B. germanica. (b) Taxonomische verwantschappen volgens26.

De oorsprong van blattellicines lijkt zeer recent te zijn. Hoewel dit niet door een significante bootstrapwaarde wordt ondersteund, is het mogelijk dat een voorouderlijk gen van het type attacine_g2 is gedupliceerd en dat uit een van de kopieën, na een snelle evolutie, blattellicines zijn voortgekomen. De duplicatie vond plaats vóór de divergentie van E. sundaica en B. germanica. Het eiwit in eerstgenoemd eiwit is blijkbaar een pre-Blattellicine, met inbegrip van enkele van de nieuwe kenmerken van Blattellicines, zoals de grote omvang (182 residuen) en een paar extra aminozuren aan de C-terminus (RK in B. germanica en GKGK in E. sundaica). Het belangrijkste kenmerk van Blattellicines, de lange poly-Glx-regio, is echter afwezig, hoewel E. sundaica pre-Blattellicine een spoor van zeven glutaminezuren (met een A in het midden) bevat dicht bij het begin van het attacinedomein.

AMP expressie in B. germanica

Om de expressie van AMP-genen in B. germanica weefsels, ontwikkelingsstadia of geslachten te bepalen, selecteerden we de CDS van 17 AMP-genstypes (defensin_g2, g3, g7, g9, g11, g13 en g15; termicin_g1; drosomycin_g1, g5, g6, g11 en g12; attacin-like_g1 en g2; blattellicin_g1 en g4). Zij zijn voldoende verschillend om belangrijke kruisresultaten tussen de geselecteerden van dezelfde groep te vermijden. Door de grote overeenkomst van de CDS van sommige genen van dezelfde familie, toonden de verkregen waarden echter de expressie van de reeksen genen met bijna identieke sequenties (bijvoorbeeld de drie termicine-genen of attacin-like_g1 en g3).

Expressieniveaus werden geschat met een BLASTN-strategie als aantal treffers/Gb van SR-experiment (aanvullende tabel 8). De heatmap-analyse van 28 hele lichaam SR experimenten die overeenkomen met monsters uit verschillende ontwikkelingsstadia (Fig. 5) onthulde verschillende conclusies. Ten eerste vertoonden volwassen wijfjes een hoge expressie van de meeste AMP-genen, hoewel de meest relevante de hoogste expressie van blattellicine_g1 en g4 was. Sommige drosomycines kwamen ook hoog tot expressie, in het bijzonder drosomycine_g5. De expressie van sommige genen hing samen met de ontwikkeling (zie bijvoorbeeld de afwezigheid van expressie van drosomycine g11 en g12 bij volwassen wijfjes, maar de hoge expressie bij nimfen). Van de defensines waren defensine g9 en g15 de meest tot expressie komende genen tijdens de meeste ontwikkelingsstadia. De expressie van defensine g2 en g3 was hoger bij volwassen wijfjes dan bij nimfen. Termicine_g1 vertoonde een lage expressie in nimfen en adulten. Ook attacine-achtige genen kwamen tot expressie in volwassen wijfjes, waarbij de waarden van attacine-achtig_g1 hoger waren dan die van attacine-achtig_g2, hetgeen in overeenstemming was met eerder beschreven resultaten (aanvullende tabel 7), mede gezien het feit dat de gedetecteerde treffers voor attacine-achtig_g1 waarschijnlijk afkomstig zijn van g1- en g3-genen.

Figuur 5
figure5

Genexpressie van 17 AMP-genen in hele lichamen van B. germanica. Heatmap-analyse ter illustratie van de abundantie van transcripten voor 17 geselecteerde AMP-genen in 28 sequentie-leesexperimenten die overeenkomen met hele lichamen uit diverse ontwikkelingsstadia van B. germanica, met in sommige gevallen vermelding van het geslacht van het monster. De waarden werden geschat als het quotiënt tussen het aantal gelezen die een hit produceren met een e-waarde kleiner dan 1.0E-40 (met gebruikmaking van de volledige CDS-sequenties als query’s in BLASTN-zoekopdrachten) en de grootte in Gb van het SR-experiment.

In het algemeen vertonen AMP-genen een toename in expressie naarmate de ontwikkeling vordert tot volwassen vormen. Helaas is er geen SR-experiment voor uitsluitend volwassen mannetjes in de SRA-database gedeponeerd, hoewel er wel enkele gemengde mannetjes- en vrouwtjesmonsters zijn gerapporteerd (aanvullende tabel 8).

We hebben ook de expressie van deze 17 AMP-genen geanalyseerd in enkele transcriptomische SR-experimenten waarbij de monsters afkomstig zijn van één enkel weefsel, een lichaamsdeel of een mengsel van verschillende weefsels (aanvullende tabel 8). In het algemeen lijken drosomycine_g5 en defensine_g9 in de meeste van deze monsters tot expressie te komen. In twee experimenten van mannelijke volwassen hoofden, werden verschillende AMP-genen tot expressie gebracht op een relevant niveau, met inbegrip van defensine_g7 en g9, drosomycine_g5 en attacine-like_g2. In het algemeen is het expressieniveau in deze stalen veel kleiner dan dat van hele lichamen. Dit doet ons vermoeden dat andere delen van het lichaam dan het vetlichaam, de eierstokken of de opperhuid verantwoordelijk zijn voor de hoge expressieniveaus die in het hele lichaam van volwassen wijfjes worden waargenomen (Fig. 5).

Geen expressie van blattellicine_g1 en blattellicine_g4 werd waargenomen in enig weefsel of deel van het lichaamsmonster, met uitzondering van een bijna niet detecteerbare expressie in één niet-gebevrucht ei-monster, waarschijnlijk te wijten aan contaminatie met vrouwelijke weefsels.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.