Geenit, jotka koodaavat proteiineja, joilla on AMP-domeeneja B. germanican genomissa

Tunnistamaan annotoituja geenejä, joilla on AMP-toimintoja B. germanican genomissa6 käytettiin kahta strategiaa. Ensimmäisessä etsittiin tuotenimiä, jotka sisälsivät termit defense, drosomysiini, tenekiini, formisiini, atasiini ja koleopterisiini. Toinen oli mikrobilääkepeptideihin liittyvien annotoitujen Pfam-domeenien haku. Ne sisältyvät Pfam-tietokannan kolmeen klaanialueeseen: Knottin_1 (CL0054, skorpionitoksiinin kaltainen knottinin superperhe), defensiini (CL0075, defensiinin/myotoksiinin kaltainen superperhe) ja Omega_toksiini (CL0083, Omega-toksiinin kaltainen). Viisi havaittua Pfam-domeenia olivat: PF11581 (Argos), PF03769 (Attacin_C), PF01097 (Defensin_2), PF00304 (Gamma-tioniini) ja PF11415 (Toxin_37). Kun C0J52_07645 (Giant-lens-proteiini) ja C0J52_08617 (oletettu puolustusproteiini 3) poistettiin, koska ne eivät koodaa AMP:tä, jäljelle jäi 24 koodaavaa geeniä (lisätaulukko 1). Ne luokiteltiin aluksi seuraaviin ryhmiin: (i) Defensin_2-proteiinit (jäljempänä Defensin) (10 CDS, mukaan lukien kaksi, joiden annotaatio on osittainen = 5′), (ii) Drosomysiini (gamma-tioniinidomeeni) (10 CDS), (iii) Termisiini (Toxin_37-domeeni) (3 CDS) ja (iv) CDS C0J52_26498. Jälkimmäinen, joka on merkitty hypoteettiseksi proteiiniksi, oli pitkä proteiini (541 aminohappoa), jolla oli Attacin_C-domeeni. Vähemmän tiukka domeenianalyysi osoitti kuitenkin, että tässä proteiinissa on mahdollisesti kaksi tai kolme muuta domeenia, joilla on yhtäläisyyksiä Attacin_C:n ja koleopterisiinin (PF06286) kanssa.

Taulukko 1 Geenit, jotka koodaavat proteiineja, joilla on antimikrobisia peptididomeeneja B. germanica.

Tarkistaaksemme annotoituja AMP:tä koodaavia geenejä, useita B. germanica RNA-Seq SRA-kokeita (PRJNA389591) seulottiin niiden ilmentymisen varalta käyttäen BLASTN:ää ja useita AMP CDS:iä kyselyinä. SRA-ajoista, joissa oli runsaasti AMP-lukemia, valittiin RNA-Seq-ajo SRR6784710 (koko keho, aikuinen naaras). Ajo SRR6784710 koottiin de novo Trinity25:llä ja luotiin transkriptiotietokanta.

Annotoitua genomia verrattiin transkriptiotietokantaan tavoitteena tunnistaa AMP-geenien täydelliset sarjat kustakin luokasta. Huolellisen tarkistuksen jälkeen tunnistimme 39 AMP-geeniä (jotka kuuluvat viiteen tyyppiin: defensiinit, termisiinit, drosomysiinit, attacins-like ja blattellicins), jotka kuvataan jäljempänä. Niistä 34 jakautui kymmeneen genomin telineeseen ja viisi geeniä oli sijoittumatta (taulukko 1; lisätaulukko 2).

Defensiini-AMP-geenit

Kymmenen annotoitua AMP CDS:ää, joilla oli defensiinidomeeni, käytettiin BLASTN:llä (e-arvo = 1.0E-20) kyselyinä SRR6784710 transkriptiotietokannasta. Kaikki niistä tuottivat osumia, joissa oli vähintään yksi transkripti. Yhteensä tunnistettiin 16 erilaista transkriptiä. Transkriptien runsaus vaihteli TPM-arvojen (transcripts per million transcripts, transkriptejä miljoonaa transkriptiä kohti) välillä 323,64-0,00.

Tietoja genomin annotaatiosta ja koottuja transkriptejä verrattiin toisiinsa (ks. Materiaalit & Menetelmät), jolloin tunnistettiin 16 defensiinigeeniä (täydentävät taulukot 2 ja 3). Ne saivat nimet defensin_g1 – defensin_g16, ja defensin_g1 ja defensin_g16 sisältävät kaksi vaihtoehtoista isoformia, jotka eivät vaikuta koodaavaan alueeseen. Defensin_g1:n isoformit i1 ja i2 erosivat toisistaan 3′-UTR-intronin poistamisen tai poistamatta jättämisen suhteen, kun taas defensin_g16:n kaksi isoformia erosivat toisistaan erilaisten poly(A)-signaalien käytön suhteen.

Defensiinigeenit (lukuun ottamatta defensin_g1:tä, joka ei ollut sijoitettu) klusteroitiin neljään scaffoldiin. Sijoittumaton defensin_g1 otettiin mukaan, koska ohjelma tunnisti kolme transkriptiä, jotka kuuluivat klusteriin TRINITY_DN1123_c0. Yksi niistä (joka vastaa defensin_g2:ta) voisi liittyä geeniin C0J52_24001 (joka koodaa hypoteettista proteiinia), vaikka saimme takaisin oikean lukukehyksen toisen eksonin alun oikean sijoittamisen jälkeen. Kaksi muuta transkriptiä olivat 100-prosenttisesti identtisiä, mutta erosivat toisistaan 453 nt:n 3′-UTR-intronin vaihtoehtoisen splikoinnin osalta. Pidimme niitä defensin_g1:n, joka on eri geeni kuin defensin_g2, isomuotoina, koska ne erosivat toisistaan seitsemässä nukleotidissa (kaksi CDS:ssä) ja kolmessa erikokoisessa indelissä 3′-UTR:ssä. Tällaista sekvenssiä ei kuitenkaan havaittu missään scaffold-sekvenssissä.

Korkeasti ekspressoitunut transkripti (TRINITY_DN13842_c0_g1_i1) oli ilmeisesti peräisin TRINITYn suorittamasta virheellisestä kokoonpanosta, jossa TRINITY kokosi lukemat neljästä eri lokuksesta, joilla oli lähes identtiset sekvenssit (defensin_g3-g6). Kolme niistä oli aiemmin annotoitu locus_tag-tunnisteilla C0J52_27569, C0J52_22338 ja C0J52_24004. C0J52_27569 (geeni = DEFI_4 telineessä PYGN01003429) oli kuitenkin kahden geenin (defensiini_g3 ja defensiini_g4) tandemi. Defensin_g3:n kanssa päällekkäinen kokoonpanoväli on luultavasti syy, joka selittää, miksi genomissa annotoitiin yksi mRNA, joka laajensi molempia geenejä.

Geeneillä defensin_g7 ja defensin_g8 oli identtiset CDS-sekvenssit, mutta mRNA-sekvenssien UTR-segmenteissä oli useita eroja. Ne sijoitettiin telineisiin PYGN01002380 ja PYGN01001185. Ainoastaan toinen niistä, defensin_g8, oli aiemmin merkitty geeniksi C0J52_22336.

Defensin_g9 vastaa geeniä C0J52_24005, joka koodaa formisiinia, 91-aminohappoista proteiinia. Transkriptioanalyysi osoitti, että koodattu proteiini on lyhyempi (71 aminohappoa) ja sen aminoterminaalissa on 20 aminohapon signaalipeptidisekvenssi (ks. jäljempänä). Defensin_g10 oli myös Phormicin, joka sijaitsi eri telineessä, mutta vain toinen eksoni esiintyi genomissa, ja ensimmäinen eksoni oli todennäköisesti sijoitettu 1 kt:n kokoamisväliin.

Defensin_g11, g12 ja g13 vastaavat aiemmin annotoituja geenejä (lisätaulukot 2 ja 3). Defensin_g14 esiintyy telineessä PYGN01001185, mutta suurin osa toisen eksonin sekvenssistä puuttuu kokoonpanovälin vuoksi. Defensin_g15:n ja C0J52_20459:n CDS-sekvenssit olivat identtiset, mutta defensin_g15:n transkriptioanalyysi viittasi siihen, että kyseessä oli kahden eksonin mRNA kolmen eksonin C0J52_20459:n sijasta.

Kaikkien defensiinien N-terminaalissa oli 18-22 aminohappoa käsittäviä signalointipeptidejä, ja C-terminaalissa oli domeeni PF01097:n (Defensin_2) domeenin alue (kts. esimerkkejä domeenien järjestäytymisestä kuvassa 1). Aminohappoketjun pituus vaihteli 63:sta 81:een jäämään ja oli keskimäärin 72 aminohappoa. Vaikka jotkut Defensin-proteiinit olivat identtisiä, pareittaisten erojen keskimääräinen määrä oli suuri (29 aminohappoa). Laskennallinen Maximum Likelihood -fylogenia osoitti niiden jakautuvan seitsemään klusteriin (kuva 2a). Defensiiniproteiinien proteiinikohdistuksen logossa näkyy hydrofobinen N-terminaalinen sekvenssi sekä Defensin_2-domeeni (C-terminaali), jossa on kuusi konservoitunutta kysteiinijäämää (Täydentävä kuva 1).

Kuvio 1
kuvio1

Domeenin järjestäytyneisyys viidessä erityyppisessä AMP:ssä B. germanicalla. Kustakin luokasta on esitetty yksi proteiini. Oranssit neliöt ovat signaalipeptidejä. Punainen soikio vastaa glutamiini-/glutamiinihappopitoista aluetta. Vihreät soikiot ovat Pfam-A-domeeneja PF03769 (Attacin_C). Siniset soikiot (ylhäältä alaspäin) ovat Pfam-A-domeenit PF01097 (Defensin_2), PF11415 (Toxin_37) ja PF00304 (Gamma-tioniini).

Kuvio 2
kuvio2

B. germanica Defensin ja Drosomysiini -proteiinien fylogeniat. (a) 18 defensiiniproteiinin maksimaalisen todennäköisyyden fylogenia (johdettu 16 geenin transkripteistä). Malli WAG + I täydellisellä poistolla. Alignmentin pituus 57 paikkaa. Bootstrap-toistot 100. Keskipisteen juurtuminen. (b) Drosomysiiniproteiinien maksimaalisen todennäköisyyden fylogenia. Malli Dayhoff + G täydellisellä poistolla. Alignmentin pituus 66 paikkaa. Bootstrap-toistot 100. Keskipisteen juurtuminen. Bootstrap-arvot, jotka ovat pienempiä kuin 50, on piilotettu.

Vertailu 16 defensiinigeenin transkription tasojen välillä arvioitiin BLASTN-strategialla, joka perustui BLASTN-hakuihin kunkin CDS:n nukleotideilla 41-190. Kaikki 150 nt:n sekvenssit poikkesivat toisistaan vähintään yhden nukleotidin osalta lukuun ottamatta defensin_g3:a ja g5:tä, jotka olivat identtisiä, eikä transkription tasoa voitu määrittää tietylle geenille (lisätaulukko 3). TRINITYn arvioimien TPM-arvojen ja tällä BLAST-strategialla arvioitujen transkriptiotasojen perusteella havaitsimme, että tässä naaraspuolisessa aikuisjuoksussa defensin_g15 ja g16 (jotka koodaavat defensiinin kaltaisia proteiineja), g9 ja g10 (jotka koodaavat formisiinia) ja g1, g2, g3 ja g5 (jotka koodaavat tenekiini-1-proteiineja) ovat voimakkaimmin ekspressoituneita defensiinigeenejä (täydentävä taulukko 3).

TBLASTN-strategian avulla defensiinien transkriptejä etsittiin 45 lajista, jotka kattavat järjestyksen Blattodea26 (lisätaulukko 4). Neljäkymmentäneljä lajia sisältää defensiinitranskripteja (vaihteluväli 1-9).

Termisiini AMP-geenit

Kolme geeniä, jotka koodaavat pieniä proteiineja, joilla on Pfam-domeeni PF11415, on annotoitu genomissa (lisätaulukko 1). BLASTN-haut SRR6784710-transkriptiotietokantaan antoivat osumia vain kahdelle hyvin samankaltaiselle transkriptille. Ensimmäinen transkripti, TRINITY_DN10017_c0_g1_i1, osoitti yhden ainoan eron joko C0J52_00758:n tai C0J52_26761:n kanssa CDS-sekvenssissä, mutta useita eroja jäljelle jäävässä mRNA-sekvenssissä, mikä viittaa siihen, että genomissa on kaksi itsenäistä geeniä. Toinen transkripti, TRINITY_DN10017_c0_g2_i1, oli 100-prosenttisesti identtinen sekä CDS:n että C0J52_26762:n mRNA:n kanssa, mikä viittaa kolmanteen termisiinigeeniin. Kolme koodattua proteiinia ovat lähes identtisiä lukuun ottamatta yhtä S/A-eroa kohdassa 13 (täydentävä kuva 1). Hydrofobinen signaalipeptidi ennustetaan aminohappojen 1 ja 19 välille ja Toxin_37-domeeni (PF11415) aminohappojen 30 ja 63 välille (kuva 1). TRINITYn arvioimien TPM-arvojen ja BLASTN:n arvioimien transkriptiotasojen perusteella (150-bp:n segmentti, joka kattaa neljä polymorfista kohtaa termisiinin CDS:ssä) voidaan päätellä, että termisiini_g3 (C0J52_26762) on voimakkaimmin ekspressoitunut termisiinigeeni (lisätaulukko 5).

Termisiinin mRNA:ita havaittiin 29:ssä eri taksonomisiin suvuihin kuuluvassa Blattodea-suvun lajissa (lisätaulukko 4). Niiden puuttuminen oli yleistä Corydioidea-suvun lajeissa, mikä viittaa tämäntyyppisen geenin mahdolliseen häviämiseen, vaikka ekspression puutetta näissä näytteissä ei voida sulkea pois.

Drosomysiini-AMP-geenit

Kymmenen geeniä, jotka koodaavat proteiineja, joilla on domeeni Gamma-tioniini (PF00304), on annotoitu kolmessa B. germanica -genomin scaffoldissa. Nämä antifungaaliset proteiinit saavat nimen drosomysiinit. Annotoidun CDS:n BLASTN-haku SRR6784710-transkriptiotietokannasta tunnisti vain kuusi transkriptiä, jotka sisälsivät koko CDS:n, ja kaksi merkityksetöntä transkriptiä, jotka kattoivat vain CDS-segmentin.

Annotoitujen CDS:ien ja näistä transkripteistä johdettujen CDS:ien vertailu osoitti, että vain kolme annotoitua geeniä (C0J52_03170, C0J52_03171 ja C0J52_12810) vastasi kolmea näistä transkripteistä (edellisissä oli 2 nukleotidieroa). Ne merkittiin nimillä drosomysiini_g2, g3 ja g5 (lisätaulukot 2 ja 6). Yksi kolmesta jäljelle jääneestä transkriptistä, joka vastaa drosomysiini_g6:ta, voitiin sijoittaa genomiin muutamalla nukleotidierolla noteeraamattomaan segmenttiin. Kahden muun transkriptin sekvenssejä ei havaittu genomissa, vaikka niiden CDS-sekvenssit olivat hyvin samankaltaisia kuin C0J52_03170 (6 ja 8 nukleotidin erot). Nämä erot viittaavat siihen, että ne eivät ole alleeleja vaan itsenäisiä geenejä, ja annotoimme ne drosomysiini_g1:ksi ja g4:ksi (lisätaulukot 2 ja 6).

Toisaalta kuutta annotoitua geeniä, joilla oli locus_tagit, C0J52_12811-13 ja C0J52_23105-08, ei havaittu aikuisen naaraan transkriptomissa, mutta ne näyttävät ilmentyvän muissa kehitysvaiheissa. Ne annotoitiin drosomysiini_g7-g13:ksi.

13 drosomysiiniproteiinin fylogenia osoitti, että defensin_g6 oli kaukaisin geeni, kun taas muut 12 geeniä muodostivat kaksi kuuden geenin klusteria. Geenit drosomysiini_g1-g5, jotka ilmentyvät aikuisissa naaraissa, sekä ilmentymätön drosomysiini_g9 muodostivat yhden hyvin tuetun klusterin, kun taas muut kuusi ilmentymätöntä geeniä muodostivat toisen (kuva 2b).

Transkriptiotason arviointi osoitti, että drosomysiini_g5 (C0J52_12810) oli geeni, jolla oli korkein ekspressio, sillä 86,1 % tämän segmentin drosomysiinilukemista oli peräisin siitä (lisätaulukko 6).

Kahdestatoista 13:sta koodatusta proteiinista kaksitoista oli 66 aminohapon pituisia. Drosomysiini_g6 oli 71 aminohapon pituinen, koska proteiinin keskellä oli ylimääräisiä aminohappoja, jotka olivat peräisin kahdesta indelistä (kohdat 25-26 ja 36-38 kohdistuksessa). Havaituista jäännöksistä merkittävin piirre koodatuissa proteiineissa on kahdeksan konservoitunutta kysteiiniä27 (täydentävä kuva 1). Kaikilla drosomysiineillä on N-terminaalissa merkkihydrofobinen peptidi ja C-terminaalissa PF00304-domeeni (gammationiini) (Kuva 1).

Drosomysiini-mRNA:ta havaittiin 24 Blattodea-lajeissa, mutta niitä ei havaittu Isoptera-suvun lajeissa eikä niiden lähisukulaisessa Cryptocercus wrighti -lajissa (lisätaulukko 4). Sama havaittiin Corydioidea-klaadissa, mikä viittaa siihen, että termiitit ja muut Blattodea-suvun lajit ovat saattaneet menettää tämäntyyppisen AMP-geenin.

Attasiinin AMP-geenit: attasiinin kaltaiset ja blattelisiinit

Contigiin PYGN01001824 sijoitetun C0J52_26498-geenin kattavalla 47 kb:n alueella havaittiin neljä aluetta, joilla oli jonkin verran yhtäläisyyksiä Attacin_C-domeenin (PF03769) kanssa. Kootun transkriptomin alustavan analyysin jälkeen tunnistettiin yli kymmenen mRNA-sekvenssiä. Ne muistuttavat kahdentyyppisiin attasiinigeeneihin kuuluvien mRNA:iden täydellisiä tai osittaisia sekvenssejä. Ensimmäiseen tyyppiin kuuluvat geenit, jotka koodaavat tyypillisiä Attacin-proteiineja (noin 120 aminohappoa), joiden N-terminaalissa on signaalipeptidi ja C-terminaalissa Attacin_C-domeeni, ja jotka nimettiin Attacin-like-geeneiksi. Toinen tyyppi oli hyvin erilainen, koska se sisälsi pitkän pätkän glutamiini-/glutamiinihappojäännöksiä. Koska ne vaikuttivat ilmeiseltä evolutiiviselta innovaatiolta B. germanicassa, kutsuimme niitä blattellikiineiksi.

Transkriptomissa havaittiin kolme attacinin kaltaista transkriptiä (lisätaulukot 2 ja 7). Ne sisälsivät 357-360 nukleotidin pituisia koodaavia sekvenssejä (118-119 koodattua aminohappoa). Ne saivat nimet attacin-like_g1 – attacin-like_g3. Näiden mRNA:iden lukemien uuttaminen ja kokoaminen vahvisti niiden olemassaolon, mutta viittasi neljännen geenin mahdollisuuteen. Attacin-like_g3A:lla ja attacin-like_g3B:llä on vain kaksi eroa, 9 nukleotidin pituisen segmentin poistaminen attacin_g3B:n 5′UTR:stä ja synonyyminen ero CDS-asemassa 288 (näiden kahden eron kohdat sisällytettiin lukemaan hyvin harvoin, kun otetaan huomioon, että lukeman pituus on 301 nukleotidia). Koska eroja oli vain kaksi ja ne olivat sijoittumattomia genomissa, katsoimme, että ne olivat saman geenin alleeleja.

Attacin-like_g1:n CDS oli suhteellisen samanlainen kuin attacin-like_g3:n CDS, jossa oli 9-10 eroa. Ne olivat kuitenkin riittävän erilaisia, jotta niitä voitiin pitää itsenäisinä lokuksina. Attacin-like_g2 oli poikkeavin geeni, jossa oli 85-88 eroa ja ylimääräinen kodoni muihin verrattuna. Vain attacin-like_g1:n ja g2:n sekvenssit sijaitsivat genomissa (lisätaulukot 2 ja 7).

Blattellikiinien annotointi oli paljon monimutkaisempaa. Alustavan analyysin jälkeen havaittiin pitkä CDS (> 250 koodonia), jolla oli kummallinen rakenne. Se alkoi hydrofobisella signaalipeptidillä N-terminaalissa, jota seurasi keskellä pitkä Glx-rikas segmentti (> 70 jäännöstä, pääasiassa glutamiineja ja glutamiinihappoja) ja C-terminaalinen Attacin-domeeni (kuva 1).

Havaittiin jopa 13 mRNA-transkriptiota (jotka kaikki sisälsivät epätäydellisiä CDS-segmenttejä), joihin sisältyi tämäntyyppisiä jaksoja. Tärkeimmät syyt olivat se, että useiden blattellikiinigeenien läsnäolo ja pitkät Glx-rikkaat alueet vaikuttivat voimakkaasti transkriptomin kokoamiseen. Tämä tapahtui todennäköisesti B. germanican genomin kokoamisen ja annotoinnin aikana5,6.

Blattellicinin CDS:n 5′-sekvenssiä käytettiin kyselynä, jotta BLASTN:llä voitiin tunnistaa ne lukemat, jotka olivat peräisin blattellicinigeenien ilmentymisestä ajossa SRR6784710. Uuttamisen ja kokoamisen jälkeen paljastui neljä erilaista blattellikiinigeenien alkua, joiden mRNA:n 5′:n pareittaiset nukleotidierot vaihtelivat 7-18 nukleotidiparin välillä. Näitä neljää mRNA-alkua käytettiin jäljelle jääneiden geenisekvenssien rekrytointiin, kunnes CDS saatiin valmiiksi.

Suurin osa blattellicin_g1:n CDS-sekvenssistä pystyttiin tunnistamaan genomista, joskin noin 200-bp puuttui kahdesta assosiaatioaukosta johtuen (täydentävät taulukot 2 ja 7). Muiden blattellicin_g2:n ja g4:n osalta vain ensimmäinen koodaava eksoni voitiin yksiselitteisesti määrittää tiettyyn kontigin segmenttiin, vaikka osumia löytyi myös CDS:n muista segmenteistä, mutta ne eivät olleet 100-prosenttisesti identtisiä. Genomissa ei voitu tunnistaa yhtään identtistä sekvenssiä blattellicin_g3:n ensimmäisen eksonin kanssa. Todennäköisin selitys on, että neljä blattellicinigeeniä esiintyy genomissa tandem-kopioina, mutta niiden erityinen keskeinen toistorakenne estää oikean kokoamisen genomissa tai transkriptomissa, paitsi jos kohdistukset tarkastetaan manuaalisesti. Lisäksi Glx-kodonin kopiomäärän vaihtelua populaatiossa ei voida sulkea pois.

Havaitsimme, että blattellikiinit ilmentyivät korkeammalla tasolla kuin attacinin kaltaiset geenit, ja blattellicin_g4 oli tässä transkriptomissa voimakkaimmin ilmentynyt (lisätaulukko 7).

Proteiinien kohdistusten logot kolmelle attacinin kaltaiselle ja neljälle blattellikiiniproteiinille B. germanica paljastivat pienen segmentin negatiivisesti varautuneita aminohappoja Attacinin kaltaisissa proteiineissa ja pitkän segmentin Blattellicineissä (Kuva 3).

Kuva 3
kuva3

Logot B. germanica Attacinin kaltaisten ja Blattellicinin kaltaisten proteiinien linjauksista ja aminohappokoostumuksesta. (a) Logo kolmen Attacinin kaltaisen proteiinin kohdistuksesta. (b) Neljän Blattellicinin linjauksen logo. (c) Attacinin kaltaisten ja Blattellicin-proteiinien keskimääräinen aminohappokoostumus (%).

Attacinin mRNA:ta havaittiin useimmissa Blattodea-lajeissa (lisätaulukko 4). Blattellikiinien osumat eivät kattaneet Glx-aluetta vaan ainoastaan attacin_C-domeenin. Ymmärtääksemme attacinin kaltaisten ja blattellikiinien geenien evoluutiohistoriaa B. germanicassa, uutimme attacinin transkripteja seitsemästä Blattellinae TSA-projektista26 (Symploce sp. AD-2014, Loboptera decipiens, Episymploce sundaica, Ischnoptera deropeltiformis, Paratemnopteryx couloniana, Lobopterella dimidiatipes, Asiablatta kyotensis). Nämä transkriptomit ovat peräisin täysikasvuisista kokorungoista lukuun ottamatta I. deropeltiformista (ei tietoa kehitysvaiheesta). Ne voivat mahdollisesti kattaa kaikki kunkin genomin attacins-geenit, vaikka ei voida sulkea pois mahdollisuutta, että geenit eivät ilmentyisi. Eniten attacin-geenejä oli kolme E. sundaicassa. Kaksi geeniä havaittiin L. decipiensissä, Symploce sp. AD-2014 ja A. kyotensis, joskin edellisessä toinen kopioista oli epätäydellinen ja hyvin erilainen, todennäköisesti pseudogeeni, kun taas jälkimmäisessä molemmat kopiot olivat muutaman koodonin verran epätäydellisiä CDS:n 5′-päässä. SRA-hankkeessa seulottiin CDS:n alun kattavat lukemat, ja talteen otettujen lukujen perusteella toinen kopio oli täydellinen ja toisessa vain neljä koodonia puuttui. Jäljelle jäänyt laji sisälsi yhden geenikopion. Lisäksi ulkoryhmänä käyttämistä varten poimittiin ainoa P. americanassa havaittu yksilö.

Fylogenia suoritettiin typistetyllä kohdistuksella (103 paikkaa) (kuva 4). Sekvenssikohdistuksen lyhyt pituus esti korkeat bootstrap-arvot useimmissa solmuissa ja vaikeutti tämän geeniperheen evoluutiohistorian määrittämistä täydellä varmuudella. Fylogeniasta on kuitenkin havaittavissa useita seikkoja. Ensinnäkin atasiinien kaltaiset geenit ovat esi-isien geenityyppi. Joissakin Blattellinae-lajeissa on vain yksi tai kaksi geeniä. B. germanican, E. sundaican, L. decipiensin ja Symploce sp. AD-2014, esi-isän attacin-like-geenin duplikaatio tapahtui ennen niiden erilaistumista, mikä johti attacin-like_g1- ja g2-tyyppien esiintymiseen. Vaikka L. decipiensin attacin-like_g1-geeniä ei sisällytetty fylogeniaan, tämän tyypin transkriptin (GDYK01026461.1) epätäydellinen ja divergentti kopio on havaittu, ja se on todennäköisesti peräisin pseudogenoidusta kopiosta.

Kuvio 4
kuvio4

Attacin-like- ja Blattellicin-proteiinien fylogenia Blattellinae-heimossa. (a) Attacin_C-domeenin sisältävien proteiinien Maximum Likelihood-fylogenia Blattellinae-alatyypissä. Malli LG + G täydellisellä poistolla. Kohdistus leikattiin niin, että N-terminaalinen signaalipeptidi ja C-terminaalinen Attacin_C-domeeni (pituus 103 paikkaa) yhdistettiin. P. americana käytettiin outgroupina. Bootstrap-toistot 100. Bootstrap-arvot, jotka ovat pienempiä kuin 50, on piilotettu. Kaikki lajien nimet on lyhennetty (ks. koodit oikeassa topologiassa), paitsi Symploce sp. Ne, joissa ei ole lyhenteitä, ovat B. germanican proteiineja. (b) Taksonomiset suhteet 26:n mukaan.

Blattellikiinien alkuperä näyttää olevan hyvin tuore. Vaikka merkittävät bootstrap-arvot eivät tue sitä, mahdollisesti esi-isän attacin-like_g2 -tyyppinen geeni on monistunut ja yksi kopioista on nopean evoluution jälkeen synnyttänyt blattellikiinit. Duplikaatio tapahtui ennen E. sundaican ja B. germanican erilaistumista. Ensin mainitun proteiini on ilmeisesti esiblattelisiini, johon sisältyy joitakin Blattellicinien uusia ominaisuuksia, kuten suuri koko (182 jäännöstä) ja muutama ylimääräinen aminohappo C-terminaalissa (RK B. germanicassa ja GKGK E. sundaicassa). Blattelisiinien tärkein ominaisuus, pitkä poly-Glx-alue, puuttuu kuitenkin, vaikka E. sundaican pre-Blattellicin sisältää seitsemän glutamiinihappoa sisältävän raidan (jossa on A keskellä) lähellä attacin-domeenin alkua.

AMP-ekspressio B. germanica

Määrittääksemme AMP-geenien ilmentymisen B. germanica -lajin kudoksissa, kehitysvaiheissa tai sukupuolissa valitsimme 17 AMP-geenityypin CDS:n (defensiini_g2, g3, g7, g9, g11, g13 ja g15; termisiini_g1; drosomysiini_g1, g5, g6, g11 ja g12; atatsinin kaltainen_g1 ja g2; blattellicin_g1 ja g4). Ne ovat riittävän erilaisia, jotta vältytään merkittäviltä ristituloksilta samaan ryhmään valittujen aineiden välillä. Joidenkin samaan perheeseen kuuluvien geenien CDS:n suuren samankaltaisuuden vuoksi saadut arvot osoittivat kuitenkin sellaisten geeniryhmien ekspressiota, joiden sekvenssit ovat lähes identtiset (esimerkiksi kolme termisiinigeeniä tai attacin-like_g1 ja g3).

Ekspressiotasot arvioitiin BLASTN-strategialla osumien lukumääränä/gb SR-kokeessa (lisätaulukko 8). Eri kehitysvaiheista peräisin olevia näytteitä vastaavien 28 koko kehon SR-kokeen lämpökartta-analyysi (kuva 5) paljasti useita päätelmiä. Ensinnäkin aikuiset naaraat osoittivat useimpien AMP-geenien korkeaa ilmentymistä, vaikka merkittävin oli blattellicin_g1:n ja g4:n korkein ilmentyminen. Myös jotkin drosomysiinit ilmentyivät voimakkaasti, erityisesti drosomysiini_g5. Joidenkin geenien ilmentyminen liittyi kehitykseen (ks. esimerkiksi drosomysiini_g11:n ja g12:n ilmentymisen puuttuminen täysikasvuisilla naarailla mutta korkea ilmentyminen nymfeillä). Defensiineistä voimakkaimmin ilmentyivät useimmissa kehitysvaiheissa defensiini_g9 ja g15. Defensiini g2:n ja g3:n ilmentyminen oli suurempaa aikuisilla naarailla kuin nymfeillä. Termisiini_g1:n ilmentyminen oli vähäistä nymfeissä ja aikuisissa. Attasiinin kaltaiset geenit ilmentyivät myös aikuisilla naarailla, ja attasiinin kaltaisen_g1:n arvot olivat korkeammat kuin attasiinin kaltaisen_g2:n, mikä oli sopusoinnussa aiemmin kuvattujen tulosten kanssa (lisätaulukko 7), kun otetaan huomioon myös se, että attasiinin kaltaisen_g1:n havaitut osumat ovat luultavasti peräisin g1- ja g3-geeneistä.

Kuvio 5
kuvio5

17 AMP-geenin ilmentyminen B. germanican kokorungoissa. Heatmap-analyysi, joka havainnollistaa 17 valitun AMP-geenin transkriptien runsautta 28:ssa sekvenssilukukokeessa, jotka vastaavat B. germanican eri kehitysvaiheista peräisin olevia kokorunkoja, ja joissain tapauksissa näytteen sukupuoli. Arvot arvioitiin sellaisten lukujen lukumäärän, jotka tuottavat osuman, jonka e-arvo on pienempi kuin 1.0E-40 (käyttäen täydellisiä CDS-sekvenssejä BLASTN-hakujen kyselyinä), ja SR-kokeen koon Gb:nä ilmaistuna välisenä osumakertoimena.

Yleisesti ottaen AMP-geenien ilmentyminen lisääntyy kehityksen edetessä aikuisiksi muotoiksi. Valitettavasti SRA-tietokantaan ei ole talletettu yhtään yksinomaan aikuisia uroksia koskevaa SR-kokeilua, vaikka joitakin sekamuotoisia uros- ja naarasnäytteitä on raportoitu (lisätaulukko 8).

Analysoimme näiden 17 AMP-geenin ilmentymistä myös joistakin transkriptomisista SR-kokeista, joissa näytteet ovat peräisin yhdestä ainoasta kudoksesta, yhdestä ruumiin osasta tai useiden kudosten sekoituksesta (lisätaulukko 8). Yleisesti ottaen drosomysiini_g5 ja defensiini_g9 näyttävät ilmentyvän useimmissa näistä näytteistä. Kahdessa urospuolisten aikuisten päistä tehdyssä kokeessa useat AMP-geenit ilmentyivät merkityksellisellä tasolla, mukaan lukien defensin_g7 ja g9, drosomysiini_g5 ja attacin-like_g2. Yleisesti ottaen ekspressiotaso näissä näytteissä on paljon pienempi kuin kokonaisista kehoista saaduissa näytteissä. Tämä saa meidät ehdottamaan, että muut kehon osat kuin rasvakudos, munasarjat tai epidermis ovat vastuussa aikuisten naaraiden kokovartalossa havaituista korkeista ilmentymistasoista (kuva 5).

Blattellicin_g1:n ja blattellicin_g4:n ilmentymistä ei havaittu yhdessäkään kudosnäytteessä eikä missään näytteessä yhdestäkään vartalon osasta, lukuun ottamatta melkein havaittavissa olevaa ilmentymää yhdessä ei-hedelmöityneestä munanäytteestä, joka johtui luultavasti naaraspuolisten kudoksien mukana tulleesta kontaminaatiosta.

Vastaa

Sähköpostiosoitettasi ei julkaista.