Geny kodujące białka z domenami AMP w genomie B. germanica

Do identyfikacji anotowanych genów z funkcjami AMP w genomie B. germanica6 zastosowano dwie strategie. Pierwszą z nich było wyszukiwanie nazw produktów zawierających terminy defense, drosomycyna, tenecyna, phormicin, attacin i coleoptericin. Druga polegała na przeszukiwaniu anotowanych domen Pfam związanych z peptydami antybakteryjnymi. Są one zawarte w trzech domenach klanowych bazy danych Pfam: Knottin_1 (CL0054, Scorpion toxin-like knottin superfamily), Defensin (CL0075, Defensin/myotoxin-like superfamily) oraz Omega_toxin (CL0083, Omega toxin-like). Pięć wykrytych domen Pfam to: PF11581 (Argos), PF03769 (Attacin_C), PF01097 (Defensin_2), PF00304 (Gamma-thionin) i PF11415 (Toxin_37). Po usunięciu C0J52_07645 (Giant-lens protein) i C0J52_08617 (putative defense protein 3), ponieważ nie kodują one AMPs, zachowano 24 geny kodujące (Supplementary Table 1). Zostały one wstępnie zaklasyfikowane do następujących grup: (i) białka Defensin_2 (dalej Defensin) (10 CDS, w tym dwa z anotacją partial = 5′), (ii) Drosomycyna (domena Gamma-tioniny) (10 CDS), (iii) Termicyna (domena Toxin_37) (3 CDS) oraz (iv) CDS C0J52_26498. Ta ostatnia, anotowana jako białko hipotetyczne, była długim białkiem (541 aminokwasów) z domeną Attacin_C. Jednakże mniej rygorystyczna analiza domenowa wykazała potencjalną obecność dwóch lub trzech dodatkowych domen w tym białku z podobieństwem do domeny Attacin_C i Coleoptericin (PF06286).

Tabela 1 Geny kodujące białka z domenami peptydów przeciwdrobnoustrojowych u B. germanica.

W celu zrewidowania anotowanych genów kodujących AMP, kilka eksperymentów SRA RNA-Seq B. germanica (PRJNA389591) zostało przebadanych pod kątem ich ekspresji przy użyciu BLASTN i kilku AMP CDS jako zapytań. Spośród badań SRA z dużą ilością odczytów AMP wybrano badanie RNA-Seq SRR6784710 (całe ciało, dorosła kobieta). Przebieg SRR6784710 został zmontowany z de novo Trinity25 i utworzono bazę transkryptów.

Zanotowany genom został porównany z bazą transkryptów w celu identyfikacji kompletnych zestawów genów AMP dla każdej klasy. Po dokładnej rewizji zidentyfikowaliśmy 39 genów AMP (należących do pięciu typów: defensyn, termicyn, drosomycyn, attacynopodobnych i blattellicyn), które zostaną opisane poniżej. Trzydzieści cztery z nich były rozmieszczone w dziesięciu rusztowaniach genomowych, a pięć genów było nieumiejscowionych (Tabela 1; Tabela uzupełniająca 2).

Geny AMP defensyn

Dziesięć anotowanych AMP CDS z domeną defensynową wykorzystano jako zapytania do bazy transkryptów SRR6784710 za pomocą BLASTN (e-value = 1.0E-20). Wszystkie z nich dały trafienia z co najmniej jednym transkryptem. W sumie zidentyfikowano 16 różnych transkryptów. Obfitość transkryptów wahała się od wartości TPM (transcripts per million transcripts) 323,64-0,00.

Porównano informacje dotyczące anotacji genomu i zmontowanych transkryptów (patrz Materiały & Metody) identyfikując 16 genów defensyn (tabele uzupełniające 2 i 3). Otrzymały one nazwy od defensin_g1 do defensin_g16, przy czym defensin_g1 i defensin_g16 zawierają dwie alternatywne izoformy, które nie wpływają na region kodujący. Izoformy defensyny_g1 i1 oraz i2 różniły się usunięciem lub brakiem intronu 3′-UTR, podczas gdy dwie izoformy defensyny_g16 różniły się użyciem różnych sygnałów poli(A).

Geny defensyny (z wyjątkiem defensyny_g1, która była nieumiejscowiona) zostały zgrupowane w czterech rusztowaniach. Nieumieszczona defensyna_g1 została uwzględniona, ponieważ program zidentyfikował trzy transkrypty należące do klastra TRINITY_DN1123_c0. Jeden z nich (odpowiadający defensynie_g2) mógł być powiązany z genem C0J52_24001 (kodującym hipotetyczne białko), choć po prawidłowym umieszczeniu początku drugiego eksonu odzyskaliśmy prawidłową ramkę odczytu. Pozostałe dwa transkrypty wykazywały 100% identyczność, ale różniły się alternatywnym splicingiem 453-nt intronu 3′-UTR. Uznaliśmy je za izoformy defensyny_g1, genu innego niż defensyna_g2, ponieważ różniły się siedmioma nukleotydami (dwa w CDS) oraz trzema różnej wielkości indelami w 3′-UTR. Taka sekwencja nie została jednak wykryta w żadnej sekwencji rusztowania.

Wysoko wyrażony transkrypt (TRINITY_DN13842_c0_g1_i1) pochodził najwyraźniej z nieprawidłowego złożenia przez TRINITY odczytów z czterech różnych loci w genomie o niemal identycznych sekwencjach (defensyny_g3 do g6). Trzy z nich były wcześniej anotowane z kwalifikatorami locus_tag C0J52_27569, C0J52_22338 i C0J52_24004. Jednakże C0J52_27569 (gen = DEFI_4 w rusztowaniu PYGN01003429) był tandemem dwóch genów (defensin_g3 i defensin_g4). Luka montażowa pokrywająca się z defensyną_g3 jest prawdopodobnie powodem, dla którego w genomie zaanotowano pojedynczy mRNA rozszerzający oba geny.

Geny defensyna_g7 i defensyna_g8 wykazywały identyczne sekwencje CDS, ale z kilkoma różnicami w segmentach UTR sekwencji mRNA. Umieszczono je odpowiednio w rusztowaniach PYGN01002380 i PYGN01001185. Tylko jeden z nich, defensin_g8, był wcześniej anotowany jako gen C0J52_22336.

Defensin_g9 odpowiada genowi C0J52_24005 kodującemu formycynę, 91-aminokwasowe białko. Analiza transkryptu wykazała, że kodowane białko jest krótsze (71 aminokwasów) z sekwencją peptydu sygnałowego o długości 20 aminokwasów na jego aminokońcu (patrz poniżej). Defensin_g10 był również Phormicin zlokalizowany w innym rusztowaniu, ale tylko drugi ekson był obecny w genomie, z pierwszym eksonem najprawdopodobniej umieszczonym w przylegającej 1-kb luce montażowej.

Defensin_g11, g12 i g13 są odpowiednikami wcześniej anotowanych genów (Tabele uzupełniające 2 i 3). Defensyna_g14 jest obecna w rusztowaniu PYGN01001185, ale większość sekwencji drugiego eksonu jest nieobecna z powodu luki montażowej. Sekwencje CDS defensyny_g15 i C0J52_20459 były identyczne, ale analiza transkryptu defensyny_g15 sugerowała dwueksonowe mRNA zamiast trzyeksonowego C0J52_20459.

Wszystkie defensyny wykazywały peptydy sygnałowe o długości od 18 do 22 aminokwasów na N-końcu i domenę PF01097 (defensyna_2) na C-końcu (patrz przykłady organizacji domen na Rys. 1). Długość łańcucha aminokwasowego wahała się od 63 do 81 reszt, przy średniej 72 aminokwasów. Chociaż niektóre białka defensyny były identyczne, średnia liczba różnic między parami była wysoka (29 aminokwasów). Wywnioskowana filogeneza z maksymalnym prawdopodobieństwem wykazała ich rozmieszczenie w siedmiu klastrach (Rys. 2a). Logo wyrównania białek defensyny pokazuje hydrofobową sekwencję N-końcową, jak również domenę Defensin_2 (C-terminus) z sześcioma konserwowanymi resztami cysteinowymi (Supplementary Fig. 1).

Rycina 1
figure1

Organizacja domen w pięciu typach AMPs B. germanica. Pokazano po jednym białku z każdej klasy. Pomarańczowe kwadraty to peptydy sygnałowe. Czerwony owal odpowiada regionowi bogatemu w glutaminę/kwas glutaminowy. Zielone owale to domeny Pfam-A PF03769 (Attacin_C). Niebieskie owale (od góry do dołu) to domeny Pfam-A odpowiednio PF01097 (Defensin_2), PF11415 (Toxin_37) i PF00304 (Gamma-thionin).

Rysunek 2
figure2

Fylogeneza białek defensyny i drosomycyny u B. germanica. (a) Filogeneza z maksymalnym prawdopodobieństwem 18 białek defensyny (uzyskanych z transkryptów 16 genów). Model WAG + I z całkowitą delecją. Długość dopasowania 57 miejsc. Repliki bootstrapowe 100. Korzeniowanie w punkcie środkowym. (b) Filogeneza z maksymalnym prawdopodobieństwem białek Drosomycyny. Model Dayhoff + G z całkowitą delecją. Długość dopasowania 66 miejsc. Replikacje bootstrapowe 100. Korzeniowanie w punkcie środkowym. Wartości Bootstrap mniejsze niż 50 są ukryte.

Porównanie poziomów transkrypcji 16 genów defensyn oszacowano przy użyciu strategii BLASTN opartej na wyszukiwaniach BLASTN z nukleotydami 41-190 każdego CDS. Wszystkie 150-nt sekwencje różniły się co najmniej jednym nukleotydem, z wyjątkiem defensin_g3 i g5, które były identyczne i poziom transkrypcji nie mógł być przypisany do konkretnego genu (Supplementary Table 3). W oparciu o wartości TPM oszacowane przez TRINITY i poziomy transkrypcji oszacowane przez tę strategię BLAST, zaobserwowaliśmy, że w tym biegu dorosłych samic, defensin_g15 i g16 (kodujące białka defensynopodobne), g9 i g10 (kodujące Phormicin) oraz g1, g2, g3 i g5 (kodujące białka Tenecin-1) są najbardziej wysoko wyrażonymi genami defensyny (Tabela Uzupełniająca 3).

Stosując strategię TBLASTN, transkrypty defensyn przeszukano u 45 gatunków należących do rzędu Blattodea26 (Tabela uzupełniająca 4). Czterdzieści cztery gatunki zawierają transkrypty defensyn (zakres od 1 do 9).

Geny Termicyny AMP

Trzy geny kodujące małe białka z domeną Pfam PF11415 są anotowane w genomie (Tabela uzupełniająca 1). Poszukiwania BLASTN w stosunku do bazy transkryptów SRR6784710 dały trafienia tylko z dwoma bardzo podobnymi transkryptami. Pierwszy transkrypt, TRINITY_DN10017_c0_g1_i1, wykazywał jedną pojedynczą różnicę z C0J52_00758 lub C0J52_26761 w sekwencji CDS, ale kilka w pozostałej sekwencji mRNA, co sugeruje dwa niezależne geny w genomie. Drugi transkrypt, TRINITY_DN10017_c0_g2_i1, był w 100% identyczny zarówno z CDS, jak i mRNA z C0J52_26762, co wskazuje na trzeci gen termicyny. Trzy kodowane białka są prawie identyczne, z pojedynczą różnicą S/A w miejscu 13 (Supplementary Fig. 1). Przewiduje się, że sygnałowy peptyd hydrofobowy znajduje się pomiędzy aminokwasami 1 i 19, a domena Toxin_37 (PF11415) pomiędzy aminokwasami 30 i 63 (ryc. 1). Na podstawie wartości TPM oszacowanych przez TRINITY oraz poziomów transkrypcji oszacowanych przez BLASTN (odcinek 150-bp obejmujący cztery miejsca polimorficzne w CDS termicyny) można stwierdzić, że termicyna_g3 (C0J52_26762) jest najwyżej wyrażonym genem termicyny (Tabela uzupełniająca 5).

MRNA termicyny wykryto u 29 gatunków Blattodea należących do różnych rodzin taksonomicznych (Tabela uzupełniająca 4). Ich brak był częsty u gatunków z Corydioidea, co sugeruje potencjalną utratę tego typu genu, choć nie można wykluczyć braku ekspresji w tych próbkach.

Geny Drosomycin AMP

Ten gen kodujący białka z domeną Gamma-tionina (PF00304) jest anotowany w trzech rusztowaniach genomu B. germanica. Te przeciwgrzybicze białka otrzymały nazwę Drosomycins. Poszukiwania BLASTN anotowanego CDS w stosunku do bazy transkryptów SRR6784710 zidentyfikowały tylko sześć transkryptów zawierających kompletny CDS i dwa nieznaczące transkrypty obejmujące tylko segment CDS.

Porównanie anotowanych CDS i tych pochodzących z tych transkryptów ujawniło, że tylko trzy anotowane geny (C0J52_03170, C0J52_03171 i C0J52_12810) odpowiadały trzem z tych transkryptów (te pierwsze z różnicą 2 nukleotydów). Zostały one przypisane jako drosomycyna_g2, g3 i g5 (tabele uzupełniające 2 i 6). Jeden z trzech pozostałych transkryptów, odpowiadający drosomycynie_g6, mógł być umieszczony w genomie, z kilkoma różnicami nukleotydowymi, w nieanotowanym segmencie. Wreszcie, sekwencje pozostałych dwóch transkryptów nie zostały wykryte w genomie, chociaż ich sekwencje CDS były bardzo podobne do C0J52_03170 (z różnicą 6 i 8 nukleotydów). Różnice te sugerują, że nie są one allelami, ale niezależnymi genami i przypisaliśmy je jako drosomycyna_g1 i g4 (Tabele uzupełniające 2 i 6).

Z drugiej strony, sześć genów z locus_tags, C0J52_12811-13 i C0J52_23105-08 nie zostały wykryte w transkryptomie dorosłej samicy, ale wydaje się, że ulegają ekspresji w innych stadiach rozwojowych. Zostały one anotowane jako drosomycyna_g7 do g13.

Fylogeneza 13 białek Drosomycyny wykazała, że defensyna_g6 była najbardziej odległym genem, podczas gdy pozostałe 12 genów tworzyło dwa klastry po sześć genów każdy. Geny drosomycyny_g1 do g5, ulegające ekspresji u dorosłych samic, plus nieekspresyjna drosomycyna_g9 tworzyły jeden dobrze podparty klad, podczas gdy pozostałe sześć nieekspresyjnych genów tworzyło drugi (ryc. 2b).

Oszacowanie poziomu transkrypcji ujawniło, że drosomycyna_g5 (C0J52_12810) była genem o najwyższej ekspresji, z 86,1% odczytów drosomycyny dla tego segmentu pochodziło od niej (Tabela uzupełniająca 6).

Dwanaście z 13 kodowanych białek miało długość 66 aminokwasów. Drosomycyna_g6 miała długość 71 aminokwasów ze względu na obecność w środku białka dodatkowych aminokwasów pochodzących z dwóch indeli (miejsca 25-26 i 36-38 alignmentu). Wśród zaobserwowanych reszt, najbardziej charakterystyczną cechą kodowanych białek jest obecność ośmiu konserwowanych cystein27 (Suplementary Fig. 1). Wszystkie Drosomycyny posiadają sygnałowy peptyd hydrofobowy na N-końcu oraz domenę PF00304 (Gamma-tionina) na C-końcu (Ryc. 1).

RNA Drosomycyny wykryto u 24 gatunków Blattodea, ale nie było go u gatunków Isoptera i ich bliskiego krewnego Cryptocercus wrighti (Tabela 4). Ten sam fakt wykryto w kladzie Corydioidea, co sugeruje, że termity i inne Blattodea mogły utracić ten typ genu AMP.

Geny AMP: attacin-like i blattellicins

W 47-kb-regionie obejmującym gen C0J52_26498 umieszczonym w kontigu PYGN01001824 wykryto do czterech regionów o pewnym podobieństwie do domeny Attacin_C (PF03769). Po wstępnej analizie zmontowanego transkryptomu zidentyfikowano kilkanaście sekwencji mRNA. Przypominają one kompletne lub częściowe sekwencje mRNA należące do dwóch typów genów ataktyny. Pierwszy typ obejmuje geny kodujące typowe białka ataktynowe (około 120 aminokwasów) z peptydem sygnałowym na N-końcu i domeną ataktyny_C na C-końcu, które nazwano genami attaktynopodobnymi. Drugi typ był zupełnie inny, ponieważ zawierał długi odcinek reszt glutaminy/kwasu glutaminowego. Ponieważ wydawały się one oczywistą innowacją ewolucyjną u B. germanica, nazwaliśmy je blattellicinami.

W transkryptomie wykryto trzy transkrypty attacinopodobne (tabele uzupełniające 2 i 7). Zawierały one sekwencje kodujące o długości 357-360 nukleotydów (118-119 kodowanych aminokwasów). Otrzymały one nazwy od attacin-like_g1 do attacin-like_g3. Ekstrakcja i montaż odczytów dla tych mRNA potwierdziła ich istnienie, ale zasugerowała możliwość istnienia czwartego genu. Attacin-like_g3A i attacin-like_g3B wykazują tylko dwie różnice, delecję 9-nukleotydowego segmentu w 5′UTR attacin_g3B i różnicę synonimiczną w pozycji 288 CDS (włączenie miejsc dla tych dwóch różnic do odczytu było bardzo rzadkie, biorąc pod uwagę, że długość odczytu wynosi 301 nukleotydów). Ponieważ istniały tylko dwie różnice i nie były one umiejscowione w genomie, uznaliśmy, że są to allele tego samego genu.

Attacin-like_g1 CDS był stosunkowo podobny do attacin-like_g3 CDS z 9-10 różnicami. Były one jednak wystarczająco różne, aby można je było uznać za niezależne loci. Attacin-like_g2 był najbardziej rozbieżnym genem z 85-88 różnicami i dodatkowym kodonem w stosunku do pozostałych. Tylko sekwencje attacin-like_g1 i g2 zostały zlokalizowane w genomie (tabele uzupełniające 2 i 7).

Anotacja blattellicin była znacznie bardziej skomplikowana. Po wstępnej analizie zaobserwowano długi CDS (> 250 kodonów) o ciekawej strukturze. Zaczynał się on od hydrofobowego peptydu sygnałowego na N-końcu, następnie w środku znajdował się długi segment bogaty w Glx (> 70 reszt, głównie glutaminy i kwasy glutaminowe) oraz C-końcowa domena Attacin (Ryc. 1).

Wykryto do 13 transkryptów mRNA (wszystkie zawierały niekompletne segmenty CDS) zawierających tego typu sekwencje. Główną przyczyną było to, że obecność kilku genów blattellicin oraz długich regionów bogatych w Glx drastycznie wpłynęła na złożenie transkryptomu. Fakt ten miał prawdopodobnie miejsce podczas montażu i anotacji genomu B. germanica5,6.

Sekwencja 5′ CDS blattellicin została użyta jako zapytanie do identyfikacji za pomocą BLASTN tych odczytów, które pochodzą z ekspresji genów blattellicin w przebiegu SRR6784710. Po ekstrakcji i złożeniu, ujawniono cztery różne początki genów blattellicin, z zakresem od 7 do 18 par nukleotydów różnic w 5′ mRNA. Te cztery początki mRNA zostały użyte do rekrutacji pozostałych sekwencji genów aż do skompletowania CDS.

Większość sekwencji CDS dla blattellicin_g1 mogła być zidentyfikowana w genomie, chociaż około 200-bp było nieobecne z powodu dwóch luk w montażu (Tabele uzupełniające 2 i 7). W przypadku pozostałych, tylko pierwszy ekson kodujący blattellicin_g2 i g4 mógł być jednoznacznie przypisany do konkretnego segmentu kontigu, chociaż wykryto również trafienia dla innych segmentów CDS, ale bez 100% identyczności. W genomie nie udało się zidentyfikować sekwencji identycznej z pierwszym eksonem blattellicin_g3. Najbardziej prawdopodobnym wyjaśnieniem jest to, że cztery geny blattellicyny występują w genomie w tandemowych kopiach, ale ich specjalna centralna struktura powtórzenia uniemożliwia prawidłowe złożenie w genomie lub transkryptomie, z wyjątkiem ręcznej inspekcji dopasowań. Ponadto nie można wykluczyć różnic w liczbie kopii kodonów Glx w populacji.

Wykryliśmy, że blattellicyny ulegały ekspresji na wyższym poziomie niż geny podobne do attacin, przy czym blattellicin_g4 była najwyżej wyrażona w tym transkryptomie (Tabela uzupełniająca 7).

Logosy wyrównań białek dla trzech białek podobnych do attacin i czterech białek blattellicin B. germanica ujawniły mały segment ujemnie naładowanych aminokwasów w białkach Attacinopodobnych i długi segment w Blattellicinach (Rys. 3).

Rys. 3
figure3

Logosy wyrównań i skład aminokwasowy białek Attacinopodobnych i Blattellicin B. germanica. (a) Logo wyrównania trzech białek Attacinopodobnych. (b) Logo ułożenia czterech białek Blattellicin. (c) Average amino acid composition (%) of Attacin-like and Blattellicin proteins.

Attacin mRNAs were detected in most Blattodea species (Supplementary Table 4). Trafienia dla blattellicyn nie obejmowały regionu Glx, a jedynie domenę Attacin_C. Aby zrozumieć ewolucyjną historię genów attakinopodobnych i blattellicyn u B. germanica, wyodrębniliśmy transkrypty attakin z siedmiu projektów TSA Blattellinae26 (Symploce sp. AD-2014, Loboptera decipiens, Episymploce sundaica, Ischnoptera deropeltiformis, Paratemnopteryx couloniana, Lobopterella dimidiatipes, Asiablatta kyotensis). Transkryptomy te pochodzą z całych ciał osobników dorosłych z wyjątkiem I. deropeltiformis (bez informacji o stadium rozwojowym). Mogą one potencjalnie obejmować wszystkie geny ataktyn dla każdego genomu, choć nie można wykluczyć możliwości istnienia genów bez ekspresji. Największa liczba genów ataktyny występowała u E. sundaica – trzy. Dwa geny zaobserwowano u L. decipiens, Symploce sp. AD-2014 i A. kyotensis, choć u pierwszego z nich jedna z kopii była niekompletna i bardzo rozbieżna, prawdopodobnie pseudogen, a u drugiego dwie kopie były niekompletne o kilka kodonów na 5′-końcu CDS. Projekt SRA został przebadany pod kątem odczytów obejmujących początek CDS i na podstawie tych odzyskanych odczytów stwierdzono, że jeden z nich był kompletny, a w drugim brakowało tylko czterech kodonów. Pozostały gatunek zawierał pojedynczą kopię genu. Dodatkowo, w celu wykorzystania jako outgrupy, wyodrębniono jedyną-jedyną-wykrytą u P. americana.

Fylogenezę przeprowadzono z przyciętym wyrównaniem (103 miejsca) (Ryc. 4). Krótka długość wyrównania sekwencji uniemożliwiła uzyskanie wysokich wartości bootstrap w większości węzłów i utrudniła określenie z całkowitą pewnością historii ewolucyjnej tej rodziny genów. Jednak na podstawie filogenezy można zaobserwować kilka faktów. Po pierwsze, geny attakinopodobne są typem genów przodków. Niektóre gatunki Blattellinae zawierają tylko jeden lub dwa geny. W przypadku kladu B. germanica, E. sundaica, L. decipiens i Symploce sp. AD-2014, duplikacja rodowego genu attacinopodobnego nastąpiła przed ich dywergencją, co spowodowało pojawienie się typów attacinopodobnych_g1 i g2. Chociaż L. decipiens attacin-like_g1 nie został uwzględniony w filogenezie, wykryto niekompletną i rozbieżną kopię transkryptu tego typu (GDYK01026461.1), pochodzącą prawdopodobnie z kopii pseudogenowej.

Rysunek 4
figure4

Fylogeneza białekttacin-like i Blattellicin w Blattellinae. (a) Filogeneza metodą największego prawdopodobieństwa białek zawierających domenę Attacin_C w podrodzinie Blattellinae. Model LG + G z całkowitą delecją. Alignment został przycięty tak, aby dołączyć N-końcowy peptyd sygnałowy i C-końcową domenę Attacin_C (długość 103 miejsca). P. americana została użyta jako outgrupa. Repliki bootstrapowe 100. Wartości Bootstrapa mniejsze niż 50 są ukryte. Wszystkie nazwy gatunkowe są skrócone (patrz kody w prawej topologii), z wyjątkiem Symploce sp. Te bez skrótów to białka z B. germanica. (b) Relacje taksonomiczne według26.

Powstanie blattellicin wydaje się być bardzo niedawne. Choć nie jest to poparte znaczącą wartością bootstrap, potencjalnie gen typu attacin-like_g2 został zduplikowany i jedna z kopii, po szybkiej ewolucji, wygenerowała blattelliciny. Duplikacja miała miejsce przed rozejściem się E. sundaica i B. germanica. Białko w tej pierwszej jest najwyraźniej pre-Blattelliciną, zawierającą niektóre z nowych cech Blattellicin, takich jak duży rozmiar (182 reszty) i kilka dodatkowych aminokwasów na C-końcu (RK u B. germanica i GKGK u E. sundaica). Jednak główna cecha Blattellicin, długi region poly-Glx, jest nieobecny, chociaż E. sundaica pre-Blattellicin zawiera siedmioglutaminokwasową ścieżkę (z A w środku) blisko początku domeny ataktynowej.

EkspresjaAMP w B. germanica

Aby określić ekspresję genów AMP w tkankach B. germanica, stadiach rozwojowych lub płciach, wybraliśmy CDS 17 typów genów AMP (defensin_g2, g3, g7, g9, g11, g13 i g15; termicin_g1; drosomycin_g1, g5, g6, g11 i g12; attacin-like_g1 i g2; blattellicin_g1 i g4). Są one wystarczająco różne, aby uniknąć istotnych wyników krzyżowych wśród wybranych z tej samej grupy. Jednak ze względu na duże podobieństwo CDS niektórych genów z tej samej rodziny, uzyskane wartości wskazywały na ekspresję zestawów genów o niemal identycznych sekwencjach (na przykład trzy geny termicyny lub attacin-like_g1 i g3).

Poziomy ekspresji oszacowano za pomocą strategii BLASTN jako liczbę trafień/Gb eksperymentu SR (Tabela uzupełniająca 8). Analiza mapy cieplnej 28 eksperymentów SR całego ciała odpowiadających próbkom z różnych stadiów rozwojowych (ryc. 5) ujawniła kilka wniosków. Po pierwsze, dorosłe samice wykazywały wysoką ekspresję większości genów AMP, choć najbardziej istotna była najwyższa ekspresja blattellicin_g1 i g4. Wysoką ekspresję wykazywały również niektóre drosomycyny, zwłaszcza drosomycyna_g5. Ekspresja niektórych genów była związana z rozwojem (patrz np. brak ekspresji drosomycyny g11 i g12 u dorosłych samic, ale wysoka ekspresja u nimf). Wśród defensyn najwyższą ekspresję w większości stadiów rozwojowych wykazywały defensyny_g9 i g15. Ekspresja defensyn g2 i g3 była wyższa u dorosłych samic niż u nimf. Termicyna_g1 wykazywała niską ekspresję u nimf i osobników dorosłych. Geny attakinopodobne również ulegały ekspresji u dorosłych samic, przy czym wartości attakinopodobnej_g1 były wyższe niż attakinopodobnej_g2, co było zgodne z wcześniej opisanymi wynikami (Tabela uzupełniająca 7), również biorąc pod uwagę, że wykryte trafienia dla attakinopodobnej_g1 prawdopodobnie pochodzą z genów g1 i g3.

Rysunek 5
figure5

Ekspresja genów 17 AMP w całych ciałach B. germanica. Analiza map cieplnych ilustrująca obfitość transkryptów dla 17 wybranych genów AMP w 28 eksperymentach Sequence Read odpowiadających całym ciałom z różnych stadiów rozwojowych B. germanica ze wskazaniem, w niektórych przypadkach, płci próbki. Wartości oszacowano jako iloraz liczby odczytów dających trafienie z wartością e- mniejszą niż 1.0E-40 (używając kompletnych sekwencji CDS jako zapytań w wyszukiwaniach BLASTN) i rozmiaru w Gb eksperymentu SR.

Ogólnie, geny AMP wykazują wzrost ekspresji w miarę rozwoju do form dorosłych. Niestety, żaden eksperyment SR dla wyłącznie dorosłych samców nie został zdeponowany w bazie danych SRA, chociaż odnotowano kilka próbek mieszanych samców i samic (Tabela uzupełniająca 8).

Przeanalizowaliśmy również ekspresję tych 17 genów AMP w niektórych transkryptomicznych eksperymentach SR, w których próbki pochodzą z jednej tkanki, części ciała lub mieszaniny kilku tkanek (Tabela uzupełniająca 8). Ogólnie rzecz biorąc, drosomycyna_g5 i defensyna_g9 wydają się być wyrażone w większości tych próbek. W dwóch eksperymentach z głów dorosłych mężczyzn, kilka genów AMP uległo ekspresji na odpowiednim poziomie, w tym defensyny_g7 i g9, drosomycyna_g5 i attacin-like_g2. Ogólnie rzecz biorąc, poziom ekspresji w tych próbkach jest znacznie mniejszy niż w próbkach pochodzących z całych ciał. To prowadzi nas do wniosku, że inne części ciała, inne niż ciało tłuszczowe, jajniki czy naskórek, są odpowiedzialne za wysoki poziom ekspresji obserwowany w całym ciele dorosłych samic (Ryc. 5).

Nie zaobserwowano ekspresji blattellicin_g1 i blattellicin_g4 w żadnej tkance lub części próbki ciała, z wyjątkiem prawie niewykrywalnej ekspresji w jednej próbce z jaj nie zapłodnionych, prawdopodobnie z powodu zanieczyszczenia tkankami samic.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.