Gene, die für Proteine mit AMP-Domänen im Genom von B. germanica kodieren
Um annotierte Gene mit AMP-Funktionen im Genom von B. germanica6 zu identifizieren, wurden zwei Strategien angewendet. Die erste war die Suche nach Produktnamen, die die Begriffe Abwehr, Drosomycin, Tenecin, Phormicin, Attacin und Coleoptericin enthalten. Die zweite war die Suche nach annotierten Pfam-Domänen, die mit antimikrobiellen Peptiden in Verbindung stehen. Sie sind in drei Clan-Domänen der Pfam-Datenbank enthalten: Knottin_1 (CL0054, Skorpiontoxin-ähnliche Knottin-Superfamilie), Defensin (CL0075, Defensin/Myotoxin-ähnliche Superfamilie) und Omega_toxin (CL0083, Omega-Toxin-ähnlich). Die fünf entdeckten Pfam-Domänen waren: PF11581 (Argos), PF03769 (Attacin_C), PF01097 (Defensin_2), PF00304 (Gamma-Thionin) und PF11415 (Toxin_37). Nach der Entfernung von C0J52_07645 (Giant-lens protein) und C0J52_08617 (putative defense protein 3), da sie nicht für AMPs kodieren, blieben 24 kodierende Gene übrig (ergänzende Tabelle 1). Sie wurden zunächst in die folgenden Gruppen eingeteilt: (i) Defensin_2-Proteine (im Folgenden Defensin) (10 CDS, darunter zwei mit der Annotation partial = 5′), (ii) Drosomycin (Gamma-Thionin-Domäne) (10 CDS), (iii) Termicin (Toxin_37-Domäne) (3 CDS) und (iv) das CDS C0J52_26498. Letzteres, das als hypothetisches Protein annotiert wurde, war ein langes Protein (541 Aminosäuren) mit einer Attacin_C-Domäne. Eine weniger strenge Domänenanalyse zeigte jedoch das mögliche Vorhandensein von zwei oder drei zusätzlichen Domänen in diesem Protein mit Ähnlichkeiten mit Attacin_C und Coleoptericin (PF06286).
Um die annotierten AMP-kodierenden Gene zu überprüfen, wurden mehrere B. germanica RNA-Seq SRA-Experimente (PRJNA389591) mit BLASTN und mehreren AMP CDS als Abfragen auf ihre Expression untersucht. Unter den SRA-Läufen mit einer Fülle von AMP-Reads wurde der RNA-Seq-Lauf SRR6784710 (Ganzkörper, erwachsenes Weibchen) ausgewählt. Der Lauf SRR6784710 wurde mit de novo Trinity25 assembliert, und es wurde eine Transkriptdatenbank erstellt.
Das annotierte Genom wurde mit der Transkriptdatenbank verglichen, um die vollständigen Sätze von AMP-Genen für jede Klasse zu identifizieren. Nach sorgfältiger Überprüfung identifizierten wir 39 AMP-Gene (die zu fünf Typen gehören: Defensine, Termicine, Drosomycine, Attacin-ähnliche und Blattellicine), die im Folgenden beschrieben werden. Vierunddreißig von ihnen waren auf zehn Genomgerüste verteilt und fünf Gene waren nicht platziert (Tabelle 1; ergänzende Tabelle 2).
Defensin-AMP-Gene
Zehn annotierte AMP-CDS mit einer Defensin-Domäne wurden als Abfragen gegen die SRR6784710-Transkriptdatenbank mit BLASTN (e-Wert = 1,0E-20) verwendet. Alle diese Abfragen ergaben Treffer mit mindestens einem Transkript. Insgesamt wurden 16 verschiedene Transkripte identifiziert. Die Transkriptabundanz reichte von TPM-Werten (Transkripte pro Million Transkripte) von 323,64-0,00.
Die Informationen über die Genomannotation und die assemblierten Transkripte wurden verglichen (siehe Materialien & Methoden), wobei 16 Defensin-Gene identifiziert wurden (ergänzende Tabellen 2 und 3). Sie erhielten die Namen defensin_g1 bis defensin_g16, wobei defensin_g1 und defensin_g16 zwei alternative Isoformen enthalten, die die kodierende Region nicht betreffen. Die Isoformen von Defensin_g1, i1 und i2, unterschieden sich durch die Entfernung oder das Fehlen eines 3′-UTR-Introns, während sich die beiden Isoformen von Defensin_g16 durch die Verwendung unterschiedlicher Poly(A)-Signale unterschieden.
Die Defensin-Gene (mit Ausnahme von Defensin_g1, das unplatziert war) wurden in vier Gerüsten geclustert. Das nicht platzierte defensin_g1 wurde einbezogen, weil das Programm drei Transkripte identifizierte, die zum Cluster TRINITY_DN1123_c0 gehören. Eines davon (entsprechend defensin_g2) könnte mit dem Gen C0J52_24001 (das für ein hypothetisches Protein kodiert) verwandt sein, obwohl wir das richtige Leseraster nach der korrekten Platzierung des Beginns des zweiten Exons wiederhergestellt haben. Die beiden anderen Transkripte wiesen eine 100%ige Identität auf, unterschieden sich aber durch das alternative Spleißen eines 453-nt-3′-UTR-Introns. Wir betrachteten sie als Isoformen von Defensin_g1, einem anderen Gen als Defensin_g2, da sie sich in sieben Nukleotiden (zwei im CDS) und drei unterschiedlich großen Indels in der 3′-UTR unterschieden. Eine solche Sequenz wurde jedoch in keiner Gerüstsequenz entdeckt.
Das hochexprimierte Transkript (TRINITY_DN13842_c0_g1_i1) stammt offenbar aus der fehlerhaften TRINITY-Assemblierung der Reads von vier verschiedenen Loci im Genom mit nahezu identischen Sequenzen (Defensin_g3 bis g6). Drei davon waren zuvor mit den locus_tag-Qualifikatoren C0J52_27569, C0J52_22338 und C0J52_24004 annotiert worden. C0J52_27569 (Gen = DEFI_4 in Scaffold PYGN01003429) war jedoch ein Tandem aus zwei Genen (defensin_g3 und defensin_g4). Eine Assemblierungslücke, die sich mit defensin_g3 überschneidet, ist wahrscheinlich der Grund dafür, dass eine einzige mRNA, die beide Gene erweitert, im Genom annotiert wurde.
Die Gene defensin_g7 und defensin_g8 wiesen identische CDS-Sequenzen auf, allerdings mit mehreren Unterschieden in den UTR-Segmenten der mRNA-Sequenzen. Sie wurden in die Gerüste PYGN01002380 bzw. PYGN01001185 eingeordnet. Nur eines von ihnen, Defensin_g8, wurde zuvor als Gen C0J52_22336 annotiert.
Defensin_g9 entspricht dem Gen C0J52_24005, das für Phormicin, ein 91-Aminosäuren-Protein, codiert. Die Transkriptanalyse ergab, dass das kodierte Protein kürzer ist (71 Aminosäuren) und eine Signalpeptidsequenz von 20 Aminosäuren an seinem Aminoterminus aufweist (siehe unten). Defensin_g10 war ebenfalls ein Phormicin, das sich in einem anderen Gerüst befand, aber nur das zweite Exon war im Genom vorhanden, wobei das erste Exon höchstwahrscheinlich in einer zusammenhängenden 1-kb-Assemblierungslücke platziert war.
Defensin_g11, g12 und g13 entsprechen den zuvor annotierten Genen (ergänzende Tabellen 2 und 3). Defensin_g14 ist im Gerüst PYGN01001185 vorhanden, aber der größte Teil der Sequenz des zweiten Exons fehlt aufgrund einer Assemblierungslücke. Die CDS-Sequenzen von Defensin_g15 und C0J52_20459 waren identisch, aber die Transkriptanalyse von Defensin_g15 deutete auf eine mRNA mit zwei Exons anstelle der C0J52_20459 mit drei Exons hin.
Alle Defensine zeigten Signalpeptide von 18 bis 22 Aminosäuren am N-Terminus und die PF01097 (Defensin_2)-Domäne am C-Terminus (siehe Beispiele für die Domänenorganisation in Abb. 1). Die Länge der Aminosäurekette reichte von 63 bis 81 Resten mit einem Durchschnitt von 72 Aminosäuren. Obwohl einige Defensin-Proteine identisch waren, war die durchschnittliche Anzahl der paarweisen Unterschiede hoch (29 Aminosäuren). Eine abgeleitete Maximum-Likelihood-Phylogenie zeigte ihre Verteilung in sieben Clustern (Abb. 2a). Ein Logo des Protein-Alignments der Defensin-Proteine zeigt die hydrophobe N-terminale Sequenz sowie die Defensin_2-Domäne (C-Terminus) mit den sechs konservierten Cysteinresten (ergänzende Abb. 1).
Ein Vergleich zwischen den Transkriptionsniveaus der 16 Defensin-Gene wurde mithilfe einer BLASTN-Strategie auf der Grundlage von BLASTN-Suchen mit den Nukleotiden 41-190 jedes CDS geschätzt. Alle 150-nt-Sequenzen unterschieden sich in mindestens einem Nukleotid, mit Ausnahme von defensin_g3 und g5, die identisch waren und deren Transkriptionsniveau nicht einem bestimmten Gen zugeordnet werden konnte (ergänzende Tabelle 3). Auf der Grundlage der von TRINITY geschätzten TPM-Werte und der von dieser BLAST-Strategie geschätzten Transkriptionsniveaus haben wir festgestellt, dass in diesem weiblichen erwachsenen Lauf defensin_g15 und g16 (kodierend für Defensin-ähnliche Proteine), g9 und g10 (kodierend für Phormicin) und g1, g2, g3 und g5 (kodierend für Tenecin-1-Proteine) die am stärksten exprimierten Defensin-Gene sind (ergänzende Tabelle 3).
Mit Hilfe einer TBLASTN-Strategie wurden die Defensin-Transkripte in 45 Arten der Ordnung Blattodea26 durchsucht (ergänzende Tabelle 4). Vierundvierzig Arten enthalten Defensin-Transkripte (Bereich 1 bis 9).
Termicin-AMP-Gene
Drei Gene, die kleine Proteine mit der Pfam-Domäne PF11415 kodieren, sind im Genom annotiert (ergänzende Tabelle 1). BLASTN-Suchen mit der SRR6784710-Transkriptdatenbank ergaben Treffer mit nur zwei sehr ähnlichen Transkripten. Das erste Transkript, TRINITY_DN10017_c0_g1_i1, wies einen einzigen Unterschied zu C0J52_00758 oder C0J52_26761 in der CDS-Sequenz auf, aber mehrere in der übrigen mRNA-Sequenz, was auf zwei unabhängige Gene im Genom schließen lässt. Das zweite Transkript, TRINITY_DN10017_c0_g2_i1, war zu 100 % identisch mit dem CDS und der mRNA von C0J52_26762, was auf ein drittes Termicin-Gen hinweist. Die drei kodierten Proteine sind fast identisch, mit einem einzigen S/A-Unterschied an Stelle 13 (ergänzende Abb. 1). Ein hydrophobes Signalpeptid wird zwischen den Aminosäuren 1 und 19 und die Toxin_37-Domäne (PF11415) zwischen den Aminosäuren 30 und 63 vorhergesagt (Abb. 1). Auf der Grundlage der von TRINITY geschätzten TPM-Werte und der von BLASTN geschätzten Transkriptionsniveaus (ein 150-Bp-Segment, das vier polymorphe Stellen im Termicin-CDS abdeckt) können wir schlussfolgern, dass Termicin_g3 (C0J52_26762) das am stärksten exprimierte Termicin-Gen ist (ergänzende Tabelle 5).
Termicin-mRNAs wurden in 29 Blattodea-Arten nachgewiesen, die zu verschiedenen taxonomischen Familien gehören (ergänzende Tabelle 4). Ihr Fehlen war häufig bei Arten aus der Familie der Corydioidea, was auf einen möglichen Verlust dieser Art von Genen hindeutet, obwohl das Fehlen der Expression in diesen Proben nicht ausgeschlossen werden kann.
Drosomycin-AMP-Gene
Zehn Gene, die für Proteine mit der Domäne Gamma-Thionin (PF00304) kodieren, sind in drei Gerüsten des B. germanica-Genoms annotiert. Diese antifungalen Proteine werden als Drosomycine bezeichnet. BLASTN-Suchen des annotierten CDS gegen die SRR6784710-Transkriptdatenbank identifizierten nur sechs Transkripte, die das komplette CDS enthalten, und zwei unbedeutende Transkripte, die nur ein CDS-Segment umfassen.
Der Vergleich des annotierten CDS und der von diesen Transkripten abgeleiteten Gene ergab, dass nur drei annotierte Gene (C0J52_03170, C0J52_03171 und C0J52_12810) mit drei dieser Transkripte übereinstimmen (die ersteren mit 2 Nukleotidunterschieden). Sie wurden als drosomycin_g2, g3 und g5 annotiert (ergänzende Tabellen 2 und 6). Eines der drei verbleibenden Transkripte, das drosomycin_g6 entspricht, konnte mit einigen Nukleotidunterschieden in einem nicht annotierten Segment im Genom platziert werden. Die Sequenzen der beiden anderen Transkripte schließlich wurden im Genom nicht entdeckt, obwohl ihre CDS-Sequenzen C0J52_03170 sehr ähnlich waren (mit 6 und 8 Nukleotidunterschieden). Diese Unterschiede deuten darauf hin, dass es sich nicht um Allele, sondern um unabhängige Gene handelt, und wir haben sie als drosomycin_g1 und g4 annotiert (ergänzende Tabellen 2 und 6).
Andererseits wurden sechs annotierte Gene mit locus_tags, C0J52_12811-13 und C0J52_23105-08, im Transkriptom der adulten Weibchen nicht nachgewiesen, aber sie scheinen in anderen Entwicklungsstadien exprimiert zu werden. Sie wurden als drosomycin_g7 bis g13 annotiert.
Eine Phylogenie der 13 Drosomycin-Proteine zeigte, dass defensin_g6 das am weitesten entfernte Gen war, während die anderen 12 Gene zwei Cluster von jeweils sechs Genen bildeten. Die Gene drosomycin_g1 bis g5, die in erwachsenen Weibchen exprimiert werden, sowie das nicht-exprimierte drosomycin_g9 bildeten eine gut unterstützte Gruppe, während die anderen sechs nicht-exprimierten Gene die andere Gruppe bildeten (Abb. 2b).
Eine Schätzung des Transkriptionsniveaus ergab, dass Drosomycin_g5 (C0J52_12810) das Gen mit der höchsten Expression war, wobei 86,1 % der Drosomycin-Reads für dieses Segment von ihm stammten (ergänzende Tabelle 6).
Zwölf der 13 kodierten Proteine waren 66 Aminosäuren lang. Drosomycin_g6 hatte eine Länge von 71 Aminosäuren, was auf das Vorhandensein zusätzlicher Aminosäuren in der Mitte des Proteins zurückzuführen ist, die von zwei Indels stammen (Seiten 25-26 und 36-38 des Alignments). Unter den beobachteten Resten ist das bemerkenswerteste Merkmal in den kodierten Proteinen das Vorhandensein von acht konservierten Cysteinen27 (ergänzende Abb. 1). Alle Drosomycine weisen ein hydrophobes Signalpeptid am N-Terminus und die PF00304-Domäne (Gamma-Thionin) am C-Terminus auf (Abb. 1).
Drosomycin-mRNAs wurden in 24 Blattodea-Arten nachgewiesen, fehlten jedoch in Isoptera-Arten und ihrem nahen Verwandten Cryptocercus wrighti (ergänzende Tabelle 4). Die gleiche Tatsache wurde in der Klade Corydioidea festgestellt, was darauf hindeutet, dass Termiten und andere Blattodea diese Art von AMP-Gen verloren haben könnten.
Attacin-AMP-Gene: Attacin-ähnliche und Blattellicine
Bis zu vier Regionen mit einer gewissen Ähnlichkeit mit der Attacin_C-Domäne (PF03769) wurden in der 47-kb-Region entdeckt, die sich über das Gen C0J52_26498 im Contig PYGN01001824 erstreckt. Nach einer ersten Analyse des zusammengesetzten Transkriptoms wurden mehr als zehn mRNA-Sequenzen identifiziert. Sie ähneln vollständigen oder teilweisen Sequenzen von mRNAs, die zu zwei Typen von Attacin-Genen gehören. Der erste Typ umfasst Gene, die für typische Attacin-Proteine (etwa 120 Aminosäuren) mit einem Signalpeptid am N-Terminus und der Attacin_C-Domäne am C-Terminus kodieren und als attacinähnliche Gene bezeichnet wurden. Der zweite Typ war ganz anders, da er einen langen Abschnitt mit Glutamin-/Glutaminsäureresten enthielt. Da sie eine offensichtliche evolutionäre Neuerung in B. germanica darstellten, nannten wir sie Blattellicine.
Drei Attacin-ähnliche Transkripte wurden im Transkriptom entdeckt (Ergänzende Tabellen 2 und 7). Sie enthielten kodierende Sequenzen von 357-360 Nukleotiden (118-119 kodierte Aminosäuren). Sie erhielten die Bezeichnungen attacin-like_g1 bis attacin-like_g3. Die Extraktion und Assemblierung der Reads für diese mRNAs bestätigte deren Existenz, deutete aber auf die Möglichkeit eines vierten Gens hin. Attacin-like_g3A und attacin-like_g3B weisen nur zwei Unterschiede auf, die Deletion eines 9-Nukleotid-Segments in der 5′UTR von attacin_g3B und einen synonymen Unterschied an CDS-Position 288 (die Aufnahme der Stellen für die beiden Unterschiede in einen Read war sehr selten, wenn man bedenkt, dass die Länge eines Reads 301 Nukleotide beträgt). Da es nur zwei Unterschiede gab und sie nicht im Genom platziert waren, gingen wir davon aus, dass es sich um Allele desselben Gens handelte.
Attacin-like_g1 CDS war dem attacin-like_g3 CDS mit 9-10 Unterschieden relativ ähnlich. Sie waren jedoch ausreichend unterschiedlich, um als unabhängige Loci zu gelten. Attacin-like_g2 war das am stärksten divergierende Gen mit 85-88 Unterschieden und einem zusätzlichen Codon im Vergleich zu den anderen. Nur die Sequenzen von Attacin-like_g1 und g2 wurden im Genom gefunden (ergänzende Tabellen 2 und 7).
Die Annotation der Blattellicine war viel komplizierter. Nach einer ersten Analyse wurde ein langes CDS (> 250 Codons) mit einer merkwürdigen Struktur festgestellt. Es begann mit dem hydrophoben Signalpeptid am N-Terminus, gefolgt von einem langen Glx-reichen Segment in der Mitte (> 70 Reste, hauptsächlich Glutamine und Glutaminsäuren) und einer C-terminalen Attacin-Domäne (Abb. 1).
Bis zu 13 mRNA-Transkripte (alle mit unvollständigen CDS-Segmenten) mit dieser Art von Sequenzen wurden entdeckt. Die Hauptgründe dafür waren, dass das Vorhandensein mehrerer Blattellicin-Gene und die langen Glx-reichen Regionen die Assemblierung des Transkriptoms drastisch beeinträchtigten. Dies geschah wahrscheinlich während der Assemblierung und Annotation des B. germanica-Genoms5,6.
Die 5′-Sequenz eines Blattellicin-CDS wurde als Abfrage verwendet, um mit BLASTN diejenigen Reads zu identifizieren, die von der Expression von Blattellicin-Genen im Lauf SRR6784710 stammen. Nach der Extraktion und Assemblierung wurden vier verschiedene Anfänge von Blattellicin-Genen mit einem Bereich von 7 bis 18 paarweisen Nukleotidunterschieden in den 5′ der mRNAs festgestellt. Diese vier mRNA-Anfänge wurden verwendet, um die verbleibenden Gensequenzen bis zur Vervollständigung der CDS-Sequenz zu rekrutieren.
Der größte Teil der CDS-Sequenz für Blattellicin_g1 konnte im Genom identifiziert werden, obwohl etwa 200 Bp aufgrund von zwei Assembler-Lücken fehlten (ergänzende Tabellen 2 und 7). Bei den anderen konnte nur das erste kodierende Exon von blattellicin_g2 und g4 eindeutig einem bestimmten Contig-Segment zugeordnet werden, obwohl auch Treffer für andere Segmente des CDS gefunden wurden, jedoch ohne 100%ige Identität. Im Genom konnte keine identische Sequenz zum ersten Exon von blattellicin_g3 identifiziert werden. Die wahrscheinlichste Erklärung ist, dass die vier Blattellicin-Gene in Tandem-Kopien im Genom vorhanden sind, aber ihre spezielle zentrale Wiederholungsstruktur eine korrekte Assemblierung im Genom oder in den Transkriptomen verhindert, es sei denn, man führt eine manuelle Inspektion der Alignments durch. Darüber hinaus können Variationen der Glx-Codon-Kopienzahl in der Population nicht ausgeschlossen werden.
Wir stellten fest, dass Blattellicine auf einem höheren Niveau exprimiert wurden als Attacin-ähnliche Gene, wobei Blattellicin_g4 in diesem Transkriptom am stärksten exprimiert wurde (ergänzende Tabelle 7).
Logos der Protein-Alignments für die drei Attacin-ähnlichen und die vier Blattellicin-Proteine von B. germanica zeigten ein kleines Segment negativ geladener Aminosäuren in den Attacin-ähnlichen Proteinen und ein langes Segment in den Blattellicinen (Abb. 3).
Attacin-mRNAs wurden in den meisten Blattodea-Arten nachgewiesen (ergänzende Tabelle 4). Die Treffer für Blattellicine umfassten nicht die Glx-Region, sondern nur die Attacin_C-Domäne. Um die Evolutionsgeschichte der Attacin-ähnlichen und Blattellicin-Gene in B. germanica zu verstehen, extrahierten wir die Attacin-Transkripte aus sieben Blattellinae TSA-Projekten26 (Symploce sp. AD-2014, Loboptera decipiens, Episymploce sundaica, Ischnoptera deropeltiformis, Paratemnopteryx couloniana, Lobopterella dimidiatipes, Asiablatta kyotensis). Diese Transkriptome stammen von erwachsenen Ganzkörpern, mit Ausnahme von I. deropeltiformis (ohne Angaben zum Entwicklungsstadium). Sie können potenziell alle Attacin-Gene für jedes Genom abdecken, obwohl die Möglichkeit von Genen ohne Expression nicht ausgeschlossen werden kann. Die größte Anzahl von Attacin-Genen wurde bei E. sundaica festgestellt. Zwei Gene wurden in L. decipiens, Symploce sp. AD-2014 und A. kyotensis beobachtet, wobei im ersteren Fall eine der Kopien unvollständig und sehr divergent war, wahrscheinlich ein Pseudogen, während im letzteren Fall die beiden Kopien am 5′-Ende des CDS um einige Codons unvollständig waren. Im Rahmen des SRA-Projekts wurde nach Reads gesucht, die den Anfang des CDS abdeckten, und auf der Grundlage der gefundenen Reads wurde festgestellt, dass eine Kopie vollständig war und in der anderen nur vier Codons fehlten. Die verbleibende Art enthielt eine einzige Genkopie. Außerdem wurde das einzige in P. americana nachgewiesene Gen extrahiert, um es als Außengruppe zu verwenden.
Eine Phylogenie wurde mit einem getrimmten Alignment (103 Sites) durchgeführt (Abb. 4). Die kurze Länge des Sequenzalignments verhinderte hohe Bootstrap-Werte in den meisten Knoten und erschwerte die Bestimmung der Evolutionsgeschichte dieser Genfamilie mit voller Sicherheit. Aus der Phylogenie lassen sich jedoch mehrere Fakten ablesen. Erstens sind Attacin-ähnliche Gene der ursprüngliche Gentyp. Einige Blattellinae-Arten enthalten nur ein oder zwei Gene. Im Fall der Klade von B. germanica, E. sundaica, L. decipiens und Symploce sp. AD-2014 fand die Duplikation eines ursprünglichen attacinähnlichen Gens vor ihrer Divergenz statt, was zum Auftreten der attacinähnlichen_g1- und g2-Typen führte. Obwohl L. decipiens attacin-like_g1 nicht in die Phylogenie aufgenommen wurde, wurde eine unvollständige und divergente Kopie eines Transkripts dieses Typs (GDYK01026461.1) entdeckt, die wahrscheinlich von einer pseudogenisierten Kopie stammt.
Der Ursprung der Blattellicine scheint sehr jung zu sein. Obwohl kein signifikanter Bootstrap-Wert dafür spricht, wurde möglicherweise ein uraltes Gen des Typs attacin-like_g2 dupliziert, und eine der Kopien führte nach einer schnellen Evolution zu den Blattellicinen. Die Verdopplung fand vor der Divergenz von E. sundaica und B. germanica statt. Das Protein in B. germanica ist offenbar ein Prä-Blattellicin, das einige der neuen Merkmale der Blattellicine aufweist, wie z. B. die große Größe (182 Reste) und einige zusätzliche Aminosäuren am C-Terminus (RK in B. germanica und GKGK in E. sundaica). Das Hauptmerkmal der Blattellicine, die lange Poly-Glx-Region, fehlt jedoch, obwohl das Prä-Blattellicin von E. sundaica eine Sieben-Glutaminsäure-Spur (mit einem A in der Mitte) nahe dem Beginn der Attacin-Domäne enthält.
AMP-Expression in B. germanica
Um die Expression von AMP-Genen in Geweben, Entwicklungsstadien oder Geschlechtern von B. germanica zu bestimmen, haben wir die CDS von 17 AMP-Gentypen (defensin_g2, g3, g7, g9, g11, g13 und g15; termicin_g1; drosomycin_g1, g5, g6, g11 und g12; attacin-like_g1 und g2; blattellicin_g1 und g4) ausgewählt. Sie sind hinreichend unterschiedlich, um wichtige Kreuzungsergebnisse zwischen den ausgewählten Stoffen derselben Gruppe zu vermeiden. Aufgrund der hohen Ähnlichkeit der CDS einiger Gene aus derselben Familie zeigten die erhaltenen Werte jedoch die Expression der Gengruppen mit fast identischen Sequenzen (z. B. die drei Termicin-Gene oder attacin-like_g1 und g3).
Die Expressionsniveaus wurden mit einer BLASTN-Strategie als Anzahl der Treffer/Gb des SR-Experiments geschätzt (ergänzende Tabelle 8). Die Heatmap-Analyse von 28 Ganzkörper-SR-Experimenten, die Proben aus verschiedenen Entwicklungsstadien entsprechen (Abb. 5), ergab mehrere Schlussfolgerungen. Erstens wiesen erwachsene Weibchen eine hohe Expression der meisten AMP-Gene auf, wobei die höchste Expression von Blattellicin_g1 und g4 am wichtigsten war. Einige Drosomycine wurden ebenfalls stark exprimiert, insbesondere Drosomycin_g5. Die Expression einiger Gene hing mit der Entwicklung zusammen (siehe z. B. das Fehlen der Expression von Drosomycin g11 und g12 bei erwachsenen Weibchen, aber die hohe Expression bei Nymphen). Von den Defensinen wurden Defensin_g9 und g15 in den meisten Entwicklungsstadien am stärksten exprimiert. Die Expression von Defensin g2 und g3 war bei erwachsenen Weibchen höher als bei Nymphen. Die Expression von Termicin_g1 war bei Nymphen und adulten Tieren gering. Attacin-ähnliche Gene wurden auch in adulten Weibchen exprimiert, wobei die Werte von attacin-like_g1 höher waren als die von attacin-like_g2, was mit den zuvor beschriebenen Ergebnissen übereinstimmt (ergänzende Tabelle 7), auch unter Berücksichtigung der Tatsache, dass die entdeckten Treffer für attacin-like_g1 wahrscheinlich von den Genen g1 und g3 stammen.
Im Allgemeinen zeigen AMP-Gene eine Zunahme der Expression, wenn die Entwicklung zu adulten Formen fortschreitet. Leider wurde kein SR-Experiment für ausschließlich adulte Männchen in der SRA-Datenbank hinterlegt, obwohl einige gemischte männliche und weibliche Proben gemeldet werden (ergänzende Tabelle 8).
Wir analysierten auch die Expression dieser 17 AMP-Gene in einigen transkriptomischen SR-Experimenten, bei denen die Proben aus einem einzigen Gewebe, einem Teil des Körpers oder einer Mischung aus mehreren Geweben stammen (ergänzende Tabelle 8). Im Allgemeinen scheinen Drosomycin_g5 und Defensin_g9 in den meisten dieser Proben exprimiert zu werden. In zwei Experimenten mit männlichen erwachsenen Köpfen wurden mehrere AMP-Gene in relevantem Umfang exprimiert, darunter defensin_g7 und g9, drosomycin_g5 und attacin-like_g2. Im Allgemeinen ist das Ausmaß der Expression in diesen Proben viel geringer als in denen, die von ganzen Körpern stammen. Dies lässt vermuten, dass andere Körperteile als der Fettkörper, die Eierstöcke oder die Epidermis für die hohen Expressionswerte verantwortlich sind, die in den Ganzkörperproben adulter Weibchen beobachtet wurden (Abb. 5).
In keinem Gewebe oder Körperteil wurde eine Expression von Blattellicin_g1 und Blattellicin_g4 beobachtet, mit Ausnahme einer fast nicht nachweisbaren Expression in einer Probe von nicht befruchteten Eiern, die wahrscheinlich auf eine Kontamination mit weiblichen Geweben zurückzuführen ist.