Genes codificando proteínas com domínios AMP no genoma de B. germanica
Para identificar genes anotados com funções AMP no genoma de B. germanica6 duas estratégias foram usadas. A primeira foi a busca por nomes de produtos incluindo os termos defesa, drosomicina, tenecina, phormicina, attacin e coleoptericina. A segunda foi a busca de domínios Pfam anotados relacionados a peptídeos antimicrobianos. Eles estão incluídos em três domínios do clã do banco de dados da Pfam: Knottin_1 (CL0054, superfamília Scorpion toxin-like knottin), Defensin (CL0075, superfamília Defensin/myotoxin-like) e Omega_toxin (CL0083, Omega toxin-like). Os cinco domínios Pfam detectados foram: PF11581 (Argos), PF03769 (Attacin_C), PF01097 (Defensin_2), PF00304 (Gama-tionina) e PF11415 (Toxina_37). Após a remoção da C0J52_07645 (proteína de lente gigante) e C0J52_08617 (proteína de defesa putativa 3), por não codificarem AMPs, 24 genes codificadores foram retidos (Tabela suplementar 1). Eles foram inicialmente classificados nos seguintes grupos: (i) Proteínas Defensin_2 (adiante Defensin) (10 CDS, incluindo duas com a anotação parcial = 5′), (ii) Drosomicina (domínio Gama-thionin) (10 CDS), (iii) Termicina (domínio Toxin_37) (3 CDS) e (iv) o CDS C0J52_26498. Esta última, anotada como proteína hipotética, era uma proteína longa (541 aminoácidos) com um domínio Attacin_C. Entretanto, uma análise menos rigorosa do domínio mostrou a presença potencial de dois ou três domínios adicionais nesta proteína com semelhanças com Attacin_C e Coleoptericin (PF06286).
A fim de revisar os genes de codificação AMP anotados, vários experimentos de B. germanica RNA-Seq SRA (PRJNA389591) foram testados para sua expressão usando BLASTN e vários CDS AMP como consultas. Entre os experimentos SRA com abundância de leituras de AMP, o RNA-Seq run SRR6784710 (corpo inteiro, fêmea adulta) foi selecionado. Run SRR6784710 foi montado com de novo Trinity25 e um banco de dados de transcrições foi criado.
O genoma anotado foi comparado com o banco de dados de transcrições com o objetivo de identificar os conjuntos completos de genes AMP para cada classe. Após cuidadosa revisão, identificamos 39 genes AMP (pertencentes a cinco tipos: defensinas, termicinas, drosomicinas, attacins-like e blattellicinas), que serão descritos abaixo. Trinta e quatro deles foram distribuídos em dez andaimes do genoma e cinco genes não foram colocados (Tabela 1; Tabela Complementar 2).
Gens AMP Defensin
Ten CDS AMP anotados com domínio Defensin foram usados como consultas contra a base de dados de transcrição SRR6784710 com BLASTN (e-value = 1.0E-20). Todos eles produziram hits com pelo menos uma transcrição. No total, foram identificadas 16 transcrições diferentes. A abundância de transcrições variou de TPM (transcripts per million transcripts) valores de 323,64-0,00.
Informação sobre anotação de genoma e as transcrições montadas foram comparadas (ver Materiais & Métodos) identificando 16 genes de defensina (Tabelas Suplementares 2 e 3). Eles receberam os nomes de defensin_g1 a defensin_g16, com defensin_g1 e defensin_g16 incluindo duas isoformas alternativas que não afetam a região codificadora. As isoformas defensin_g1 i1 e i2 diferiram na remoção ou não de um intron 3′-UTR, enquanto as duas isoformas da defensin_g16 diferiram no uso de diferentes sinais de poli(A).
Genes de defensin (exceto defensin_g1 que não foi colocada) foram agrupadas em quatro andaimes. A defensina_g1 não colocada foi incluída porque o programa identificou três transcrições pertencentes ao cluster TRINITY_DN1123_c0. Uma delas (correspondente à defensin_g2) poderia estar relacionada com o gene C0J52_24001 (codificando uma proteína hipotética), embora tenhamos recuperado o quadro de leitura correto após a colocação correta do início do segundo exon. As outras duas transcrições mostraram 100% de identidade, mas diferiram na emenda alternativa de um intron 453-nt 3′-UTR. Consideramos isoformas de defensin_g1, um gene diferente de defensin_g2, pois diferiram em sete nucleotídeos (dois no CDS) mais três indels de tamanhos diferentes no 3′-UTR. Contudo, tal sequência não foi detectada em nenhuma sequência de andaime.
A transcrição altamente expressa (TRINITY_DN13842_c0_g1_i1) foi aparentemente derivada da montagem incorrecta pela TRINITY das leituras de quatro loci diferentes no genoma com sequências quase idênticas (defensin_g3 a g6). Três deles foram previamente anotados com os qualificadores locus_tag C0J52_27569, C0J52_22338 e C0J52_24004. Entretanto C0J52_27569 (gene = DEFI_4 no andaime PYGN01003429) era um tandem de dois genes (defensin_g3 e defensin_g4). Uma lacuna de montagem sobreposta com defensin_g3 é provavelmente a razão pela qual um único mRNA expandindo ambos os genes foi anotado no genoma.
Genes defensin_g7 e defensin_g8 exibiam sequências CDS idênticas mas com várias diferenças nos segmentos UTR das sequências de mRNA. Foram colocados em andaimes PYGN01002380 e PYGN01001185, respectivamente. Apenas uma delas, defensin_g8, foi previamente anotada como gene C0J52_22336.
Defensin_g9 corresponde ao gene C0J52_24005 que codifica a Phormicina, uma proteína 91-amino-ácida. A análise transcrita revelou que a proteína codificada é mais curta (71 aminoácidos) com uma sequência de sinal peptídeo de 20 aminoácidos na sua amino-terminus (ver abaixo). Defensin_g10 também era uma Phormicina localizada em um andaime diferente, mas apenas a segunda exon estava presente no genoma, com a primeira exon muito provavelmente colocada em um espaço contíguo de montagem de 1-kb.
Defensin_g11, g12 e g13 são equivalentes a genes previamente anotados (Tabelas Suplementares 2 e 3). Defensin_g14 está presente no andaime PYGN01001185, mas a maior parte da sequência do segundo exon está ausente por causa de uma lacuna de montagem. As sequências CDS da defensin_g15 e C0J52_20459 foram idênticas mas a análise transcrita da defensin_g15 sugeriu um mRNA de dois exon ao invés do mRNA de três exon C0J52_20459.
Todas as defensinas mostraram peptídeos de sinal de 18 a 22 aminoácidos no domínio N-terminus e o PF01097 (Defensin_2) no domínio C-terminus (veja exemplos de organizações de domínio na Fig. 1). O comprimento da cadeia de aminoácidos variou de 63 a 81 resíduos com uma média de 72 aminoácidos. Embora algumas proteínas Defensin fossem idênticas, o número médio de diferenças em pares era elevado (29 aminoácidos). Uma filogenia de máxima probabilidade inferida mostrou sua distribuição em sete grupos (Fig. 2a). Um logo do alinhamento proteico das proteínas Defensin mostra a seqüência hidrófoba N-terminal, bem como o domínio Defensin_2 (C-terminus) com os seis resíduos de cisteína conservados (Suplemento Fig. 1).
Uma comparação entre os níveis de transcrição dos 16 genes da defensina foi estimada usando uma estratégia BLASTN baseada em buscas BLASTN com nucleotídeos 41-190 de cada CDS. Todas as sequências de 150-nt eram diferentes em pelo menos um nucleotídeo, exceto defensina_g3 e g5 que eram idênticos e o nível de transcrição não podia ser atribuído a um gene específico (Tabela Suplementar 3). Com base nos valores de TPM estimados pelo TRINITY e nos níveis de transcrição estimados por esta estratégia BLAST, observamos que nesta corrida adulta feminina, defensin_g15 e g16 (codificando proteínas do tipo Defensin), g9 e g10 (codificando Phormicin) e g1, g2, g3 e g5 (codificando proteínas de Tenecin-1) são os genes de defensina mais altamente expressos (Tabela Suplementar 3).
Usando uma estratégia TBLASTN, as transcrições das defensinas foram pesquisadas em 45 espécies cobrindo a ordem Blattodea26 (Tabela Suplementar 4). Quarenta e quatro espécies contêm transcrições de defensinas (intervalo de 1 a 9).
Gens AMP de termicina
Três genes codificando pequenas proteínas com o domínio Pfam PF11415 são anotados no genoma (Tabela Suplementar 1). As buscas BLASTN contra a base de dados de transcrições SRR6784710 deram hits com apenas duas transcrições muito semelhantes. A primeira transcrição, TRINITY_DN10017_c0_g1_i1, mostrou uma única diferença com C0J52_00758 ou C0J52_26761 na sequência CDS mas várias na sequência mRNA restante, sugerindo dois genes independentes no genoma. A segunda transcrição, TRINITY_DN10017_c0_g2_i1, foi 100% idêntica tanto ao CDS quanto ao mRNA de C0J52_26762, indicando um terceiro gene de termicina. As três proteínas codificadas são quase idênticas com uma única diferença S/A no local 13 (Figura Suplementar 1). Um peptídeo hidrofóbico sinal é previsto entre os aminoácidos 1 e 19 e o domínio Toxin_37 (PF11415) entre os aminoácidos 30 e 63 (Fig. 1). Com base nos valores de TPM estimados pelo TRINITY e nos níveis de transcrição estimados pelo BLASTN (um segmento de 150-bp cobrindo quatro sítios polimórficos na termicina CDS), podemos concluir que a termicina_g3 (C0J52_26762) é o gene de termicina mais altamente expresso (Tabela Suplementar 5).
Termicina mRNAs foram detectados em 29 espécies de Blattodea pertencentes às diferentes famílias taxonômicas (Tabela Suplementar 4). Sua ausência foi freqüente em espécies de Corydioidea, sugerindo a perda potencial deste tipo de gene, embora a falta de expressão nestas amostras possa não ser descartada.
Gens AMP de Drosomicina
Ten genes codificando proteínas com o domínio Gama-tiionina (PF00304) são anotados em três andaimes do genoma B. germanica. Estas proteínas antifúngicas recebem o nome de Drosomycins. As buscas BLASTN do CDS anotado contra a base de dados de transcrições SRR6784710 identificaram apenas seis transcrições incluindo o CDS completo e duas transcrições insignificantes cobrindo apenas um segmento de CDS.
A comparação dos CDS anotados e os derivados destas transcrições revelou que apenas três genes anotados (C0J52_03170, C0J52_03171 e C0J52_12810) eram equivalentes a três destas transcrições (a primeira com 2 diferenças nucleotídicas). Foram anotadas como drosomicina_g2, g3 e g5 (Tabelas Suplementares 2 e 6). Uma das três transcrições restantes, correspondente à drosomicina_g6, pôde ser colocada no genoma, com algumas diferenças de nucleotídeos, em um segmento não anotado. Finalmente, as seqüências das outras duas transcrições não foram detectadas no genoma, embora suas seqüências CDS fossem muito semelhantes a C0J52_03170 (com diferenças de 6 e 8 nucleotídeos). Essas diferenças sugerem que elas não são alelos, mas genes independentes e nós as anotamos como drosomicina_g1 e g4 (Tabelas Suplementares 2 e 6).
Por outro lado, seis genes anotados com locus_tags, C0J52_12811-13 e C0J52_23105-08 não foram detectados no transcriptoma feminino adulto, mas parecem ser expressos em outros estágios de desenvolvimento. Elas foram anotadas como drosomicina_g7 a g13,
Uma filogenia das 13 proteínas da Drosomicina mostrou que a defensina_g6 era o gene mais distante, enquanto os outros 12 genes formaram dois clusters de seis genes cada. Os genes drosomicina_g1 a g5, expressos em fêmeas adultas, mais a drosomicina não-expressa_g9 formaram um clade bem suportado enquanto os outros seis genes não-expressivos formaram o outro (Fig. 2b).
Uma estimativa do nível de transcrição revelou que a drosomicina_g5 (C0J52_12810) foi o gene de maior expressão, com 86,1% das leituras de drosomicina para este segmento derivado dele (Tabela Suplementar 6).
Doze das 13 proteínas codificadas tinham 66 aminoácidos de comprimento. A drosomicina_g6 tinha 71 aminoácidos de comprimento devido à presença no meio da proteína de aminoácidos adicionais derivados de dois indels (locais 25-26 e 36-38 do alinhamento). Entre os resíduos observados, a característica mais notável nas proteínas codificadas é a presença de oito cisteinas conservadas27 (Fig. 1 Suplementar). Todas as Drosomicinas apresentam um sinal de peptídeo hidrofóbico no domínio N-terminus e PF00304 (Gama-thionin) no domínio C-terminus (Fig. 1).
Drosomicina mRNAs foram detectados em 24 espécies de Blattodea mas estavam ausentes em espécies de Isoptera e seu parente próximo Cryptocercus wrighti (Tabela Suplementar 4). O mesmo fato foi detectado no clade Corydioidea, sugerindo que cupins e outros Blattodea podem ter perdido este tipo de gene AMP.
Atacin AMP genes: attacin-like e blattellicins
Up para quatro regiões com alguma semelhança com o domínio Attacin_C (PF03769) foram detectados na região 47-kb abrangendo o gene C0J52_26498 colocado no contig PYGN01001824. Após uma análise preliminar do transcriptoma montado, mais de dez sequências de mRNA foram identificadas. Elas se assemelham a seqüências completas ou parciais de mRNAs pertencentes a dois tipos de genes anexos. O primeiro tipo inclui genes que codificam proteínas Attacin típicas (cerca de 120 aminoácidos) com um peptídeo de sinal no terminal N e o domínio Attacin_C no terminal C, que foram nomeados como genes attacin-like. O segundo tipo era muito diferente, porque incluía uma longa extensão de resíduos de glutamina/ácido glutâmico. Como eles pareciam uma aparente inovação evolutiva em B. germanica, nós os chamamos de blattellicins.
Três transcrições parecidas com attacin foram detectadas no transcriptoma (Tabelas Suplementares 2 e 7). Elas continham sequências de codificação de 357-360 nucleotídeos (118-119 aminoácidos codificados). Eles receberam os nomes de attacin-like_g1 para attacin-like_g3. A extração e montagem das leituras para estes mRNAs confirmou sua existência, mas sugeriu a possibilidade de um quarto gene. Attacin-like_g3A e attacin-like_g3B mostram apenas duas diferenças, a exclusão de um segmento de 9-nucleotídeos no 5′UTR do attachcin_g3B e uma diferença sinônima na posição 288 do CDS (a inclusão dos sites para as duas diferenças em uma leitura foi muito infrequente considerando que o comprimento de uma leitura é de 301 nucleotídeos). Como havia apenas duas diferenças e elas eram inexistentes no genoma, consideramos que eram alelos do mesmo gene.
Attacin-like_g1 CDS era relativamente similar ao attacin-like_g3 CDS com 9-10 diferenças. Entretanto, eles eram suficientemente diferentes para serem considerados loci independentes. O attacin-like_g2 foi o gene mais divergente, com 85-88 diferenças e um códon extra contra os outros. Apenas as sequências de attacin-like_g1 e g2 estavam localizadas no genoma (Tabelas Suplementares 2 e 7).
A anotação de blattellicins era muito mais complicada. Após uma análise preliminar, um CDS longo (> 250 códons) com uma estrutura curiosa foi observado. Começou com o peptídeo de sinal hidrofóbico no N-termino, seguido por um longo segmento rico em Glx no meio (> 70 resíduos, principalmente glutaminas e ácidos glutâmicos) e um domínio C-terminal Attacin (Fig. 1).
Créditos de transcrição de 13 mRNA (todos contendo segmentos CDS incompletos) envolvendo este tipo de sequências foram detectados. As principais razões foram que a presença de vários genes blattellicin e as longas regiões ricas em Glx afetaram drasticamente a montagem do transcriptoma. Este fato provavelmente ocorreu durante a montagem e anotação do genoma B. germanica5,6.
A sequência 5′ de um CDS de blattellicina foi usada como consulta para identificar com BLASTN aquelas leituras derivadas da expressão dos genes de blattellicina na execução SRR6784710. Após a extracção e montagem, foram revelados quatro inícios diferentes de genes de blattellicina, com um intervalo de 7 a 18 diferenças nucleotídicas em pares no 5′ dos mRNAs. Estes quatro mRNA iniciados foram utilizados para recrutar as sequências de genes restantes até à conclusão do CDS.
A maior parte da sequência de CDS para blattellicin_g1 pôde ser identificada no genoma, apesar de cerca de 200-bp estarem ausentes devido a duas lacunas na montagem (Tabelas Suplementares 2 e 7). Para os outros, apenas a primeira codificação exon de blattellicin_g2 e g4 pôde ser inequivocamente atribuída a um segmento de contigente específico, embora também tenham sido detectados hits para outros segmentos do CDS, mas sem 100% de identidade. Nenhuma sequência idêntica à da blattellicin_g3 foi possível identificar o primeiro exon no genoma. A explicação mais viável é que os quatro genes da blattellicina estão presentes em cópias em tandem no genoma, mas a sua estrutura central de repetição especial impede a montagem correta no genoma ou transcriptomas, exceto se a inspeção manual dos alinhamentos for realizada. Além disso, variações no número de cópias do códon Glx na população não podem ser descartadas.
Detectamos que as blattellicinas foram expressas em um nível mais alto do que os genes do tipo attacin, sendo a blattellicina_g4 a mais altamente expressa nesta transcriptoma (Tabela Suplementar 7).
Logos dos alinhamentos proteicos para os três genes do tipo Attacin e as quatro proteínas Blattellicin do tipo B. germanica revelou um pequeno segmento de aminoácidos carregados negativamente em proteínas Attacin-like e um segmento longo em Blattellicinas (Fig. 3).
>
Attacin mRNAs foram detectados na maioria das espécies de Blattodea (Tabela Suplementar 4). Os acertos para blattellicinas não cobriram a região Glx, mas apenas o domínio attacin_C. Para entender a história evolutiva dos genes attacin-like e blattellicin em B. germanica, extraímos as transcrições de attacin de sete projetos de TSA Blattellinae26 (Symploce sp. AD-2014, Loboptera decipiens, Episymploce sundaica, Ischnoptera deropeltiformis, Paratemnopteryx couloniana, Lobopterella dimidiatipes, Asiablatta kyotensis). Estes transcriptomas provêm de corpos inteiros adultos, excepto I. deropeltiformis (sem informação sobre a fase de desenvolvimento). Eles podem potencialmente cobrir todos os genes de attacins para cada genoma, embora a possibilidade de genes sem expressão não possa ser descartada. O maior número de genes de attacina foi de três em E. sundaica. Dois genes foram observados em L. decipiens, Symploce sp. AD-2014 e A. kyotensis, embora no primeiro uma das cópias fosse incompleta e muito divergente, provavelmente um pseudogene, enquanto no segundo, as duas cópias eram alguns códons incompletos em 5′-end do CDS. O projeto SRA foi selecionado para leituras cobrindo o início do CDS e, com base naquelas recuperadas, uma foi concluída e, na outra, apenas quatro códons foram perdidos. As espécies remanescentes continham uma única cópia do gene. Além disso, a fim de usar como um outgroup, o único detectado em P. americana foi extraído.
Foi realizada uma filogenia com um alinhamento aparado (103 locais) (Fig. 4). A curta duração do alinhamento sequencial impediu valores altos de bootstrap na maioria dos nós e dificultou a determinação com total confiança da história evolutiva desta família genética. No entanto, vários fatos são observados a partir da filogenia. Em primeiro lugar, os genes tipo attacin são o tipo de gene ancestral. Algumas espécies de Blattellinae contêm apenas um ou dois genes. No caso do clade de B. germanica, E. sundaica, L. decipiens e Symploce sp. AD-2014, a duplicação de um gene tipo attacin-like ancestral ocorreu antes de sua divergência, resultando no aparecimento dos tipos attacin-like_g1 e g2. Embora L. decipiens attacin-like_g1 não tenha sido incluído na filogenia, uma cópia incompleta e divergente de uma transcrição deste tipo (GDYK01026461.1) é detectada, provavelmente derivada de uma cópia pseudogenizada.
A origem das blattellicinas parece ser muito recente. Embora não suportada por um valor de bootstrap significativo, potencialmente um gene ancestral do tipo attacin-like_g2 foi duplicado e uma das cópias, após uma rápida evolução, gerou blattellicins. A duplicação ocorreu antes da divergência de E. sundaica e B. germanica. A proteína na primeira é aparentemente uma pré-Blattellicina, incluindo algumas das novas características das blattellicinas, tais como grande tamanho (182 resíduos) e alguns aminoácidos extra no C-terminus (RK em B. germanica e GKGK em E. sundaica). Contudo, a principal característica das Blattellicinas, a longa região poliglótica, está ausente, embora E. sundaica pré-Blattellicina inclua uma pista de sete glutâmico-ácido (com um A no meio) próxima do início do domínio attacin.
AMP expressão em B. germanica
Para determinar a expressão dos genes AMP em B. tecidos da germanica, estágios de desenvolvimento ou sexos, selecionamos o CDS de 17 tipos de genes AMP (defensin_g2, g3, g7, g9, g11, g13 e g15; termicin_g1; drosomicina_g1, g5, g6, g11 e g12; attacin-like_g1 e g2; blattellicin_g1 e g4). Eles são suficientemente diferentes para evitar resultados cruzados importantes entre os selecionados do mesmo grupo. Entretanto, devido à alta similaridade do CDS de alguns genes da mesma família, os valores obtidos mostraram a expressão dos conjuntos de genes com sequências quase idênticas (por exemplo, os três genes termicinativos ou attacin-like_g1 e g3).
Níveis de expressão foram estimados com uma estratégia BLASTN como número de acertos/Gb do experimento SR (Tabela Suplementar 8). A análise do heatmap de 28 experimentos de SR de corpo inteiro correspondentes a amostras de diferentes estágios de desenvolvimento (Fig. 5) revelou várias conclusões. Em primeiro lugar, as fêmeas adultas apresentaram uma expressão elevada da maioria dos genes AMP, embora a mais relevante tenha sido a expressão mais elevada de blattellicin_g1 e g4. Algumas drosomicinas também foram altamente expressas, especialmente a drosomicina_g5. A expressão de alguns genes foi ligada ao desenvolvimento (ver, por exemplo, a ausência de expressão da drosomicina g11 e g12 em fêmeas adultas, mas alta expressão em ninfas). Dentre as defensinas, as mais bem expressas durante a maioria dos estágios de desenvolvimento foram defensin_g9 e g15. A expressão da defensina g2 e g3 foi maior nas fêmeas adultas do que nas ninfas. Termicin_g1 apresentou baixa expressão em ninfas e adultos. Os genes Attacin-like também foram expressos em fêmeas adultas, com valores attacin-like_g1 maiores do que os do attacin-like_g2, o que estava de acordo com os resultados descritos anteriormente (Tabela Suplementar 7), considerando também que os acertos detectados para attacin-like_g1 provavelmente vêm dos genes g1 e g3.
Em geral, os genes AMP exibem um aumento na expressão à medida que o desenvolvimento progride para formas adultas. Infelizmente, nenhum experimento de SR exclusivamente para machos adultos foi depositado no banco de dados do SRA, embora algumas amostras mistas de machos e fêmeas sejam relatadas (Tabela Suplementar 8).
Nós também analisamos a expressão desses 17 genes AMP em alguns experimentos transcriptômicos de SR nos quais amostras vêm de um único tecido, uma parte do corpo ou uma mistura de vários tecidos (Tabela Suplementar 8). Em geral, drosomicina_g5 e defensina_g9 parecem ser expressas na maioria destas amostras. Em duas experiências de cabeças de homens adultos, vários genes AMP foram expressos a um nível relevante, incluindo defensin_g7 e g9, drosomicina_g5 e attacin-like_g2. Em geral, o nível de expressão nestas amostras é muito menor do que os que provêm de corpos inteiros. Isto leva-nos a propor que outras partes do corpo diferentes do corpo gordo, ovários ou epiderme são responsáveis pelos altos níveis de expressão observados em fêmeas adultas inteiras (Fig. 5).
Nenhuma expressão de blattellicin_g1 e blattellicin_g4 foi observada em qualquer tecido ou parte do corpo, exceto uma expressão quase indetectável em uma amostra de óvulos não-fecundados, provavelmente devido à contaminação com tecidos femininos.