O projeto Consenso CDS (CCDS) é um esforço colaborativo para identificar um conjunto central de regiões codificadoras de proteínas humanas e de ratos que são consistentemente anotadas e de alta qualidade. O objetivo a longo prazo é apoiar a convergência em direção a um conjunto padrão de anotações de genes.
A informação disponível inclui:
- Anúncios
- Visão geral
- Acesso e Disponibilidade
- Colaboradores
- Códigos deCCDS e Rastreamento
- Fluxo de processo e Testes de Qualidade
- Publicações
Anúncios |
Versão 23 da CCDS – Atualização para Mouse 24 de outubro, 2019
A anotação do NCBI e Ensembl/Havana do GRCm38.p6 genoma de referência (assembly GCF_000001635.26, NCBI annotation release 108, Ensembl annotation release 98) foi analisado para identificar sequências de codificação adicionais (CDS) que são consistentemente anotadas. Os dados CCDS estão disponíveis no site do CCDS e no site FTP e estarão disponíveis no genoma dos colaboradores e/ou nos sites dos navegadores de genes de acordo com o ciclo de atualização de cada navegador.
Esta atualização adiciona 1.570 novos IDs CCDS, e adiciona 175 genes ao conjunto CCDS do mouse. A versão 23 do CCDS inclui um total de 27.219 CCDS IDs que correspondem a 20.486 GeneIDs. Veja as versões & Relatório estatístico para mais detalhes.
Versão 22 do CCDS – Update for Human June 14, 2018
As anotações NCBI e Ensembl/Havana do genoma de referência GRCh38.p12 (assembly GCF_000001405.38, NCBI release 109, Ensembl annotation release 92) foram analisadas para identificar sequências de codificação adicionais (CDS) que são consistentemente anotadas. Os dados CCDS estão disponíveis no site do CCDS e no site FTP e ficarão disponíveis no genoma dos colaboradores e/ou nos sites do navegador de genes de acordo com o ciclo de atualização de cada navegador.
Esta atualização adiciona 894 novos IDs CCDS, e adiciona 128 genes ao conjunto CCDS humano. A versão 22 do CCDS inclui um total de 33.397 CCDS IDs que correspondem a 19.033 GeneIDs. Veja os Releases & Relatório estatístico para detalhes.
Veja Anúncios Passados
Visão Geral |
A anotação dos genes é fornecida por múltiplos recursos públicos, usando métodos diferentes, e resultando em informação que é similar mas nem sempre idêntica. A sequência do genoma humano e do rato é agora suficientemente estável para começar a identificar as colocações de genes que são idênticas, e para tornar esses dados públicos e suportados como um conjunto central pelos três principais navegadores públicos do genoma. O objetivo a longo prazo é apoiar a convergência para um conjunto padrão de anotações gênicas.
Para este fim, foi estabelecido o projeto Consenso CDS (CCDS). O projeto CCDS é um esforço colaborativo para identificar um conjunto central de regiões codificadoras de proteínas que são consistentemente anotadas e de alta qualidade.
Acesso e Disponibilidade |
Resultados iniciais do projeto CDS do Consenso estão agora disponíveis nos sites dos navegadores de genoma dos participantes. Além disso, os identificadores CCDS são indicados nos registos relevantes do NCBI RefSeq e Entrez Gene. Os relatórios CCDS podem ser acessados seguindo os links fornecidos, ou consultando diretamente a base de dados subjacente usando a interface de consulta fornecida no topo desta página.
O conjunto de dados CCDS também está disponível para FTP anônimo.
Colaboradores |
O conjunto CCDS é construído por consenso entre os membros colaboradores que incluem:
- European Bioinformatics Institute (EBI)
- Ensembl Annotation Pipeline
- HAVANA Curation Group
- HUGO Gene Nomenclature Committee (HGNC)
- Mouse Genome Informatics (MGI)
- National Center para Informação Biotecnológica (NCBI)
- Duto de Anotação do Genoma Eucariótico
- Grupo de Cura RefSeq
Prevemos que o conjunto de CCDS se tornará mais completo à medida que os grupos de cura independentes concordam em casos em que inicialmente diferem, à medida que ocorre validação experimental adicional de genes fracamente suportados, e à medida que os métodos de anotação automática continuam a melhorar. A comunicação entre os grupos colaboradores da CCDS é uma atividade contínua que irá resolver diferenças e identificar refinamentos entre os ciclos de atualização da CCDS.
CCDS Identifiers and Tracking |
Os genes anotados que estão incluídos no conjunto CCDS estão associados a um número identificador único e número de versão (por exemplo, CCDS1.1, CCDS234.1). O número de versão será atualizado se a estrutura do CDS mudar, ou se a sequência do genoma subjacente mudar nesse local. Com ciclos de atualização do navegador de genoma baseados em anotação e seqüência, o conjunto CCDS será mapeado para frente, mantendo os identificadores. Todas as alterações nos genes CCDS existentes são feitas por acordo de colaboração; nenhum grupo irá alterar unilateralmente o conjunto.
Process Flow and Quality Testing |
O conjunto CCDS é calculado seguindo as atualizações coordenadas da anotação de todo o genoma realizadas pelo NCBI e Ensembl. As atualizações da anotação representam genes que são definidos por uma mistura de cura manual e processamento computacional automatizado.
Os principais grupos de cura são a equipe de Havana no EMBL-EBI e o grupo de anotação RefSeq no NCBI. Os métodos automáticos são através do grupo Ensembl e do grupo de anotação computacional do genoma NCBI. A informação curada é favorecida em relação à informação automatizada e a informação tem de ser consistente nos grupos EMBL-EBI e NCBI e também passar por controlos de CQ rigorosos.
O fluxo geral do processo para definir o conjunto genético CCDS inclui:
- comparar resultados da anotação do genoma
- identificar regiões codificadas anotadas que têm coordenadas de localização idênticas no genoma
- avaliação da qualidade
- remover CDSs de qualidade inferior do conjunto central até revisão adicional entre os grupos de colaboração.
O conjunto CCDS inclui regiões de codificação que são anotadas como completas (com um ATG iniciador e um stop-codon válido), podem ser traduzidas a partir do genoma sem emendas de frameshifts, e usar sites de emendas consensuais. O número e tipo de testes de qualidade realizados podem ser expandidos no futuro, mas incluem consistência na análise comparativa entre espécies, análise para identificar pseudogenes putativos, genes retrotranspostos, sites de emendas consensuais, transcrições de suporte e homologia de proteínas.
Publicações |
Please use as seguintes citações para o projeto CCDS:
O projeto CCDS (consensus coding sequence): Identificando um conjunto genético codificador de proteínas comum para os genomas humano e do rato.
Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR, Searle S, Farrell CM, Loveland JE, Ruef BJ, Hart E, Suner MM, Landrum MJ, Aken B, Ayling S, Baertsch R, Fernandez-Banet J, Cherry JL, Curwen V, Dicuccio M, Kellis M, Lee J, Lin MF, Schuster M, Shkeda A, Amid C, Brown G, Dukhanina O, Frankish A, Hart J, Maidak BL, Mudge J, Murphy MR, Murphy T, Rajan J, Rajput B, Riddick LD, Snow C, Steward C, Webb D, Weber JA, Wilming L, Wu W, Birney E, Haussler D, Hubbard T, Ostell J, Durbin R, Lipman D.
Genome Res. 2009 Jul;19(7):1316-23.
PubMed: PMID: 19498102
Tracking and coordinating an international curation effort for the CCDS Project.
Harte RA, Farrell CM, Loveland JE, Suner MM, Wilming L, Aken B, Barrell D, Frankish A, Wallin C, Searle S, Diekhans M, Harrow J, Pruitt KD.
Base de dados 2012 Mar 20;2012:bas008. doi: 10.1093/base de dados/bas008.
PubMed: PMID: 22434842
Estado actual e novas funcionalidades da base de dados da Sequência de Codificação Consenso.
Farrell CM, O’Leary NA, Harte RA, Loveland JE, Wilming LG, Wallin C, Diekhans M, Barrell D, Searle SM, Aken B, Hiatt SM, Frankish A, Suner MM, Rajput B, Steward CA, Brown GR, Bennett R, Murphy M, Wu W, Kay MP, Hart J, Rajan J, Weber J, Snow C, Riddick LD, Hunt T, Webb D, Thomas M, Tamez P, Rangwala SH, McGarvey KM, Pujar S, Shkeda A, Mudge JM, Gonzalez JM, Gilbert JG, Trevanion SJ, Baertsch R, Harrow JL, Hubbard T, Ostell JM, Haussler D, Pruitt KD.
Nucleic Acids Res. 2014 Jan 1;42(1):D865-72. doi: 10.1093/nar/gkt1059.
PubMed: PMID: 24217909
Base de dados da sequência de codificação do consenso (CCDS): um conjunto padronizado de regiões codificadoras de proteínas humanas e do rato suportadas por curadoria especializada.
Pujar S, O’Leary NA, Farrell CM, Loveland JE, Mudge JM, Wallin C, Girón CG, Diekhans M, Barnes I, Bennett R, Berry AE, Cox E, Davidson C, Goldfarb T, Gonzalez JM, Hunt T, Jackson J, Joardar V, Kay MP, Kodali VK, Martin FJ, McAndrews M, McGarvey KM, Murphy M, Rajput B, Rangwala SH, Riddick LD, Seal RL, Suner MM, Webb D, Zhu S, Aken BL, Bruford EA, Bult CJ, Frankish A, Murphy T, Pruitt KD.
Ácidos Nucleicos Res. 2018 Jan 4;46(D1):D221-D228. doi: 10.1093/nar/gkx1031.
PubMed: PMID: 29126148
PubMed Central: PMCID: PMC5753299CcdsBrowse: 1.1.44