El proyecto Consensus CDS (CCDS) es un esfuerzo de colaboración para identificar un conjunto básico de regiones codificantes de proteínas humanas y de ratón que estén anotadas de forma consistente y de alta calidad. El objetivo a largo plazo es apoyar la convergencia hacia un conjunto estándar de anotaciones de genes.

La información disponible incluye:

  • Anuncios
  • Presentación
  • Acceso y disponibilidad
  • Colaboradores
  • Identificadores y seguimiento del CCDS
  • Flujo del proceso y pruebas de calidad
  • Publicaciones
Anuncios Volver al principio de la página

CCDS Release 23 – Actualización para el ratón 24 de octubre, 2019

La anotación NCBI y Ensembl/Havana del genoma de referencia GRCm38.p6 de referencia (ensamblaje GCF_000001635.26, anotación del NCBI versión 108, anotación de Ensembl versión 98) se analizó para identificar secuencias codificantes (CDS) adicionales que se anotan de forma consistente. Los datos de CCDS están disponibles en el sitio web de CCDS y en el sitio FTP y estarán disponibles en los sitios web de los exploradores de genomas y/o genes de los colaboradores según el ciclo de actualización de cada explorador.

Esta actualización añade 1.570 nuevas identificaciones de CCDS y añade 175 genes al conjunto de CCDS de ratón. La versión 23 de CCDS incluye un total de 27.219 CCDS IDs que corresponden a 20.486 GeneIDs. Consulte el informe de estadísticas de Releases & para obtener más detalles.

CCDS Release 22 – Actualización para humanos 14 de junio de 2018

Se analizó la anotación NCBI y Ensembl/Havana del genoma de referencia GRCh38.p12 (ensamblaje GCF_000001405.38, anotación NCBI release 109, anotación Ensembl release 92) para identificar secuencias de codificación (CDS) adicionales que están anotadas de forma consistente. Los datos de CCDS están disponibles en el sitio web de CCDS y en el sitio FTP y estarán disponibles en los sitios web de los navegadores de genomas y/o genes de los colaboradores según el ciclo de actualización de cada navegador.

Esta actualización añade 894 nuevas identificaciones de CCDS y añade 128 genes al conjunto de CCDS humanos. La versión 22 de CCDS incluye un total de 33.397 CCDS IDs que corresponden a 19.033 GeneIDs. Véase el informe de estadísticas de las versiones & para más detalles.

Ver anuncios anteriores

Descripción general Volver al principio de la página

La anotación de los genes es proporcionada por múltiples recursos públicos, utilizando diferentes métodos, y dando como resultado información que es similar pero no siempre idéntica. La secuencia del genoma humano y del ratón es ahora lo suficientemente estable como para empezar a identificar las ubicaciones de los genes que son idénticas, y hacer que esos datos sean públicos y apoyados como un conjunto básico por los tres principales navegadores públicos del genoma. El objetivo a largo plazo es apoyar la convergencia hacia un conjunto estándar de anotaciones de genes.

Con este fin, se estableció el proyecto Consensus CDS (CCDS). El proyecto CCDS es un esfuerzo de colaboración para identificar un conjunto básico de regiones codificadoras de proteínas que estén anotadas de forma consistente y sean de alta calidad.

Acceso y disponibilidad Volver al principio de la página

Los resultados iniciales del proyecto Consensus CDS ya están disponibles en los sitios web de los navegadores de genomas de los participantes. Además, los identificadores CCDS se indican en los registros NCBI RefSeq y Entrez Gene correspondientes. Se puede acceder a los informes CCDS siguiendo los enlaces proporcionados, o consultando directamente la base de datos subyacente utilizando la interfaz de consulta proporcionada en la parte superior de esta página.

El conjunto de datos CCDS también está disponible para FTP anónimo.

Colaboradores Volver al inicio de la página

El conjunto CCDS se construye por consenso entre los miembros colaboradores que incluyen:

  • Instituto Europeo de Bioinformática (EBI)
    • Ensembl Annotation Pipeline
    • Grupo de Curación HAVANA
  • Comité de Nomenclatura Genética de HUGO (HGNC)
  • Mouse Genome Informatics (MGI)
  • National Center for Biotechnology Information (NCBI)
    • Eukaryotic Genome Annotation Pipeline
    • RefSeq Curation Group

Prevemos que el conjunto CCDS será más completo a medida que los grupos de curación independientes se pongan de acuerdo en los casos en los que difieren inicialmente, a medida que se produzca una validación experimental adicional de los genes débilmente apoyados, y a medida que los métodos de anotación automática sigan mejorando. La comunicación entre los grupos colaboradores de CCDS es una actividad continua que resolverá las diferencias e identificará los refinamientos entre los ciclos de actualización de CCDS.

Identificadores y seguimiento de CCDS Volver al inicio de la página

Los genes anotados que se incluyen en el conjunto CCDS se asocian con un número de identificador único y un número de versión (por ejemplo, CCDS1.1, CCDS234.1). El número de versión se actualizará si la estructura de la CDS cambia, o si la secuencia del genoma subyacente cambia en ese lugar. Con los ciclos de actualización del navegador del genoma basado en la anotación y la secuencia, el conjunto de CCDS se mapeará hacia adelante, manteniendo los identificadores. Todos los cambios en los genes CCDS existentes se hacen por acuerdo de colaboración; ningún grupo cambiará el conjunto unilateralmente.

Flujo del proceso y pruebas de calidad Volver al principio de la página

El conjunto CCDS se calcula siguiendo las actualizaciones coordinadas de anotaciones del genoma completo realizadas por el NCBI y Ensembl. Las actualizaciones de las anotaciones representan genes que se definen mediante una mezcla de curación manual y procesamiento computacional automatizado.

Los principales grupos de curación son el equipo de La Habana en el EMBL-EBI y el grupo de anotación RefSeq en el NCBI. Los métodos automáticos son a través del grupo de Ensembl y el pipeline computacional de anotación del genoma del NCBI. Se favorece la información curada sobre la automatizada y la información tiene que ser tanto consistente en los grupos del EMBL-EBI como del NCBI y también pasar estrictos controles de calidad.

El flujo del proceso general para definir el conjunto de genes CCDS incluye:

  1. comparar los resultados de la anotación del genoma
  2. identificar las regiones de codificación anotadas que tienen coordenadas de localización idénticas en el genoma
  3. evaluación de la calidad
  4. remover los CDS de menor calidad del conjunto central a la espera de una revisión adicional entre los grupos de colaboración.

El conjunto de CCDS incluye regiones codificantes que están anotadas como de longitud completa (con un ATG inicial y un codón de parada válido), pueden ser traducidas desde el genoma sin cambios de marco y utilizan sitios de empalme de consenso. El número y el tipo de pruebas de calidad realizadas pueden ampliarse en el futuro, pero incluyen la coherencia en el análisis comparativo entre especies, el análisis para identificar pseudogenes putativos, genes retrotranspuestos, sitios de empalme de consenso, transcripciones de apoyo y homología de proteínas.

Publicaciones Volver al inicio de la página

Por favor, utilice las siguientes citas para CCDS:
El proyecto de la secuencia de codificación de consenso (CCDS): Identificación de un conjunto de genes codificadores de proteínas comunes para los genomas humano y del ratón.
Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR, Searle S, Farrell CM, Loveland JE, Ruef BJ, Hart E, Suner MM, Landrum MJ, Aken B, Ayling S, Baertsch R, Fernandez-Banet J, Cherry JL, Curwen V, Dicuccio M, Kellis M, Lee J, Lin MF, Schuster M, Shkeda A, Amid C, Brown G, Dukhanina O, Frankish A, Hart J, Maidak BL, Mudge J, Murphy MR, Murphy T, Rajan J, Rajput B, Riddick LD, Snow C, Steward C, Webb D, Weber JA, Wilming L, Wu W, Birney E, Haussler D, Hubbard T, Ostell J, Durbin R, Lipman D.
Genome Res. 2009 Jul;19(7):1316-23.
PubMed: PMID: 19498102
Seguimiento y coordinación de un esfuerzo de curación internacional para el Proyecto CCDS.
Harte RA, Farrell CM, Loveland JE, Suner MM, Wilming L, Aken B, Barrell D, Frankish A, Wallin C, Searle S, Diekhans M, Harrow J, Pruitt KD.
Base de datos 2012 Mar 20;2012:bas008. doi: 10.1093/database/bas008.
PubMed: PMID: 22434842
Estado actual y novedades de la base de datos Consensus Coding Sequence.
Farrell CM, O’Leary NA, Harte RA, Loveland JE, Wilming LG, Wallin C, Diekhans M, Barrell D, Searle SM, Aken B, Hiatt SM, Frankish A, Suner MM, Rajput B, Steward CA, Brown GR, Bennett R, Murphy M, Wu W, Kay MP, Hart J, Rajan J, Weber J, Snow C, Riddick LD, Hunt T, Webb D, Thomas M, Tamez P, Rangwala SH, McGarvey KM, Pujar S, Shkeda A, Mudge JM, Gonzalez JM, Gilbert JG, Trevanion SJ, Baertsch R, Harrow JL, Hubbard T, Ostell JM, Haussler D, Pruitt KD.
Nucleic Acids Res. 2014 Jan 1;42(1):D865-72. doi: 10.1093/nar/gkt1059.
PubMed: PMID: 24217909
Base de datos de secuencias codificantes de consenso (CCDS): un conjunto estandarizado de regiones codificantes de proteínas humanas y de ratón apoyado por la curación de expertos.
Pujar S, O’Leary NA, Farrell CM, Loveland JE, Mudge JM, Wallin C, Girón CG, Diekhans M, Barnes I, Bennett R, Berry AE, Cox E, Davidson C, Goldfarb T, González JM, Hunt T, Jackson J, Joardar V, Kay MP, Kodali VK, Martin FJ, McAndrews M, McGarvey KM, Murphy M, Rajput B, Rangwala SH, Riddick LD, Seal RL, Suner MM, Webb D, Zhu S, Aken BL, Bruford EA, Bult CJ, Frankish A, Murphy T, Pruitt KD.
Nucleic Acids Res. 2018 Jan 4;46(D1):D221-D228. doi: 10.1093/nar/gkx1031.
PubMed: PMID: 29126148
PubMed Central: PMCID: PMC5753299CcdsBrowse: 1.1.44

Deja una respuesta

Tu dirección de correo electrónico no será publicada.