Le projet Consensus CDS (CCDS) est un effort de collaboration visant à identifier un ensemble de base de régions codantes de protéines humaines et de souris qui sont annotées de manière cohérente et de haute qualité. L’objectif à long terme est de soutenir la convergence vers un ensemble standard d’annotations de gènes.
Les informations disponibles comprennent :
- Announcements
- Overview
- Access and Availability
- Collaborateurs
- CCDS Identifiers and Tracking
- Process flow. et test de qualité
- Publications
Annonces |
CCDS Release 23 – Mise à jour pour la souris 24 octobre, 2019
L’annotation NCBI et Ensembl/Havana du génome de référence GRCm38.p6 génome de référence (assemblage GCF_000001635.26, annotation NCBI version 108, annotation Ensembl version 98) a été analysée pour identifier les séquences codantes (CDS) supplémentaires qui sont annotées de manière cohérente. Les données du CCDS sont disponibles sur le site Web du CCDS et sur le site FTP et deviendront disponibles sur les sites Web du génome et/ou du navigateur de gènes des collaborateurs selon le cycle de mise à jour de chaque navigateur.
Cette mise à jour ajoute 1 570 nouveaux ID du CCDS et ajoute 175 gènes dans l’ensemble du CCDS de la souris. La version 23 du CCDS comprend un total de 27 219 ID CCDS qui correspondent à 20 486 GeneIDs. Voir le rapport Statistiques des libérations & pour plus de détails.
CCDS Release 22 – Mise à jour pour l’humain 14 juin 2018
L’annotation NCBI et Ensembl/Havana du génome de référence GRCh38.p12 (assemblage GCF_000001405.38, annotation NCBI version 109, annotation Ensembl version 92) a été analysée pour identifier des séquences codantes (CDS) supplémentaires qui sont annotées de manière cohérente. Les données du CCDS sont disponibles sur le site Web du CCDS et sur le site FTP et seront disponibles sur les sites Web des navigateurs de génomes et/ou de gènes des collaborateurs selon le cycle de mise à jour de chaque navigateur.
Cette mise à jour ajoute 894 nouveaux ID du CCDS et ajoute 128 gènes dans l’ensemble du CCDS humain. La version 22 du CCDS comprend un total de 33 397 ID CCDS qui correspondent à 19 033 GeneIDs. Voir le rapport sur les libérations & Statistiques pour plus de détails.
Voir les annonces passées
Vue d’ensemble |
L’annotation des gènes est fournie par de multiples ressources publiques, utilisant différentes méthodes, et résultant en des informations similaires mais pas toujours identiques. La séquence du génome humain et de la souris est maintenant suffisamment stable pour commencer à identifier les placements de gènes qui sont identiques, et pour rendre ces données publiques et soutenues comme un ensemble de base par les trois principaux navigateurs publics de génome. L’objectif à long terme est de soutenir la convergence vers un ensemble standard d’annotations de gènes.
À cette fin, le projet Consensus CDS (CCDS) a été établi. Le projet CCDS est un effort de collaboration visant à identifier un ensemble de base de régions codantes de protéines qui sont annotées de manière cohérente et de haute qualité.
Accès et disponibilité |
Les résultats initiaux du projet Consensus CDS sont maintenant disponibles sur les sites Web des navigateurs de génome des participants. En outre, les identifiants CCDS sont indiqués sur les enregistrements RefSeq et Entrez Gene pertinents du NCBI. Les rapports CCDS sont accessibles en suivant les liens fournis, ou en interrogeant directement la base de données sous-jacente à l’aide de l’interface d’interrogation fournie en haut de cette page.
L’ensemble de données CCDS est également disponible pour un FTP anonyme.
Collaborateurs |
L’ensemble CCDS est construit par consensus entre les membres collaborateurs qui comprennent :
- L’Institut européen de bioinformatique (EBI)
- Ensembl Annotation Pipeline
- HAVANA Curation Group
- HUGO Gene Nomenclature Committee (HGNC)
- Mouse Genome Informatics (MGI)
- National Center. for Biotechnology Information (NCBI)
- Eukaryotic Genome Annotation Pipeline
- RefSeq Curation Group
Nous envisageons que l’ensemble du CCDS devienne plus complet à mesure que les groupes de curation indépendants s’accordent sur les cas où ils diffèrent initialement, de la validation expérimentale supplémentaire des gènes faiblement soutenus et de l’amélioration continue des méthodes d’annotation automatique. La communication entre les groupes de collaboration du CCDS est une activité continue qui permettra de résoudre les différences et d’identifier les raffinements entre les cycles de mise à jour du CCDS.
Identifiants et suivi du CCDS |
Les gènes annotés qui sont inclus dans l’ensemble du CCDS sont associés à un numéro d’identifiant unique et à un numéro de version (par exemple, CCDS1.1, CCDS234.1). Le numéro de version sera mis à jour si la structure du CDS change, ou si la séquence du génome sous-jacent change à cet endroit. Avec les cycles de mise à jour de l’annotation et du navigateur de génome basé sur la séquence, l’ensemble CCDS sera mis en correspondance vers l’avant, en maintenant les identifiants. Toutes les modifications apportées aux gènes CCDS existants se font par accord de collaboration ; aucun groupe ne modifiera l’ensemble unilatéralement.
Déroulement du processus et tests de qualité |
L’ensemble CCDS est calculé suite aux mises à jour coordonnées des annotations du génome entier effectuées par le NCBI et Ensembl. Les mises à jour d’annotation représentent les gènes qui sont définis par un mélange de curation manuelle et de traitement informatique automatisé.
Les principaux groupes de curation sont l’équipe Havana à l’EMBL-EBI et le groupe d’annotation RefSeq au NCBI. Les méthodes automatiques passent par le groupe Ensembl et le pipeline computationnel d’annotation du génome du NCBI. L’information curée est privilégiée par rapport à l’information automatique et l’information doit à la fois être cohérente dans les groupes EMBL-EBI et NCBI et également passer des contrôles CQ rigoureux.
Le flux de processus général pour définir l’ensemble de gènes CCDS comprend :
- comparer les résultats de l’annotation du génome
- identifier les régions codantes annotées qui ont des coordonnées de localisation identiques sur le génome
- évaluation de la qualité
- éliminer les CDS de qualité inférieure de l’ensemble principal en attendant un examen supplémentaire entre les groupes de collaboration.
L’ensemble CCDS comprend des régions codantes qui sont annotées comme étant de pleine longueur (avec un ATG d’initiation et un codon d’arrêt valide), qui peuvent être traduites à partir du génome sans décalage de cadre, et qui utilisent des sites d’épissage consensus. Le nombre et le type de tests de qualité effectués pourront être étendus à l’avenir, mais ils comprennent la cohérence de l’analyse comparative entre espèces, l’analyse pour identifier les pseudogènes putatifs, les gènes rétrotransposés, les sites d’épissage consensuels, les transcriptions de soutien et l’homologie des protéines.
Publications |
Veuillez utiliser les citations suivantes pour le CCDS:
Le projet de séquence codante consensus (CCDS) : Identification d’un ensemble commun de gènes codant pour les protéines des génomes humain et murin.
Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR, Searle S, Farrell CM, Loveland JE, Ruef BJ, Hart E, Suner MM, Landrum MJ, Aken B, Ayling S, Baertsch R, Fernandez-Banet J, Cherry JL, Curwen V, Dicuccio M, Kellis M, Lee J, Lin MF, Schuster M, Shkeda A, Amid C, Brown G, Dukhanina O, Frankish A, Hart J, Maidak BL, Mudge J, Murphy MR, Murphy T, Rajan J, Rajput B, Riddick LD, Snow C, Steward C, Webb D, Weber JA, Wilming L, Wu W, Birney E, Haussler D, Hubbard T, Ostell J, Durbin R, Lipman D.
Genome Res. 2009 Jul;19(7):1316-23.
PubMed : PMID : 19498102
Suivre et coordonner un effort de curation international pour le projet CCDS.
Harte RA, Farrell CM, Loveland JE, Suner MM, Wilming L, Aken B, Barrell D, Frankish A, Wallin C, Searle S, Diekhans M, Harrow J, Pruitt KD.
Database 2012 Mar 20;2012:bas008. doi : 10.1093/database/bas008.
PubMed : PMID : 22434842
État actuel et nouvelles caractéristiques de la base de données Consensus Coding Sequence.
Farrell CM, O’Leary NA, Harte RA, Loveland JE, Wilming LG, Wallin C, Diekhans M, Barrell D, Searle SM, Aken B, Hiatt SM, Frankish A, Suner MM, Rajput B, Steward CA, Brown GR, Bennett R, Murphy M, Wu W, Kay MP, Hart J, Rajan J, Weber J, Snow C, Riddick LD, Hunt T, Webb D, Thomas M, Tamez P, Rangwala SH, McGarvey KM, Pujar S, Shkeda A, Mudge JM, Gonzalez JM, Gilbert JG, Trevanion SJ, Baertsch R, Harrow JL, Hubbard T, Ostell JM, Haussler D, Pruitt KD.
Nucleic Acids Res. 2014 Jan 1;42(1):D865-72. doi : 10.1093/nar/gkt1059.
PubMed : PMID : 24217909
Base de données des séquences codantes consensuelles (CCDS) : un ensemble normalisé de régions codant pour les protéines humaines et murines soutenu par une curation d’experts.
Pujar S, O’Leary NA, Farrell CM, Loveland JE, Mudge JM, Wallin C, Girón CG, Diekhans M, Barnes I, Bennett R, Berry AE, Cox E, Davidson C, Goldfarb T, Gonzalez JM, Hunt T, Jackson J, Joardar V, Kay MP, Kodali VK, Martin FJ, McAndrews M, McGarvey KM, Murphy M, Rajput B, Rangwala SH, Riddick LD, Seal RL, Suner MM, Webb D, Zhu S, Aken BL, Bruford EA, Bult CJ, Frankish A, Murphy T, Pruitt KD.
Nucleic Acids Res. 2018 Jan 4;46(D1):D221-D228. doi : 10.1093/nar/gkx1031.
PubMed : PMID : 29126148
PubMed Central : PMCID : PMC5753299CcdsBrowse : 1.1.44