Het Consensus CDS (CCDS) project is een gezamenlijke inspanning om een kernset van menselijke en muis proteïne coderende regio’s te identificeren die consistent geannoteerd zijn en van hoge kwaliteit zijn. Het doel op lange termijn is de convergentie naar een standaardset van genannotaties te ondersteunen.
De beschikbare informatie omvat:
- Aankondigingen
- Overzicht
- Toegang en beschikbaarheid
- Samenwerkers
- CCDS Identifiers and Tracking
- Procesverloop en kwaliteitstests
- publicaties
Aankondigingen |
CCDS-uitgave 23 – Update voor Muis 24 oktober, 2019
De NCBI en Ensembl/Havana annotatie van het GRCm38.p6 referentiegenoom (assembly GCF_000001635.26, NCBI annotatie release 108, Ensembl annotatie release 98) werd geanalyseerd om aanvullende coderende sequenties (CDS) te identificeren die consistent zijn geannoteerd. CCDS data is beschikbaar op de CCDS web site en FTP site en zal beschikbaar komen in het genoom en / of gen browser websites van de medewerkers volgens de update cyclus van elke browser.
Deze update voegt 1.570 nieuwe CCDS IDs, en voegt 175 genen in de muis CCDS set. CCDS Release 23 bevat in totaal 27.219 CCDS IDs die corresponderen met 20.486 GeneIDs. Zie het rapport Releases & Statistieken voor details.
CCDS Release 22 – Update voor Human 14 juni 2018
De NCBI- en Ensembl/Havana-annotatie van het GRCh38.p12-referentiegenoom (assembly GCF_000001405.38, NCBI-annotatie release 109, Ensembl-annotatie release 92) werd geanalyseerd om extra coderende sequenties (CDS) te identificeren die consistent zijn geannoteerd. CCDS gegevens zijn beschikbaar op de CCDS website en FTP site en zullen beschikbaar komen op de genoom en/of gen browser websites van de samenwerkende partijen volgens de update cyclus van elke browser.
Deze update voegt 894 nieuwe CCDS IDs toe, en voegt 128 genen toe aan de menselijke CCDS set. CCDS Release 22 bevat in totaal 33.397 CCDS IDs die corresponderen met 19.033 GeneIDs. Zie het rapport Releases & Statistieken voor details.
Zie eerdere aankondigingen
Overzicht |
De annotatie van genen wordt verzorgd door meerdere openbare bronnen, die verschillende methoden gebruiken en resulteren in informatie die vergelijkbaar maar niet altijd identiek is. De sequentie van het menselijk en het muisgenoom is nu voldoende stabiel om te beginnen met het identificeren van die genposities die identiek zijn, en om die gegevens openbaar te maken en als kernverzameling te ondersteunen door de drie grote openbare genoombrowsers. Het doel op lange termijn is de convergentie naar een standaardset van genannotaties te ondersteunen.
Daartoe is het Consensus CDS (CCDS) project opgezet. Het CCDS-project is een gezamenlijke inspanning om een kernverzameling van eiwitcoderende regio’s te identificeren die consistent geannoteerd en van hoge kwaliteit zijn.
Toegang en beschikbaarheid |
De eerste resultaten van het Consensus CDS-project zijn nu beschikbaar op de websites van de genoombrowsers van de deelnemers. Bovendien zijn CCDS-identifiers aangegeven op de relevante NCBI RefSeq- en Entrez Gene-records. CCDS rapporten kunnen worden benaderd door het volgen van de verstrekte links, of door direct query’s in de onderliggende database met behulp van de query-interface aan de bovenkant van deze pagina.
De CCDS dataset is ook beschikbaar voor anonieme FTP.
Samenwerkers |
De CCDS-dataset is opgebouwd bij consensus tussen de samenwerkende leden, waaronder:
- European Bioinformatics Institute (EBI)
- Ensembl Annotation Pipeline
- HAVANA Curation Group
- HUGO Gene Nomenclature Committee (HGNC)
- Mouse Genome Informatics (MGI)
- National Center for Biotechnology Information (NCBI)
- Eukaryotic Genome Annotation Pipeline
- RefSeq Curation Group
Wij denken dat de CCDS-reeks completer zal worden naarmate de onafhankelijke curatiegroepen het eens worden over gevallen waarin zij aanvankelijk van mening verschillen, als aanvullende experimentele validatie van zwak ondersteunde genen plaatsvindt, en als automatische annotatie methoden blijven verbeteren. Communicatie tussen de samenwerkende CCDS-groepen is een voortdurende activiteit die verschillen zal oplossen en verfijningen tussen CCDS-bijwerkingscycli zal vaststellen.
CCDS Identifiers and Tracking |
Geannoteerde genen die zijn opgenomen in de CCDS set zijn geassocieerd met een uniek identificatienummer en versienummer (bijv. CCDS1.1, CCDS234.1). Het versienummer wordt bijgewerkt als de CDS-structuur verandert, of als de onderliggende genoomsequentie op die plaats verandert. Met annotatie- en sequentie-gebaseerde genoom-browser update-cycli zal de CCDS-reeks voorwaarts worden gemapt, met behoud van identifiers. Alle wijzigingen in bestaande CCDS-genen geschieden op basis van een samenwerkingsovereenkomst; geen enkele groep zal de set eenzijdig wijzigen.
Process Flow and Quality Testing |
De CCDS-reeks wordt berekend na gecoördineerde annotatie-updates van het volledige genoom die door de NCBI en Ensembl worden uitgevoerd. Annotatie-updates vertegenwoordigen genen die zijn gedefinieerd door een mengsel van handmatige curatie en geautomatiseerde computationele verwerking.
De belangrijkste curatiegroepen zijn het Havana-team bij EMBL-EBI en de RefSeq-annotatiegroep bij NCBI. De automatische methoden lopen via de Ensembl-groep en de computationele pijplijn voor genoomanotatie van het NCBI. De voorkeur wordt gegeven aan gecureerde informatie boven geautomatiseerde informatie en de informatie moet zowel in de EMBL-EBI-groep als in de NCBI-groep consistent zijn en ook strenge QC-controles doorstaan.
De algemene processtroom voor het definiëren van de CCDS genenset omvat:
- vergelijk genoomannotatie resultaten
- identificeer geannoteerde coderende regio’s die identieke locatie coördinaten op het genoom hebben
- kwaliteitsbeoordeling
- verwijder CDS van lagere kwaliteit uit de kern set in afwachting van aanvullende beoordeling tussen de samenwerkingsgroepen.
De CCDS-verzameling omvat coderende regio’s die als full-length zijn geannoteerd (met een initiërend ATG en een geldig stop-codon), uit het genoom kunnen worden vertaald zonder frameshifts, en consensus splice-sites gebruiken. Het aantal en het soort kwaliteitstests dat wordt uitgevoerd kan in de toekomst worden uitgebreid, maar omvat consistentie in vergelijkende analyse tussen soorten, analyse om vermoedelijke pseudogenen, retrogetransponeerde genen, consensussplitsingsplaatsen, ondersteunende transcripten en eiwithomologie te identificeren.
Publicaties |
Gebruik de volgende citaten voor CCDS:
The consensus coding sequence (CCDS) project: Identifying a common protein-coding gene set for the human and mouse genomes.
Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR, Searle S, Farrell CM, Loveland JE, Ruef BJ, Hart E, Suner MM, Landrum MJ, Aken B, Ayling S, Baertsch R, Fernandez-Banet J, Cherry JL, Curwen V, Dicuccio M, Kellis M, Lee J, Lin MF, Schuster M, Shkeda A, Amid C, Brown G, Dukhanina O, Frankish A, Hart J, Maidak BL, Mudge J, Murphy MR, Murphy T, Rajan J, Rajput B, Riddick LD, Snow C, Steward C, Webb D, Weber JA, Wilming L, Wu W, Birney E, Haussler D, Hubbard T, Ostell J, Durbin R, Lipman D.
Genome Res. 2009 Jul;19(7):1316-23.
PubMed: PMID: 19498102
Tracking and coordinating an international curation effort for the CCDS Project.
Harte RA, Farrell CM, Loveland JE, Suner MM, Wilming L, Aken B, Barrell D, Frankish A, Wallin C, Searle S, Diekhans M, Harrow J, Pruitt KD.
Database 2012 Mar 20;2012:bas008. doi: 10.1093/database/bas008.
PubMed: PMID: 22434842
Current status and new features of the Consensus Coding Sequence database.
Farrell CM, O’Leary NA, Harte RA, Loveland JE, Wilming LG, Wallin C, Diekhans M, Barrell D, Searle SM, Aken B, Hiatt SM, Frankish A, Suner MM, Rajput B, Steward CA, Brown GR, Bennett R, Murphy M, Wu W, Kay MP, Hart J, Rajan J, Weber J, Snow C, Riddick LD, Hunt T, Webb D, Thomas M, Tamez P, Rangwala SH, McGarvey KM, Pujar S, Shkeda A, Mudge JM, Gonzalez JM, Gilbert JG, Trevanion SJ, Baertsch R, Harrow JL, Hubbard T, Ostell JM, Haussler D, Pruitt KD.
Nucleic Acids Res. 2014 Jan 1;42(1):D865-72. doi: 10.1093/nar/gkt1059.
PubMed: PMID: 24217909
Consensus coding sequence (CCDS) database: een gestandaardiseerde set van menselijke en muis eiwit-coderende regio’s ondersteund door expert curatie.
Pujar S, O’Leary NA, Farrell CM, Loveland JE, Mudge JM, Wallin C, Girón CG, Diekhans M, Barnes I, Bennett R, Berry AE, Cox E, Davidson C, Goldfarb T, Gonzalez JM, Hunt T, Jackson J, Joardar V, Kay MP, Kodali VK, Martin FJ, McAndrews M, McGarvey KM, Murphy M, Rajput B, Rangwala SH, Riddick LD, Seal RL, Suner MM, Webb D, Zhu S, Aken BL, Bruford EA, Bult CJ, Frankish A, Murphy T, Pruitt KD.
Nucleic Acids Res. 2018 Jan 4;46(D1):D221-D228. doi: 10.1093/nar/gkx1031.
PubMed: PMID: 29126148
PubMed Central: PMCID: PMC5753299CcdsBrowse: 1.1.44