Projektet Consensus CDS (CCDS) är ett samarbete för att identifiera en kärna av proteinkodande regioner hos människa och mus som är konsekvent annoterade och av hög kvalitet. Det långsiktiga målet är att stödja konvergens mot en standarduppsättning av genannoteringar.
Den tillgängliga informationen omfattar:
- Announcements
- Overview
- Access and Availability
- Collaborators
- CCDS Identifiers and Tracking
- Process Flow och kvalitetstestning
- Publikationer
Meddelanden |
CCDS Release 23 – Uppdatering för mus 24 oktober, 2019
NCBI- och Ensembl/Havana-annotationen av GRCm38.p6 referensgenom (assembly GCF_000001635.26, NCBI annotation release 108, Ensembl annotation release 98) analyserades för att identifiera ytterligare kodande sekvenser (CDS) som är konsekvent annoterade. CCDS-data finns tillgängliga på CCDS-webbplatsen och FTP-webbplatsen och kommer att bli tillgängliga på samarbetspartnernas genom- och/eller genwebbplatser i enlighet med varje webbläsares uppdateringscykel.
Denna uppdatering lägger till 1 570 nya CCDS-ID:n och lägger till 175 gener i musens CCDS-uppsättning. CCDS Release 23 innehåller totalt 27 219 CCDS IDs som motsvarar 20 486 GeneIDs. Se rapporten Releases & Statistics report för detaljer.
CCDS Release 22 – Update for Human 14 juni 2018
N NCBI- och Ensembl/Havana-annoteringen av referensgenomet GRCh38.p12 (assembly GCF_000001405.38, NCBI annotation release 109, Ensembl annotation release 92) analyserades för att identifiera ytterligare kodande sekvenser (CDS) som är konsekvent annoterade. CCDS-data finns tillgängliga på CCDS-webbplatsen och FTP-webbplatsen och kommer att bli tillgängliga på samarbetspartnernas genom- och/eller genwebbplatser i enlighet med varje webbläsares uppdateringscykel.
Denna uppdatering lägger till 894 nya CCDS-ID:n och lägger till 128 gener i CCDS-uppsättningen för människor. CCDS Release 22 innehåller totalt 33 397 CCDS IDs som motsvarar 19 033 GeneIDs. Se rapporten Releases & Statistics report för mer information.
Se tidigare tillkännagivanden
Översikt |
Annotering av gener tillhandahålls av flera offentliga resurser, med hjälp av olika metoder, vilket resulterar i information som är likartad men inte alltid identisk. Genomsekvensen för människor och möss är nu tillräckligt stabil för att börja identifiera de genplaceringar som är identiska och för att göra dessa uppgifter offentliga och stödjas som en kärnuppsättning av de tre stora offentliga genombrowsers. Det långsiktiga målet är att stödja konvergensen mot en standarduppsättning av genannotationer.
I detta syfte inrättades projektet Consensus CDS (CCDS). CCDS-projektet är ett samarbete för att identifiera en kärnuppsättning av proteinkodande regioner som är konsekvent annoterade och av hög kvalitet.
Tillgång och tillgänglighet |
De första resultaten från Consensus CDS-projektet finns nu tillgängliga på deltagarnas genombläddrarwebbplatser. Dessutom anges CCDS-identifierare på relevanta NCBI RefSeq- och Entrez Gene-poster. CCDS-rapporterna kan nås genom att följa de tillhandahållna länkarna eller genom att direkt fråga den underliggande databasen med hjälp av frågegränssnittet längst upp på denna sida.
CDS-dataset är också tillgängligt för anonym FTP.
Samarbetspartners |
CCDS-uppsättningen byggs upp i samförstånd mellan de samverkande medlemmarna som inkluderar:
- European Bioinformatics Institute (EBI)
- Ensembl Annotation Pipeline
- HAVANA Curation Group
- HUGO Gene Nomenclature Committee (HGNC)
- Mouse Genome Informatics (MGI)
- National Center for Biotechnology Information (NCBI)
- Eukaryotic Genome Annotation Pipeline
- RefSeq Curation Group
Vi tänker oss att CCDS-uppsättningen kommer att bli mer komplett allteftersom de oberoende kureringsgrupperna kommer överens i de fall där de initialt skiljer sig åt, ytterligare experimentell validering av gener med svagt stöd sker och automatiska annoteringsmetoder fortsätter att förbättras. Kommunikationen mellan de grupper som samarbetar med CCDS är en pågående verksamhet som kommer att lösa olikheter och identifiera förbättringar mellan uppdateringscyklerna av CCDS.
CCDS Identifiers and Tracking |
Annoterade gener som ingår i CCDS-uppsättningen är förknippade med ett unikt identifieringsnummer och versionsnummer (t.ex. CCDS1.1, CCDS234.1). Versionsnumret uppdateras om CDS-strukturen ändras eller om den underliggande genomsekvensen ändras på den platsen. I samband med uppdateringscykler för annotationer och sekvensbaserad genombrowser kommer CCDS-uppsättningen att mappas framåt, med bibehållna identifierare. Alla ändringar av befintliga CCDS-gener sker genom samarbetsavtal; ingen enskild grupp kommer att ändra uppsättningen ensidigt.
Processflöde och kvalitetstestning |
CCDS-uppsättningen beräknas efter samordnade uppdateringar av annotation av hela genomet som utförs av NCBI och Ensembl. Annoteringsuppdateringar representerar gener som definieras genom en blandning av manuell kurering och automatiserad databehandling.
De viktigaste kureringsgrupperna är Havana-teamet vid EMBL-EBI och RefSeq-annoteringsgruppen vid NCBI. De automatiska metoderna sker via Ensembl-gruppen och NCBI:s beräkningsledning för genomannotation. Kuraterad information föredras framför automatiserad information och informationen måste både vara konsekvent i EMBL-EBI:s och NCBI:s grupper och även genomgå stränga QC-kontroller.
Det allmänna processflödet för att definiera CCDS-genuppsättningen omfattar följande:
- jämför genomannoteringsresultat
- identifiera annoterade kodningsregioner som har identiska lokaliseringskoordinater på genomet
- kvalitetsutvärdering
- ta bort CDS:er med sämre kvalitet från kärnuppsättningen i avvaktan på ytterligare granskning bland samarbetsgrupperna.
CCDS-uppsättningen omfattar kodande regioner som är annoterade som fullängdsregioner (med en inledande ATG och giltig stoppkodon), som kan översättas från genomet utan ramförskjutningar och som använder konsensussplittningsställen. Antalet och typen av kvalitetstester som utförs kan komma att utökas i framtiden, men omfattar konsistens i den jämförande analysen mellan arter, analys för att identifiera förmodade pseudogener, retrotransponerade gener, konsensussplittställen, stödtranskriptioner och proteinhomologi.
Publikationer |
Vänligen använd följande citat för CCDS:
Projektet för konsensuskodningssekvenser (CCDS): Identifying a common protein-coding gene set for the human and mouse genomes.
Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR, Searle S, Farrell CM, Loveland JE, Ruef BJ, Hart E, Suner MM, Landrum MJ, Aken B, Ayling S, Baertsch R, Fernandez-Banet J, Cherry JL, Curwen V, Dicuccio M, Kellis M, Lee J, Lin MF, Schuster M, Shkeda A, Amid C, Brown G, Dukhanina O, Frankish A, Hart J, Maidak BL, Mudge J, Murphy MR, Murphy T, Rajan J, Rajput B, Riddick LD, Snow C, Steward C, Webb D, Weber JA, Wilming L, Wu W, Birney E, Haussler D, Hubbard T, Ostell J, Durbin R, Lipman D.
Genome Res. 2009 Jul;19(7):1316-23.
PubMed: PMID: 19498102
Spårning och samordning av en internationell kuratorinsats för CCDS-projektet.
Harte RA, Farrell CM, Loveland JE, Suner MM, Wilming L, Aken B, Barrell D, Frankish A, Wallin C, Searle S, Diekhans M, Harrow J, Pruitt KD.
Database 2012 Mar 20;2012:bas008. doi: 10.1093/database/bas008.
PubMed: PMID: 22434842
Current status and new features of the Consensus Coding Sequence database.
Farrell CM, O’Leary NA, Harte RA, Loveland JE, Wilming LG, Wallin C, Diekhans M, Barrell D, Searle SM, Aken B, Hiatt SM, Frankish A, Suner MM, Rajput B, Steward CA, Brown GR, Bennett R, Murphy M, Wu W, Kay MP, Hart J, Rajan J, Weber J, Snow C, Riddick LD, Hunt T, Webb D, Thomas M, Tamez P, Rangwala SH, McGarvey KM, Pujar S, Shkeda A, Mudge JM, Gonzalez JM, Gilbert JG, Trevanion SJ, Baertsch R, Harrow JL, Hubbard T, Ostell JM, Haussler D, Pruitt KD.
Nucleic Acids Res. 2014 Jan 1;42(1):D865-72. doi: 10.1093/nar/gkt1059.
PubMed: PMID: 24217909
Consensus coding sequence (CCDS) database: a standardized set of human and mouse protein-coding regions supported by expert curation.
Pujar S, O’Leary NA, Farrell CM, Loveland JE, Mudge JM, Wallin C, Girón CG, Diekhans M, Barnes I, Bennett R, Berry AE, Cox E, Davidson C, Goldfarb T, Gonzalez JM, Hunt T, Jackson J, Joardar V, Kay MP, Kodali VK, Martin FJ, McAndrews M, McGarvey KM, Murphy M, Rajput B, Rangwala SH, Riddick LD, Seal RL, Suner MM, Webb D, Zhu S, Aken BL, Bruford EA, Bult CJ, Frankish A, Murphy T, Pruitt KD.
Nucleic Acids Res. 2018 Jan 4;46(D1):D221-D228. doi: 10.1093/nar/gkx1031.
PubMed: PMID: 29126148
PubMed Central: PMCID: PMC5753299CcdsBrowse: 1.1.44