CCDS Rapport om Consensus CDS

Consensus CDS (CCDS)-projektet er et samarbejde om at identificere et kernesæt af menneskelige og musekoderende regioner, der er konsekvent annoteret og af høj kvalitet. Det langsigtede mål er at støtte konvergens i retning af et standardsæt af genannotationer.

Den tilgængelige information omfatter:

Announcements
Overview
Access and Availability
Collaborators
CCDS Identifiers and Tracking
Process Flow og kvalitetstestning
Publikationer

Meddelelser

CCDS Release 23 – Opdatering for mus 24. oktober, 2019

NCBI- og Ensembl/Havana-annotationen af GRCm38.p6-referencegenomet (samling GCF_000001635.26, NCBI annotation release 108, Ensembl annotation release 98) blev analyseret for at identificere yderligere kodningssekvenser (CDS), der er konsekvent annoteret. CCDS-data er tilgængelige på CCDS-webstedet og FTP-webstedet og vil blive tilgængelige på samarbejdspartnernes genom- og/eller genbrowser-websteder i overensstemmelse med hver browsers opdateringscyklus.

Denne opdatering tilføjer 1 570 nye CCDS-ID’er og tilføjer 175 gener til musens CCDS-sæt. CCDS-udgave 23 omfatter i alt 27 219 CCDS-ID’er, der svarer til 20 486 GeneID’er. Se rapporten Releases & Statistics report for detaljer.

CCDS Release 22 – Update for Human June 14, 2018

N NCBI- og Ensembl/Havana-annotationen af GRCh38.p12-referencegenomet (assemblage GCF_000001405.38, NCBI annotation release 109, Ensembl annotation release 92) blev analyseret for at identificere yderligere kodningssekvenser (CDS), der er konsekvent annoteret. CCDS-data er tilgængelige på CCDS-webstedet og FTP-webstedet og vil blive tilgængelige på samarbejdspartnernes genom- og/eller genbrowser-websteder i overensstemmelse med hver browsers opdateringscyklus.

Denne opdatering tilføjer 894 nye CCDS-ID’er og tilføjer 128 gener til det menneskelige CCDS-sæt. CCDS Release 22 omfatter i alt 33 397 CCDS-ID’er, der svarer til 19 033 GeneID’er. Se rapporten Releases & Statistics report for detaljer.

Se tidligere meddelelser

Oversigt

Annotation af gener leveres af flere offentlige ressourcer, der anvender forskellige metoder, og som resulterer i oplysninger, der ligner hinanden, men ikke altid er identiske. Genomsekvensen for mennesker og mus er nu tilstrækkelig stabil til at begynde at identificere de genplaceringer, der er identiske, og til at gøre disse data offentlige og understøttet som et kernesæt af de tre store offentlige genombrowsere. Det langsigtede mål er at støtte konvergens i retning af et standardsæt af genannotationer.

Med henblik herpå blev Consensus CDS (CCDS)-projektet (CCDS) etableret. CCDS-projektet er et samarbejde om at identificere et kernesæt af proteinkodende regioner, der er konsekvent annoteret og af høj kvalitet.

Access and Availability

De første resultater fra Consensus CDS-projektet er nu tilgængelige fra deltagernes genombrowser-websteder. Desuden er CCDS-identifikatorer angivet på de relevante NCBI RefSeq- og Entrez Gene-poster. CCDS-rapporterne kan tilgås ved at følge de angivne links eller ved at forespørge direkte i den underliggende database ved hjælp af forespørgselsgrænsefladen øverst på denne side.

Datasættet CCDS er også tilgængeligt for anonym FTP.

Samarbejdspartnere

CCDS-sættet er opbygget ved konsensus blandt de samarbejdende medlemmer, der omfatter:

European Bioinformatics Institute (EBI)
- Ensembl Annotation Pipeline
- HAVANA Curation Group
HUGO Gene Nomenclature Committee (HGNC)
Mouse Genome Informatics (MGI)
National Center for Biotechnology Information (NCBI)
- Eukaryotic Genome Annotation Pipeline
- RefSeq Curation Group

Vi forestiller os, at CCDS-sættet vil blive mere komplet, efterhånden som de uafhængige kureringsgrupper bliver enige om de tilfælde, hvor de i første omgang er uenige, efterhånden som der sker yderligere eksperimentel validering af svagt understøttede gener, og efterhånden som de automatiske annotationsmetoder fortsat forbedres. Kommunikation mellem CCDS-samarbejdsgrupperne er en løbende aktivitet, som vil løse forskelle og identificere forbedringer mellem CCDS-opdateringscyklusser.

CCDS-identifikatorer og sporing

Annoterede gener, der indgår i CCDS-sættet, er forbundet med et unikt identifikationsnummer og versionsnummer (f.eks. CCDS1.1, CCDS234.1). Versionsnummeret vil blive opdateret, hvis CDS-strukturen ændres, eller hvis den underliggende genomsekvens ændres på det pågældende sted. Med annotationer og sekvensbaserede opdateringscyklusser i genombrowseren vil CCDS-sættet blive kortlagt fremad, idet identifikatorerne bevares. Alle ændringer af eksisterende CCDS-gener sker efter aftale i et samarbejde; ingen enkelt gruppe vil ændre sættet ensidigt.

Procesflow og kvalitetstest

CCDS-sættet beregnes efter koordinerede annotationsopdateringer for hele genomet, der udføres af NCBI og Ensembl. Annotationsopdateringer repræsenterer gener, der er defineret ved en blanding af manuel kuratering og automatiseret beregningsmæssig behandling.

De vigtigste kureringsgrupper er Havana-holdet på EMBL-EBI og RefSeq-annotationsgruppen på NCBI. De automatiske metoder er via Ensembl-gruppen og NCBI’s beregningspipeline for genomannotation. Kuraterede oplysninger foretrækkes frem for automatiserede oplysninger, og oplysningerne skal både være konsistente i EMBL-EBI- og NCBI-grupperne og også bestå strenge QC-kontroller.

Det generelle procesflow til definition af CCDS-gen-sættet omfatter:

sammenlign genomannoteringsresultater
identificer annoterede kodningsregioner, der har identiske placeringskoordinater på genomet
kvalitetsvurdering
fjernelse af CDS’er af lavere kvalitet fra kernesættet i afventning af yderligere gennemgang blandt samarbejdsgrupperne.

CCDS-sættet omfatter kodningsregioner, der er annoteret som fuld længde (med en indledende ATG og gyldig stop-codon), som kan oversættes fra genomet uden frameshifts og som anvender konsensus-splejsningssteder. Antallet og typen af kvalitetstests, der udføres, kan udvides i fremtiden, men omfatter konsistens i sammenlignende analyser på tværs af arter, analyser til identifikation af formodede pseudogener, retrotransponerede gener, konsensus-splejsesteder, understøttende transskriptioner og proteinhomologi.

Publikationer

Benyt venligst følgende citater for CCDS:
The consensus coding sequence (CCDS)-projektet: Identificering af et fælles proteinkodningsgen-sæt for menneskets og musens genomer.
Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR, Searle S, Farrell CM, Loveland JE, Ruef BJ, Hart E, Suner MM, Landrum MJ, Aken B, Ayling S, Baertsch R, Fernandez-Banet J, Cherry JL, Curwen V, Dicuccio M, Kellis M, Lee J, Lin MF, Schuster M, Shkeda A, Amid C, Brown G, Dukhanina O, Frankish A, Hart J, Hart J, Maidak BL, Mudge J, Murphy MR, Murphy T, Rajan J, Rajput B, Riddick LD, Snow C, Steward C, Webb D, Weber JA, Wilming L, Wu W, Birney E, Haussler D, Hubbard T, Ostell J, Durbin R, Lipman D.
Genome Res. 2009 Jul;19(7):1316-23.
PubMed: PMID: 19498102
Sporing og koordinering af en international kurateringsindsats for CCDS-projektet.
Harte RA, Farrell CM, Loveland JE, Suner MM, Wilming L, Aken B, Barrell D, Frankish A, Wallin C, Searle S, Diekhans M, Harrow J, Pruitt KD.
Database 2012 Mar 20;2012:bas008. doi: 10.1093/database/bas008.
PubMed: PMID: 22434842
Current status and new features of the Consensus Coding Sequence database.
Farrell CM, O’Leary NA, Harte RA, Loveland JE, Wilming LG, Wallin C, Diekhans M, Barrell D, Searle SM, Aken B, Hiatt SM, Frankish A, Suner MM, Rajput B, Steward CA, Brown GR, Bennett R, Murphy M, Wu W, Kay MP, Hart J, Rajan J, Weber J, Snow C, Riddick LD, Hunt T, Webb D, Thomas M, Tamez P, Rangwala SH, McGarvey KM, Pujar S, Shkeda A, Mudge JM, Gonzalez JM, Gilbert JG, Trevanion SJ, Baertsch R, Harrow JL, Hubbard T, Ostell JM, Haussler D, Pruitt KD.
Nucleic Acids Res. 2014 Jan 1;42(1):D865-72. doi: 10.1093/nar/gkt1059.
PubMed: PMID: 24217909
Consensus coding sequence (CCDS)-database: et standardiseret sæt af menneskelige og mus-protein-kodende regioner understøttet af ekspertkuratering.
Pujar S, O’Leary NA, Farrell CM, Loveland JE, Mudge JM, Wallin C, Girón CG, Diekhans M, Barnes I, Bennett R, Berry AE, Cox E, Davidson C, Goldfarb T, Gonzalez JM, Hunt T, Jackson J, Joardar V, Kay MP, Kodali VK, Martin FJ, McAndrews M, McGarvey KM, Murphy M, Rajput B, Rangwala SH, Riddick LD, Seal RL, Suner MM, Webb D, Zhu S, Aken BL, Bruford EA, Bult CJ, Frankish A, Murphy T, Pruitt KD.
Nucleic Acids Res. 2018 Jan 4;46(D1):D221-D228. doi: 10.1093/nar/gkx1031.
PubMed: PMID: 29126148
PubMed Central: PMCID: PMC5753299CcdsBrowse: 1.1.44

Alai

CCDS Rapport om Consensus CDS

Skriv et svar Annuller svar