Proiectul Consensus CDS (CCDS) este un efort de colaborare pentru a identifica un set de bază de regiuni codificatoare de proteine umane și de șoareci care sunt adnotate în mod consecvent și de înaltă calitate. Obiectivul pe termen lung este de a sprijini convergența către un set standard de adnotări genetice.
Informațiile disponibile includ:
- Anunțuri
- Prezentări generale
- Acces și disponibilitate
- Colaboratori
- Identificatori CCDS și urmărire
- Fluxul procesului și testarea calității
Publicații
Anunțuri |
CCDS Release 23 – Actualizare pentru Mouse 24 octombrie, 2019
Anotarea NCBI și Ensembl/Havana a GRCm38.p6 genom de referință (assembly GCF_000001635.26, NCBI annotation release 108, Ensembl annotation release 98) a fost analizată pentru a identifica secvențe codificatoare (CDS) suplimentare care sunt adnotate în mod consecvent. Datele CCDS sunt disponibile pe site-ul web CCDS și pe site-ul FTP și vor deveni disponibile pe site-urile web ale colaboratorilor privind genomul și/sau browserul de gene, în funcție de ciclul de actualizare al fiecărui browser.
Această actualizare adaugă 1.570 de noi ID-uri CCDS și adaugă 175 de gene în setul CCDS de șoarece. CCDS Release 23 include un total de 27.219 ID-uri CCDS care corespund la 20.486 GeneID-uri. Consultați raportul Release & Statistics pentru detalii.
CCDS Release 22 – Update for Human 14 iunie 2018
Anotarea NCBI și Ensembl/Havana a genomului de referință GRCh38.p12 (assembly GCF_000001405.38, NCBI annotation release 109, Ensembl annotation release 92) a fost analizată pentru a identifica secvențe codificatoare (CDS) suplimentare care sunt adnotate în mod consecvent. Datele CCDS sunt disponibile pe site-ul web CCDS și pe site-ul FTP și vor deveni disponibile pe site-urile web ale colaboratorilor privind genomul și/sau browserul de gene în funcție de ciclul de actualizare al fiecărui browser.
Această actualizare adaugă 894 de noi ID-uri CCDS și adaugă 128 de gene în setul CCDS uman. CCDS Release 22 include un total de 33.397 ID-uri CCDS care corespund la 19.033 GeneID-uri. Pentru detalii, consultați raportul Release & Statistics.
See Past Announcements
Overview |
Anotarea genelor este furnizată de mai multe resurse publice, folosind metode diferite și rezultând în informații care sunt similare, dar nu întotdeauna identice. Secvența genomului uman și a genomului de șoarece este acum suficient de stabilă pentru a începe să se identifice acele poziții ale genelor care sunt identice și pentru a face aceste date publice și susținute ca set de bază de către cele trei mari browsere publice ale genomului. Obiectivul pe termen lung este de a sprijini convergența către un set standard de adnotări genetice.
În acest scop, a fost creat proiectul Consensus CDS (CCDS). Proiectul CCDS este un efort de colaborare pentru a identifica un set de bază de regiuni codificatoare de proteine care sunt adnotate în mod consecvent și de înaltă calitate.
Acces și disponibilitate |
Rezultatele inițiale ale proiectului Consensus CDS sunt acum disponibile pe site-urile web ale browserelor de genom ale participanților. În plus, identificatorii CCDS sunt indicați în înregistrările relevante NCBI RefSeq și Entrez Gene. Rapoartele CCDS pot fi accesate urmând linkurile furnizate sau prin interogarea directă a bazei de date subiacente utilizând interfața de interogare furnizată în partea de sus a acestei pagini.
Setul de date CCDS este, de asemenea, disponibil pentru FTP anonim.
Colaboratori |
Setul CCDS este construit prin consens între membrii colaboratori care includ:
- European Bioinformatics Institute (EBI)
- Ensembl Annotation Pipeline
- HAVANA Curation Group
- HUGO Gene Nomenclature Committee (HGNC)
- Mouse Genome Informatics (MGI)
- National Center for Biotechnology Information (NCBI)
- Eukaryotic Genome Annotation Pipeline
- RefSeq Curation Group
Ne imaginăm că setul CCDS va deveni mai complet pe măsură ce grupurile de curatori independenți se vor pune de acord asupra cazurilor în care inițial au fost divergente, pe măsură ce are loc o validare experimentală suplimentară a genelor slab susținute și pe măsură ce metodele de adnotare automată continuă să se îmbunătățească. Comunicarea între grupurile colaboratoare ale CCDS este o activitate continuă care va rezolva diferențele și va identifica îmbunătățirile între ciclurile de actualizare a CCDS.
CCDS Identifiers and Tracking |
Genele adnotate care sunt incluse în setul CCDS sunt asociate cu un număr unic de identificare și un număr de versiune (de exemplu, CCDS1.1, CCDS234.1). Numărul de versiune se actualizează în cazul în care structura CDS se modifică sau dacă secvența de bază a genomului se modifică în acel loc. Odată cu ciclurile de actualizare a browserului genomului bazat pe adnotări și secvențe, setul CCDS va fi cartografiat în continuare, păstrând identificatorii. Toate modificările aduse genelor CCDS existente se fac prin acord de colaborare; niciun grup nu va modifica setul în mod unilateral.
Fluxul procesului și testarea calității |
Setul CCDS este calculat în urma actualizărilor coordonate ale adnotării întregului genom efectuate de NCBI și Ensembl. Actualizările de adnotare reprezintă gene care sunt definite printr-un amestec de curatoriat manual și de procesare computațională automată.
Principalele grupuri de curatoriat sunt echipa Havana de la EMBL-EBI și grupul de adnotare RefSeq de la NCBI. Metodele automate sunt prin intermediul grupului Ensembl și al pipeline-ului computațional de adnotare a genomului de la NCBI. Informațiile curatoriate sunt preferate în detrimentul celor automatizate, iar informațiile trebuie să fie atât consecvente în cadrul grupurilor EMBL-EBI și NCBI, cât și să treacă de controale QC stricte.
Fluxul general al procesului de definire a setului de gene CCDS include:
- comparați rezultatele adnotării genomului
- identificați regiunile de codificare adnotate care au coordonate de localizare identice pe genom
- evaluarea calității
- eliminați CDS-urile de calitate inferioară din setul de bază în așteptarea unei revizuiri suplimentare între grupurile de colaborare.
Setul CCDS include regiuni codificatoare care sunt adnotate ca fiind de lungime completă (cu un ATG de inițiere și un stop-codon valid), pot fi traduse din genom fără decalaje de cadre și utilizează situsuri de îmbinare consensuale. Numărul și tipul de teste de calitate efectuate pot fi extinse în viitor, dar includ consecvența în analiza comparativă între specii, analiza pentru identificarea pseudogenelor putative, a genelor retrotranspuse, a situsurilor de racordare consensuale, a transcriptelor de sprijin și a homologiei proteinelor.
Publicații |
Vă rugăm să folosiți următoarele citări pentru CCDS:
Proiectul secvenței de codare consensuală (CCDS): Identificarea unui set comun de gene codificatoare de proteine pentru genomul uman și cel al șoarecilor.
Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR, Searle S, Farrell CM, Loveland JE, Ruef BJ, Hart E, Suner MM, Landrum MJ, Aken B, Ayling S, Baertsch R, Fernandez-Banet J, Cherry JL, Curwen V, Dicuccio M, Kellis M, Lee J, Lin MF, Schuster M, Shkeda A, Amid C, Brown G, Dukhanina O, Frankish A, Hart J, Maidak BL, Mudge J, Murphy MR, Murphy T, Rajan J, Rajput B, Riddick LD, Snow C, Steward C, Webb D, Weber JA, Wilming L, Wu W, Birney E, Haussler D, Hubbard T, Ostell J, Durbin R, Lipman D.
Genome Res. 2009 Jul;19(7):1316-23.
PubMed: PMID: 19498102
Dezvoltarea și coordonarea unui efort internațional de curatoriat pentru proiectul CCDS.
Harte RA, Farrell CM, Loveland JE, Suner MM, Wilming L, Aken B, Barrell D, Frankish A, Wallin C, Searle S, Diekhans M, Harrow J, Pruitt KD.
Database 2012 Mar 20;2012:bas008. doi: 10.1093/database/bas008.
PubMed: PMID: 22434842
Situația actuală și noile caracteristici ale bazei de date Consensus Coding Sequence.
Farrell CM, O’Leary NA, Harte RA, Loveland JE, Wilming LG, Wallin C, Diekhans M, Barrell D, Searle SM, Aken B, Hiatt SM, Frankish A, Suner MM, Rajput B, Steward CA, Brown GR, Bennett R, Murphy M, Wu W, Kay MP, Hart J, Rajan J, Weber J, Snow C, Riddick LD, Hunt T, Webb D, Thomas M, Tamez P, Rangwala SH, McGarvey KM, Pujar S, Shkeda A, Mudge JM, Gonzalez JM, Gilbert JG, Trevanion SJ, Baertsch R, Harrow JL, Hubbard T, Ostell JM, Haussler D, Pruitt KD.
Nucleic Acids Res. 2014 Jan 1;42(1):D865-72. doi: 10.1093/nar/gkt1059.
PubMed: PMID: 24217909
Baza de date a secvenței de codificare consensuală (CCDS): un set standardizat de regiuni codificatoare de proteine umane și de șoareci susținute de o curatorie de experți.
Pujar S, O’Leary NA, Farrell CM, Loveland JE, Mudge JM, Wallin C, Girón CG, Diekhans M, Barnes I, Bennett R, Berry AE, Cox E, Davidson C, Goldfarb T, Gonzalez JM, Hunt T, Jackson J, Joardar V, Kay MP, Kodali VK, Martin FJ, McAndrews M, McGarvey KM, Murphy M, Rajput B, Rangwala SH, Riddick LD, Seal RL, Suner MM, Webb D, Zhu S, Aken BL, Bruford EA, Bult CJ, Frankish A, Murphy T, Pruitt KD.
Nucleic Acids Res. 2018 Jan 4;46(D1):D221-D228. doi: 10.1093/nar/gkx1031.
PubMed: PMID: 29126148
PubMed Central: PMCID: PMC5753299CcdsBrowse: 1.1.44