Il progetto Consensus CDS (CCDS) è uno sforzo collaborativo per identificare un nucleo di regioni codificanti di proteine umane e murine che siano coerentemente annotate e di alta qualità. L’obiettivo a lungo termine è quello di sostenere la convergenza verso un set standard di annotazioni geniche.

Le informazioni disponibili includono:

  • Announce
  • Panoramica
  • Accesso e disponibilità
  • Collaboratori
  • Identificatori CCDS e tracciamento
  • Flusso del processo and Quality Testing
  • Pubblicazioni
Annunci Torna all'inizio della pagina

CCDS Release 23 – Aggiornamento per il mouse 24 ottobre, 2019

L’annotazione NCBI e Ensembl/Havana del GRCm38.p6 genoma di riferimento (assembly GCF_000001635.26, NCBI annotation release 108, Ensembl annotation release 98) è stata analizzata per identificare ulteriori sequenze codificanti (CDS) che sono coerentemente annotate. I dati CCDS sono disponibili nel sito web CCDS e nel sito FTP e saranno disponibili nei siti web del genoma e/o del gene browser dei collaboratori secondo il ciclo di aggiornamento di ciascun browser.

Questo aggiornamento aggiunge 1.570 nuovi ID CCDS, e aggiunge 175 geni nel set CCDS del topo. CCDS Release 23 include un totale di 27.219 CCDS IDs che corrispondono a 20.486 GeneIDs. Vedi il rapporto Releases & Statistics per i dettagli.

CCDS Release 22 – Aggiornamento per l’uomo 14 giugno 2018

L’annotazione NCBI e Ensembl/Havana del genoma di riferimento GRCh38.p12 (assembly GCF_000001405.38, NCBI annotation release 109, Ensembl annotation release 92) è stata analizzata per identificare ulteriori sequenze di codifica (CDS) che sono annotate in modo coerente. I dati del CCDS sono disponibili nel sito web del CCDS e nel sito FTP e saranno disponibili nei siti web del genoma e/o del gene browser dei collaboratori secondo il ciclo di aggiornamento di ciascun browser.

Questo aggiornamento aggiunge 894 nuovi ID CCDS e aggiunge 128 geni nel set CCDS umano. CCDS Release 22 include un totale di 33.397 CCDS IDs che corrispondono a 19.033 GeneIDs. Vedi il rapporto Release & Statistics per i dettagli.

Vedi Annunci passati

Panoramica Torna all'inizio della pagina

L’annotazione dei geni è fornita da più risorse pubbliche, utilizzando metodi diversi e ottenendo informazioni simili ma non sempre identiche. La sequenza del genoma umano e del topo è ora sufficientemente stabile per iniziare a identificare quei posizionamenti dei geni che sono identici, e per rendere questi dati pubblici e supportati come un set di base dai tre principali browser pubblici del genoma. L’obiettivo a lungo termine è quello di sostenere la convergenza verso un set standard di annotazioni geniche.

A tal fine, è stato istituito il progetto Consensus CDS (CCDS). Il progetto CCDS è uno sforzo collaborativo per identificare un nucleo di regioni codificanti le proteine che sono coerentemente annotate e di alta qualità.

Accesso e disponibilità Torna all'inizio della pagina

I risultati iniziali del progetto Consensus CDS sono ora disponibili dai siti web del genome browser dei partecipanti. Inoltre, gli identificatori CCDS sono indicati nei relativi record NCBI RefSeq e Entrez Gene. I rapporti CCDS sono accessibili seguendo i link forniti, o interrogando direttamente il database sottostante utilizzando l’interfaccia di interrogazione fornita in cima a questa pagina.

Il set di dati CCDS è disponibile anche per FTP anonimo.

Collaboratori Torna all'inizio della pagina

Il set CCDS è costruito per consenso tra i membri collaboratori che includono:

  • European Bioinformatics Institute (EBI)
    • Ensembl Annotation Pipeline
    • HAVANA Curation Group
  • HUGO Gene Nomenclature Committee (HGNC)
  • Mouse Genome Informatics (MGI)
  • National Center for Biotechnology Information (NCBI)
    • Eukaryotic Genome Annotation Pipeline
    • RefSeq Curation Group

Prevediamo che il set CCDS diventerà più completo man mano che i gruppi di cura indipendenti si accorderanno sui casi in cui inizialmente differiscono, man mano che si verifica un’ulteriore convalida sperimentale dei geni debolmente supportati, e man mano che i metodi di annotazione automatica continuano a migliorare. La comunicazione tra i gruppi che collaborano al CCDS è un’attività continua che risolverà le differenze e identificherà i miglioramenti tra i cicli di aggiornamento del CCDS.

Identificatori CCDS e Tracking Torna all'inizio della pagina

I geni annotati che sono inclusi nel set CCDS sono associati con un numero identificativo unico e un numero di versione (ad esempio, CCDS1.1, CCDS234.1). Il numero di versione si aggiorna se la struttura del CDS cambia, o se la sequenza del genoma sottostante cambia in quella posizione. Con l’annotazione e la sequenza basata su cicli di aggiornamento del browser del genoma, il set CCDS sarà mappato in avanti, mantenendo gli identificatori. Tutte le modifiche ai geni CCDS esistenti sono fatte con un accordo di collaborazione; nessun gruppo singolo cambierà il set unilateralmente.

Flusso del processo e test di qualità Torna all'inizio della pagina

Il set CCDS è calcolato in seguito agli aggiornamenti coordinati dell’annotazione dell’intero genoma effettuati da NCBI e Ensembl. Gli aggiornamenti delle annotazioni rappresentano i geni che sono definiti da un misto di curatela manuale e di elaborazione computazionale automatizzata.

I principali gruppi di curatela sono il team Havana presso EMBL-EBI e il gruppo di annotazione RefSeq presso NCBI. I metodi automatici sono tramite il gruppo Ensembl e la pipeline computazionale di annotazione del genoma dell’NCBI. L’informazione curata è favorita rispetto all’informazione automatizzata e l’informazione deve essere sia coerente nei gruppi EMBL-EBI e NCBI, sia superare rigorosi controlli QC.

Il flusso di processo generale per definire il set di geni CCDS include:

  1. confrontare i risultati dell’annotazione del genoma
  2. identificare le regioni codificanti annotate che hanno coordinate di localizzazione identiche sul genoma
  3. valutazione della qualità
  4. rimuovere i CDS di qualità inferiore dal core set in attesa di ulteriore revisione tra i gruppi di collaborazione.

Il set CCDS include regioni codificanti che sono annotate come full-length (con un ATG iniziale e un valido stop-codon), possono essere tradotte dal genoma senza frameshift, e usano splice-sites di consenso. Il numero e il tipo di test di qualità eseguiti possono essere ampliati in futuro, ma includono la coerenza nell’analisi comparativa tra specie diverse, l’analisi per identificare pseudogeni putativi, geni retrotrasposti, siti di giunzione di consenso, trascrizioni di supporto e omologia proteica.

Pubblicazioni Torna all'inizio della pagina

Per il CCDS utilizzare le seguenti citazioni:
Il progetto CCDS (consensus coding sequence): Identificazione di un insieme di geni codificanti proteine comuni per i genomi umani e murini.
Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR, Searle S, Farrell CM, Loveland JE, Ruef BJ, Hart E, Suner MM, Landrum MJ, Aken B, Ayling S, Baertsch R, Fernandez-Banet J, Cherry JL, Curwen V, Dicuccio M, Kellis M, Lee J, Lin MF, Schuster M, Shkeda A, Amid C, Brown G, Dukhanina O, Frankish A, Hart J, Maidak BL, Mudge J, Murphy MR, Murphy T, Rajan J, Rajput B, Riddick LD, Snow C, Steward C, Webb D, Weber JA, Wilming L, Wu W, Birney E, Haussler D, Hubbard T, Ostell J, Durbin R, Lipman D.
Genome Res. 2009 Jul;19(7):1316-23.
PubMed: PMID: 19498102
Tracking and coordinating an international curation effort for the CCDS Project.
Harte RA, Farrell CM, Loveland JE, Suner MM, Wilming L, Aken B, Barrell D, Frankish A, Wallin C, Searle S, Diekhans M, Harrow J, Pruitt KD.
Database 2012 Mar 20;2012:bas008. doi: 10.1093/database/bas008.
PubMed: PMID: 22434842
Stato attuale e nuove caratteristiche del database Consensus Coding Sequence.
Farrell CM, O’Leary NA, Harte RA, Loveland JE, Wilming LG, Wallin C, Diekhans M, Barrell D, Searle SM, Aken B, Hiatt SM, Frankish A, Suner MM, Rajput B, Steward CA, Brown GR, Bennett R, Murphy M, Wu W, Kay MP, Hart J, Rajan J, Weber J, Snow C, Riddick LD, Hunt T, Webb D, Thomas M, Tamez P, Rangwala SH, McGarvey KM, Pujar S, Shkeda A, Mudge JM, Gonzalez JM, Gilbert JG, Trevanion SJ, Baertsch R, Harrow JL, Hubbard T, Ostell JM, Haussler D, Pruitt KD.
Nucleic Acids Res. 2014 Jan 1;42(1):D865-72. doi: 10.1093/nar/gkt1059.
PubMed: PMID: 24217909
Database delle sequenze codificanti di consenso (CCDS): un set standardizzato di regioni codificanti le proteine umane e murine supportato dalla curatela di esperti.
Pujar S, O’Leary NA, Farrell CM, Loveland JE, Mudge JM, Wallin C, Girón CG, Diekhans M, Barnes I, Bennett R, Berry AE, Cox E, Davidson C, Goldfarb T, Gonzalez JM, Hunt T, Jackson J, Joardar V, Kay MP, Kodali VK, Martin FJ, McAndrews M, McGarvey KM, Murphy M, Rajput B, Rangwala SH, Riddick LD, Seal RL, Suner MM, Webb D, Zhu S, Aken BL, Bruford EA, Bult CJ, Frankish A, Murphy T, Pruitt KD.
Nucleic Acids Res. 2018 Jan 4;46(D1):D221-D228. doi: 10.1093/nar/gkx1031.
PubMed: PMID: 29126148
PubMed Central: PMCID: PMC5753299CcdsBrowse: 1.1.44

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.