Das Consensus CDS (CCDS)-Projekt ist ein gemeinschaftliches Projekt zur Identifizierung eines Kernsatzes von menschlichen und Maus-Protein-kodierenden Regionen, die konsistent und von hoher Qualität annotiert sind. Langfristiges Ziel ist es, die Konvergenz in Richtung eines Standardsatzes von Genannotationen zu unterstützen.
Zu den verfügbaren Informationen gehören:
- Ankündigungen
- Überblick
- Zugang und Verfügbarkeit
- Kollaborateure
- CCDS-Identifikatoren und Tracking
- Prozessablauf und Qualitätstests
- Publikationen
Ankündigungen |
CCDS Release 23 – Update für Maus 24. Oktober, 2019
Die NCBI und Ensembl/Havana Annotation des GRCm38.p6-Referenzgenoms (Assembly GCF_000001635.26, NCBI Annotation Release 108, Ensembl Annotation Release 98) wurde analysiert, um zusätzliche kodierende Sequenzen (CDS) zu identifizieren, die konsistent annotiert sind. Die CCDS-Daten sind auf der CCDS-Website und der FTP-Website verfügbar und werden auf den Genom- und/oder Genbrowser-Websites der Kooperationspartner entsprechend dem Aktualisierungszyklus des jeweiligen Browsers verfügbar sein.
Mit dieser Aktualisierung werden 1.570 neue CCDS-IDs hinzugefügt und 175 Gene in den Maus-CCDSSatz aufgenommen. CCDS Release 23 enthält insgesamt 27.219 CCDS IDs, die 20.486 GeneIDs entsprechen. Siehe den Release & Statistikbericht für Details.
CCDS Release 22 – Update für den Menschen 14. Juni 2018
Die NCBI- und Ensembl/Havana-Annotation des GRCh38.p12-Referenzgenoms (Assembly GCF_000001405.38, NCBI Annotation Release 109, Ensembl Annotation Release 92) wurde analysiert, um zusätzliche kodierende Sequenzen (CDS) zu identifizieren, die konsistent annotiert sind. Die CCDS-Daten sind auf der CCDS-Website und der FTP-Website verfügbar und werden auf den Genom- und/oder Genbrowser-Websites der Kooperationspartner entsprechend dem Aktualisierungszyklus jedes Browsers verfügbar sein.
Mit dieser Aktualisierung werden 894 neue CCDS-IDs hinzugefügt und 128 Gene in den menschlichen CCDS-Satz aufgenommen. CCDS Release 22 enthält insgesamt 33.397 CCDS IDs, die 19.033 GeneIDs entsprechen. Einzelheiten finden Sie im Bericht „Releases & Statistics“.
Siehe frühere Ankündigungen
Übersicht |
Die Annotation von Genen wird von mehreren öffentlichen Quellen bereitgestellt, die unterschiedliche Methoden verwenden und deren Informationen ähnlich, aber nicht immer identisch sind. Die Genomsequenz von Mensch und Maus ist jetzt stabil genug, um mit der Identifizierung der identischen Genorte zu beginnen und diese Daten zu veröffentlichen und als Kernsatz von den drei großen öffentlichen Genombrowsern zu unterstützen. Langfristiges Ziel ist es, die Konvergenz zu einem Standardsatz von Genannotationen zu unterstützen.
Zu diesem Zweck wurde das Consensus CDS (CCDS) Projekt ins Leben gerufen. Das CCDS-Projekt ist ein gemeinschaftliches Projekt zur Identifizierung eines Kernsatzes von Protein-kodierenden Regionen, die einheitlich annotiert und von hoher Qualität sind.
Zugang und Verfügbarkeit |
Die ersten Ergebnisse des Consensus CDS-Projekts sind jetzt auf den Genom-Browser-Websites der Teilnehmer verfügbar. Außerdem sind die CCDS-Kennungen in den entsprechenden NCBI RefSeq- und Entrez Gene-Datensätzen angegeben. Auf die CCDS-Berichte kann über die angegebenen Links zugegriffen werden, oder durch direkte Abfrage der zugrunde liegenden Datenbank über die Abfrageoberfläche oben auf dieser Seite.
Der CCDS-Datensatz ist auch für anonymes FTP verfügbar.
Mitwirkende |
Der CCDS-Datensatz wird im Konsens zwischen den mitwirkenden Mitgliedern erstellt, zu denen gehören:
- European Bioinformatics Institute (EBI)
- Ensembl Annotation Pipeline
- HAVANA Curation Group
- HUGO Gene Nomenclature Committee (HGNC)
- Mouse Genome Informatics (MGI)
- National Center for Biotechnology Information (NCBI)
- Eukaryotic Genome Annotation Pipeline
- RefSeq Curation Group
Wir gehen davon aus, dass der CCDS-Satz in dem Maße vollständiger wird, in dem sich die unabhängigen Kurationsgruppen in den Fällen einigen, in denen sie anfänglich voneinander abweichen, wenn zusätzliche experimentelle Validierung von schwach unterstützten Genen erfolgt und wenn die automatischen Annotationsmethoden weiter verbessert werden. Die Kommunikation zwischen den CCDS-Kooperationsgruppen ist eine fortlaufende Aktivität, die Differenzen beseitigen und Verfeinerungen zwischen den CCDS-Aktualisierungszyklen identifizieren wird.
CCDS-Identifikatoren und Tracking |
Annotierte Gene, die in den CCDS-Satz aufgenommen werden, sind mit einer eindeutigen Identifikationsnummer und einer Versionsnummer (z. B. CCDS1.1, CCDS234.1) verbunden. Die Versionsnummer wird aktualisiert, wenn sich die CDS-Struktur ändert oder wenn sich die zugrunde liegende Genomsequenz an dieser Stelle ändert. Mit den Aktualisierungszyklen der Annotation und des sequenzbasierten Genombrowsers wird der CCDS-Satz unter Beibehaltung der Identifikatoren vorwärts gemappt. Alle Änderungen an bestehenden CCDS-Genen erfolgen im Rahmen einer Kooperationsvereinbarung; keine einzelne Gruppe wird den Satz einseitig ändern.
Prozessablauf und Qualitätstests |
Der CCDS-Satz wird nach koordinierten Aktualisierungen der Gesamtgenom-Annotation durch das NCBI und Ensembl berechnet. Die Annotationsaktualisierungen stellen Gene dar, die durch eine Mischung aus manueller Kuration und automatischer computergestützter Verarbeitung definiert werden.
Die wichtigsten Kurationsgruppen sind das Havanna-Team am EMBL-EBI und die RefSeq-Annotation-Gruppe am NCBI. Die automatischen Methoden werden von der Ensembl-Gruppe und der NCBI-Pipeline für die Genomannotation eingesetzt. Kuratierte Informationen werden gegenüber automatisierten Informationen bevorzugt, und die Informationen müssen sowohl in den EMBL-EBI- und NCBI-Gruppen konsistent sein als auch strenge Qualitätskontrollen bestehen.
Der allgemeine Prozessablauf für die Definition des CCDS-Gensatzes umfasst:
- Vergleich der Ergebnisse der Genom-Annotation
- Identifizierung annotierter kodierender Regionen, die identische Positionskoordinaten im Genom aufweisen
- Qualitätsbewertung
- Entfernung von CDS geringerer Qualität aus dem Kernsatz bis zur weiteren Überprüfung durch die Kooperationsgruppen.
Der CCDS-Satz umfasst kodierende Regionen, die in voller Länge annotiert sind (mit einem initiierenden ATG und einem gültigen Stopp-Codon), ohne Frameshifts aus dem Genom übersetzt werden können und Konsens-Spleißstellen verwenden. Die Anzahl und Art der durchgeführten Qualitätstests kann in Zukunft erweitert werden, umfasst jedoch die Konsistenz bei der artenübergreifenden vergleichenden Analyse, die Analyse zur Identifizierung von mutmaßlichen Pseudogenen, retrotransponierten Genen, Konsens-Spleißstellen, unterstützenden Transkripten und Proteinhomologie.
Publikationen |
Bitte verwenden Sie die folgenden Zitate für CCDS:
The consensus coding sequence (CCDS) project: Identifizierung eines gemeinsamen proteinkodierenden Gensatzes für die Genome von Mensch und Maus.
Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR, Searle S, Farrell CM, Loveland JE, Ruef BJ, Hart E, Suner MM, Landrum MJ, Aken B, Ayling S, Baertsch R, Fernandez-Banet J, Cherry JL, Curwen V, Dicuccio M, Kellis M, Lee J, Lin MF, Schuster M, Shkeda A, Amid C, Brown G, Dukhanina O, Frankish A, Hart J, Maidak BL, Mudge J, Murphy MR, Murphy T, Rajan J, Rajput B, Riddick LD, Snow C, Steward C, Webb D, Weber JA, Wilming L, Wu W, Birney E, Haussler D, Hubbard T, Ostell J, Durbin R, Lipman D.
Genome Res. 2009 Jul;19(7):1316-23.
PubMed: PMID: 19498102
Tracking and coordinating an international curation effort for the CCDS Project.
Harte RA, Farrell CM, Loveland JE, Suner MM, Wilming L, Aken B, Barrell D, Frankish A, Wallin C, Searle S, Diekhans M, Harrow J, Pruitt KD.
Database 2012 Mar 20;2012:bas008. doi: 10.1093/database/bas008.
PubMed: PMID: 22434842
Current status and new features of the Consensus Coding Sequence database.
Farrell CM, O’Leary NA, Harte RA, Loveland JE, Wilming LG, Wallin C, Diekhans M, Barrell D, Searle SM, Aken B, Hiatt SM, Frankish A, Suner MM, Rajput B, Steward CA, Brown GR, Bennett R, Murphy M, Wu W, Kay MP, Hart J, Rajan J, Weber J, Snow C, Riddick LD, Hunt T, Webb D, Thomas M, Tamez P, Rangwala SH, McGarvey KM, Pujar S, Shkeda A, Mudge JM, Gonzalez JM, Gilbert JG, Trevanion SJ, Baertsch R, Harrow JL, Hubbard T, Ostell JM, Haussler D, Pruitt KD.
Nucleic Acids Res. 2014 Jan 1;42(1):D865-72. doi: 10.1093/nar/gkt1059.
PubMed: PMID: 24217909
Consensus coding sequence (CCDS) database: a standardized set of human and mouse protein-coding regions supported by expert curation.
Pujar S, O’Leary NA, Farrell CM, Loveland JE, Mudge JM, Wallin C, Girón CG, Diekhans M, Barnes I, Bennett R, Berry AE, Cox E, Davidson C, Goldfarb T, Gonzalez JM, Hunt T, Jackson J, Joardar V, Kay MP, Kodali VK, Martin FJ, McAndrews M, McGarvey KM, Murphy M, Rajput B, Rangwala SH, Riddick LD, Seal RL, Suner MM, Webb D, Zhu S, Aken BL, Bruford EA, Bult CJ, Frankish A, Murphy T, Pruitt KD.
Nucleic Acids Res. 2018 Jan 4;46(D1):D221-D228. doi: 10.1093/nar/gkx1031.
PubMed: PMID: 29126148
PubMed Central: PMCID: PMC5753299CcdsBrowse: 1.1.44