Projekt Consensus CDS (CCDS) jest wspólnym wysiłkiem mającym na celu zidentyfikowanie podstawowego zestawu ludzkich i mysich regionów kodujących białka, które są konsekwentnie opisywane i mają wysoką jakość. Celem długoterminowym jest wsparcie konwergencji w kierunku standardowego zestawu adnotacji genów.

Dostępne informacje obejmują:

  • Announcements
  • Overview
  • Access and Availability
  • Collaborators
  • CCDS Identifiers and Tracking
  • Process Flow. and Quality Testing
  • Publications
Announcements Back to top of page

CCDS Release 23 -… Aktualizacja dla myszy 24 października, 2019

Anotacja NCBI i Ensembl/Havana genomu referencyjnego GRCm38.p6 genomu referencyjnego (assembly GCF_000001635.26, NCBI annotation release 108, Ensembl annotation release 98) przeanalizowano w celu zidentyfikowania dodatkowych sekwencji kodujących (CDS), które są konsekwentnie anotowane. Dane CCDS są dostępne na stronie internetowej CCDS i stronie FTP i będą dostępne na stronach internetowych przeglądarek genomów i/lub genów współpracowników zgodnie z cyklem aktualizacji każdej przeglądarki.

Ta aktualizacja dodaje 1,570 nowych identyfikatorów CCDS i dodaje 175 genów do zestawu CCDS myszy. CCDS Release 23 zawiera w sumie 27 219 CCDS ID, które odpowiadają 20 486 GeneIDs. Zobacz raport Releases & Statistics dla szczegółów.

CCDS Release 22 – Update for Human June 14, 2018

Anotacja NCBI i Ensembl/Havana genomu referencyjnego GRCh38.p12 (assembly GCF_000001405.38, NCBI annotation release 109, Ensembl annotation release 92) została przeanalizowana w celu zidentyfikowania dodatkowych sekwencji kodujących (CDS), które są konsekwentnie anotowane. Dane CCDS są dostępne na stronie internetowej CCDS i stronie FTP i będą dostępne na stronach internetowych przeglądarek genomów i / lub genów współpracowników zgodnie z cyklem aktualizacji każdej przeglądarki.

Ta aktualizacja dodaje 894 nowe identyfikatory CCDS i dodaje 128 genów do ludzkiego zestawu CCDS. CCDS Release 22 zawiera w sumie 33 397 CCDS ID, które odpowiadają 19 033 GeneID. Zobacz raport Releases & Statistics, aby uzyskać szczegółowe informacje.

Zobacz poprzednie ogłoszenia

Overview Back to top of page

Anotacja genów jest dostarczana przez wiele zasobów publicznych, przy użyciu różnych metod i w wyniku czego uzyskuje się informacje, które są podobne, ale nie zawsze identyczne. Sekwencje genomów człowieka i myszy są obecnie wystarczająco stabilne, aby zacząć identyfikować te miejsca w genach, które są identyczne, oraz aby upublicznić te dane i wspierać je jako podstawowy zestaw przez trzy główne publiczne przeglądarki genomów. Celem długoterminowym jest wspieranie konwergencji w kierunku standardowego zestawu adnotacji genów.

W tym celu utworzono projekt Consensus CDS (CCDS). Projekt CCDS jest wspólnym wysiłkiem mającym na celu zidentyfikowanie podstawowego zestawu regionów kodujących białka, które są konsekwentnie anotowane i mają wysoką jakość.

Dostęp i dostępność Back to top of page

Wstępne wyniki projektu Consensus CDS są już dostępne na stronach internetowych przeglądarek genomowych uczestników. Ponadto identyfikatory CCDS są wskazane w odpowiednich rekordach NCBI RefSeq i Entrez Gene. Dostęp do raportów CCDS można uzyskać za pomocą podanych linków lub poprzez bezpośrednie zapytanie do bazy danych przy użyciu interfejsu zapytań znajdującego się na górze tej strony.

Zbiór danych CCDS jest również dostępny dla anonimowego FTP.

Współpracownicy Back to top of page

Zbiór CCDS jest budowany na zasadzie konsensusu przez współpracujących członków, do których należą:

  • European Bioinformatics Institute (EBI)
    • Ensembl Annotation Pipeline
    • HAVANA Curation Group
  • HUGO Gene Nomenclature Committee (HGNC)
  • Mouse Genome Informatics (MGI)
  • National Center for Biotechnology Information (NCBI)
    • Eukaryotic Genome Annotation Pipeline
    • RefSeq Curation Group

Przewidujemy, że zestaw CCDS będzie stawał się coraz bardziej kompletny w miarę jak niezależne grupy kuratorskie będą uzgadniać przypadki, w których początkowo będą się różnić, w miarę pojawiania się dodatkowej walidacji eksperymentalnej słabo wspieranych genów, oraz w miarę dalszego doskonalenia metod automatycznej anotacji. Komunikacja między grupami współpracującymi przy CCDS jest ciągłym działaniem, które będzie rozwiązywać różnice i identyfikować udoskonalenia między cyklami aktualizacji CCDS.

CCDS Identifiers and Tracking Back to top of page

Anotowane geny, które są włączone do zestawu CCDS są powiązane z unikalnym numerem identyfikatora i numerem wersji (np., CCDS1.1, CCDS234.1). Numer wersji będzie aktualizowany, jeśli zmieni się struktura CDS lub jeśli zmieni się sekwencja genomu w danym miejscu. Wraz z cyklami aktualizacji anotacji i przeglądarek genomowych opartych na sekwencji, zestaw CCDS będzie mapowany do przodu, zachowując identyfikatory. Wszystkie zmiany w istniejących genach CCDS są dokonywane na mocy porozumienia o współpracy; żadna pojedyncza grupa nie zmieni zestawu jednostronnie.

Process Flow and Quality Testing Back to top of page

Zestaw CCDS jest obliczany po skoordynowanych aktualizacjach adnotacji całego genomu przeprowadzanych przez NCBI i Ensembl. Aktualizacje adnotacji reprezentują geny, które są zdefiniowane przez mieszankę ręcznej kurateli i automatycznego przetwarzania obliczeniowego.

Główne grupy kuratorskie to zespół Havana w EMBL-EBI i grupa adnotacji RefSeq w NCBI. Metody automatyczne są stosowane przez grupę Ensembl i potok obliczeniowy do anotacji genomu NCBI. Curated informacje są preferowane w stosunku do automatycznych informacji, a informacje muszą być zarówno spójne w EMBL-EBI i NCBI grup, a także przejść rygorystyczne kontrole QC.

Ogólny przepływ procesu definiowania zestawu genów CCDS obejmuje:

  1. porównanie wyników anotacji genomu
  2. identyfikacja anotowanych regionów kodujących, które mają identyczne współrzędne lokalizacji w genomie
  3. ocena jakości
  4. usunięcie CDS o niższej jakości z zestawu podstawowego w oczekiwaniu na dodatkowy przegląd wśród grup współpracy.

Zestaw CCDS obejmuje regiony kodujące, które mają adnotacje o pełnej długości (z inicjującym ATG i prawidłowym kodonem stop), mogą być tłumaczone z genomu bez przesunięć ramek i wykorzystują consensus splice-sites. Liczba i rodzaj wykonywanych testów jakościowych może być rozszerzona w przyszłości, ale obejmuje spójność w analizie porównawczej międzygatunkowej, analizę w celu zidentyfikowania domniemanych pseudogenów, genów retrotranspozycji, konsensusowych miejsc splice, transkryptów wspierających i homologii białek.

Publikacje Powrót do początku strony

Proszę używać następujących cytatów dla CCDS:
Projekt Consensus coding sequence (CCDS): Identyfikacja wspólnego zestawu genów kodujących białka dla genomów człowieka i myszy.
Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR, Searle S, Farrell CM, Loveland JE, Ruef BJ, Hart E, Suner MM, Landrum MJ, Aken B, Ayling S, Baertsch R, Fernandez-Banet J, Cherry JL, Curwen V, Dicuccio M, Kellis M, Lee J, Lin MF, Schuster M, Shkeda A, Amid C, Brown G, Dukhanina O, Frankish A, Hart J, Maidak BL, Mudge J, Murphy MR, Murphy T, Rajan J, Rajput B, Riddick LD, Snow C, Steward C, Webb D, Weber JA, Wilming L, Wu W, Birney E, Haussler D, Hubbard T, Ostell J, Durbin R, Lipman D.
Genome Res. 2009 Jul;19(7):1316-23.
PubMed: PMID: 19498102
Śledzenie i koordynowanie międzynarodowego wysiłku kuratorskiego dla projektu CCDS.
Harte RA, Farrell CM, Loveland JE, Suner MM, Wilming L, Aken B, Barrell D, Frankish A, Wallin C, Searle S, Diekhans M, Harrow J, Pruitt KD.
Database 2012 Mar 20;2012:bas008. doi: 10.1093/database/bas008.
PubMed: PMID: 22434842
Current status and new features of the Consensus Coding Sequence database.
Farrell CM, O’Leary NA, Harte RA, Loveland JE, Wilming LG, Wallin C, Diekhans M, Barrell D, Searle SM, Aken B, Hiatt SM, Frankish A, Suner MM, Rajput B, Steward CA, Brown GR, Bennett R, Murphy M, Wu W, Kay MP, Hart J, Rajan J, Weber J, Snow C, Riddick LD, Hunt T, Webb D, Thomas M, Tamez P, Rangwala SH, McGarvey KM, Pujar S, Shkeda A, Mudge JM, Gonzalez JM, Gilbert JG, Trevanion SJ, Baertsch R, Harrow JL, Hubbard T, Ostell JM, Haussler D, Pruitt KD.
Nucleic Acids Res. 2014 Jan 1;42(1):D865-72. doi: 10.1093/nar/gkt1059.
PubMed: PMID: 24217909
Consensus coding sequence (CCDS) database: a standardized set of human and mouse protein-coding regions supported by expert curation.
Pujar S, O’Leary NA, Farrell CM, Loveland JE, Mudge JM, Wallin C, Girón CG, Diekhans M, Barnes I, Bennett R, Berry AE, Cox E, Davidson C, Goldfarb T, Gonzalez JM, Hunt T, Jackson J, Joardar V, Kay MP, Kodali VK, Martin FJ, McAndrews M, McGarvey KM, Murphy M, Rajput B, Rangwala SH, Riddick LD, Seal RL, Suner MM, Webb D, Zhu S, Aken BL, Bruford EA, Bult CJ, Frankish A, Murphy T, Pruitt KD.
Nucleic Acids Res. 2018 Jan 4;46(D1):D221-D228. doi: 10.1093/nar/gkx1031.
PubMed: PMID: 29126148
PubMed Central: PMCID: PMC5753299CcdsBrowse: 1.1.44

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.