CCDS Report for Consensus CDS

Projekt Consensus CDS (CCDS) jest wspólnym wysiłkiem mającym na celu zidentyfikowanie podstawowego zestawu ludzkich i mysich regionów kodujących białka, które są konsekwentnie opisywane i mają wysoką jakość. Celem długoterminowym jest wsparcie konwergencji w kierunku standardowego zestawu adnotacji genów.

Dostępne informacje obejmują:

Announcements
Overview
Access and Availability
Collaborators
CCDS Identifiers and Tracking
Process Flow. and Quality Testing
Publications

Announcements

CCDS Release 23 -… Aktualizacja dla myszy 24 października, 2019

Anotacja NCBI i Ensembl/Havana genomu referencyjnego GRCm38.p6 genomu referencyjnego (assembly GCF_000001635.26, NCBI annotation release 108, Ensembl annotation release 98) przeanalizowano w celu zidentyfikowania dodatkowych sekwencji kodujących (CDS), które są konsekwentnie anotowane. Dane CCDS są dostępne na stronie internetowej CCDS i stronie FTP i będą dostępne na stronach internetowych przeglądarek genomów i/lub genów współpracowników zgodnie z cyklem aktualizacji każdej przeglądarki.

Ta aktualizacja dodaje 1,570 nowych identyfikatorów CCDS i dodaje 175 genów do zestawu CCDS myszy. CCDS Release 23 zawiera w sumie 27 219 CCDS ID, które odpowiadają 20 486 GeneIDs. Zobacz raport Releases & Statistics dla szczegółów.

CCDS Release 22 – Update for Human June 14, 2018

Anotacja NCBI i Ensembl/Havana genomu referencyjnego GRCh38.p12 (assembly GCF_000001405.38, NCBI annotation release 109, Ensembl annotation release 92) została przeanalizowana w celu zidentyfikowania dodatkowych sekwencji kodujących (CDS), które są konsekwentnie anotowane. Dane CCDS są dostępne na stronie internetowej CCDS i stronie FTP i będą dostępne na stronach internetowych przeglądarek genomów i / lub genów współpracowników zgodnie z cyklem aktualizacji każdej przeglądarki.

Ta aktualizacja dodaje 894 nowe identyfikatory CCDS i dodaje 128 genów do ludzkiego zestawu CCDS. CCDS Release 22 zawiera w sumie 33 397 CCDS ID, które odpowiadają 19 033 GeneID. Zobacz raport Releases & Statistics, aby uzyskać szczegółowe informacje.

Zobacz poprzednie ogłoszenia

Overview

Anotacja genów jest dostarczana przez wiele zasobów publicznych, przy użyciu różnych metod i w wyniku czego uzyskuje się informacje, które są podobne, ale nie zawsze identyczne. Sekwencje genomów człowieka i myszy są obecnie wystarczająco stabilne, aby zacząć identyfikować te miejsca w genach, które są identyczne, oraz aby upublicznić te dane i wspierać je jako podstawowy zestaw przez trzy główne publiczne przeglądarki genomów. Celem długoterminowym jest wspieranie konwergencji w kierunku standardowego zestawu adnotacji genów.

W tym celu utworzono projekt Consensus CDS (CCDS). Projekt CCDS jest wspólnym wysiłkiem mającym na celu zidentyfikowanie podstawowego zestawu regionów kodujących białka, które są konsekwentnie anotowane i mają wysoką jakość.

Dostęp i dostępność

Wstępne wyniki projektu Consensus CDS są już dostępne na stronach internetowych przeglądarek genomowych uczestników. Ponadto identyfikatory CCDS są wskazane w odpowiednich rekordach NCBI RefSeq i Entrez Gene. Dostęp do raportów CCDS można uzyskać za pomocą podanych linków lub poprzez bezpośrednie zapytanie do bazy danych przy użyciu interfejsu zapytań znajdującego się na górze tej strony.

Zbiór danych CCDS jest również dostępny dla anonimowego FTP.

Współpracownicy

Zbiór CCDS jest budowany na zasadzie konsensusu przez współpracujących członków, do których należą:

European Bioinformatics Institute (EBI)
- Ensembl Annotation Pipeline
- HAVANA Curation Group
HUGO Gene Nomenclature Committee (HGNC)
Mouse Genome Informatics (MGI)
National Center for Biotechnology Information (NCBI)
- Eukaryotic Genome Annotation Pipeline
- RefSeq Curation Group

Przewidujemy, że zestaw CCDS będzie stawał się coraz bardziej kompletny w miarę jak niezależne grupy kuratorskie będą uzgadniać przypadki, w których początkowo będą się różnić, w miarę pojawiania się dodatkowej walidacji eksperymentalnej słabo wspieranych genów, oraz w miarę dalszego doskonalenia metod automatycznej anotacji. Komunikacja między grupami współpracującymi przy CCDS jest ciągłym działaniem, które będzie rozwiązywać różnice i identyfikować udoskonalenia między cyklami aktualizacji CCDS.

CCDS Identifiers and Tracking

Anotowane geny, które są włączone do zestawu CCDS są powiązane z unikalnym numerem identyfikatora i numerem wersji (np., CCDS1.1, CCDS234.1). Numer wersji będzie aktualizowany, jeśli zmieni się struktura CDS lub jeśli zmieni się sekwencja genomu w danym miejscu. Wraz z cyklami aktualizacji anotacji i przeglądarek genomowych opartych na sekwencji, zestaw CCDS będzie mapowany do przodu, zachowując identyfikatory. Wszystkie zmiany w istniejących genach CCDS są dokonywane na mocy porozumienia o współpracy; żadna pojedyncza grupa nie zmieni zestawu jednostronnie.

Process Flow and Quality Testing

Zestaw CCDS jest obliczany po skoordynowanych aktualizacjach adnotacji całego genomu przeprowadzanych przez NCBI i Ensembl. Aktualizacje adnotacji reprezentują geny, które są zdefiniowane przez mieszankę ręcznej kurateli i automatycznego przetwarzania obliczeniowego.

Główne grupy kuratorskie to zespół Havana w EMBL-EBI i grupa adnotacji RefSeq w NCBI. Metody automatyczne są stosowane przez grupę Ensembl i potok obliczeniowy do anotacji genomu NCBI. Curated informacje są preferowane w stosunku do automatycznych informacji, a informacje muszą być zarówno spójne w EMBL-EBI i NCBI grup, a także przejść rygorystyczne kontrole QC.

Ogólny przepływ procesu definiowania zestawu genów CCDS obejmuje:

porównanie wyników anotacji genomu
identyfikacja anotowanych regionów kodujących, które mają identyczne współrzędne lokalizacji w genomie
ocena jakości
usunięcie CDS o niższej jakości z zestawu podstawowego w oczekiwaniu na dodatkowy przegląd wśród grup współpracy.

Zestaw CCDS obejmuje regiony kodujące, które mają adnotacje o pełnej długości (z inicjującym ATG i prawidłowym kodonem stop), mogą być tłumaczone z genomu bez przesunięć ramek i wykorzystują consensus splice-sites. Liczba i rodzaj wykonywanych testów jakościowych może być rozszerzona w przyszłości, ale obejmuje spójność w analizie porównawczej międzygatunkowej, analizę w celu zidentyfikowania domniemanych pseudogenów, genów retrotranspozycji, konsensusowych miejsc splice, transkryptów wspierających i homologii białek.

Publikacje

Proszę używać następujących cytatów dla CCDS:
Projekt Consensus coding sequence (CCDS): Identyfikacja wspólnego zestawu genów kodujących białka dla genomów człowieka i myszy.
Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR, Searle S, Farrell CM, Loveland JE, Ruef BJ, Hart E, Suner MM, Landrum MJ, Aken B, Ayling S, Baertsch R, Fernandez-Banet J, Cherry JL, Curwen V, Dicuccio M, Kellis M, Lee J, Lin MF, Schuster M, Shkeda A, Amid C, Brown G, Dukhanina O, Frankish A, Hart J, Maidak BL, Mudge J, Murphy MR, Murphy T, Rajan J, Rajput B, Riddick LD, Snow C, Steward C, Webb D, Weber JA, Wilming L, Wu W, Birney E, Haussler D, Hubbard T, Ostell J, Durbin R, Lipman D.
Genome Res. 2009 Jul;19(7):1316-23.
PubMed: PMID: 19498102
Śledzenie i koordynowanie międzynarodowego wysiłku kuratorskiego dla projektu CCDS.
Harte RA, Farrell CM, Loveland JE, Suner MM, Wilming L, Aken B, Barrell D, Frankish A, Wallin C, Searle S, Diekhans M, Harrow J, Pruitt KD.
Database 2012 Mar 20;2012:bas008. doi: 10.1093/database/bas008.
PubMed: PMID: 22434842
Current status and new features of the Consensus Coding Sequence database.
Farrell CM, O’Leary NA, Harte RA, Loveland JE, Wilming LG, Wallin C, Diekhans M, Barrell D, Searle SM, Aken B, Hiatt SM, Frankish A, Suner MM, Rajput B, Steward CA, Brown GR, Bennett R, Murphy M, Wu W, Kay MP, Hart J, Rajan J, Weber J, Snow C, Riddick LD, Hunt T, Webb D, Thomas M, Tamez P, Rangwala SH, McGarvey KM, Pujar S, Shkeda A, Mudge JM, Gonzalez JM, Gilbert JG, Trevanion SJ, Baertsch R, Harrow JL, Hubbard T, Ostell JM, Haussler D, Pruitt KD.
Nucleic Acids Res. 2014 Jan 1;42(1):D865-72. doi: 10.1093/nar/gkt1059.
PubMed: PMID: 24217909
Consensus coding sequence (CCDS) database: a standardized set of human and mouse protein-coding regions supported by expert curation.
Pujar S, O’Leary NA, Farrell CM, Loveland JE, Mudge JM, Wallin C, Girón CG, Diekhans M, Barnes I, Bennett R, Berry AE, Cox E, Davidson C, Goldfarb T, Gonzalez JM, Hunt T, Jackson J, Joardar V, Kay MP, Kodali VK, Martin FJ, McAndrews M, McGarvey KM, Murphy M, Rajput B, Rangwala SH, Riddick LD, Seal RL, Suner MM, Webb D, Zhu S, Aken BL, Bruford EA, Bult CJ, Frankish A, Murphy T, Pruitt KD.
Nucleic Acids Res. 2018 Jan 4;46(D1):D221-D228. doi: 10.1093/nar/gkx1031.
PubMed: PMID: 29126148
PubMed Central: PMCID: PMC5753299CcdsBrowse: 1.1.44

Alai

CCDS Report for Consensus CDS

Dodaj komentarz Anuluj pisanie odpowiedzi