CCDS Report for Consensus CDS

Projekt Consensus CDS (CCDS) je společným úsilím o identifikaci základního souboru oblastí kódujících lidské a myší proteiny, které jsou konzistentně anotovány a mají vysokou kvalitu. Dlouhodobým cílem je podpořit konvergenci ke standardnímu souboru genových anotací.

Dostupné informace zahrnují:

Oznámení
Přehled
Přístup a dostupnost
Spolupracovníci
Identifikátory CCDS a sledování
Procesní postup. a testování kvality
Publikace

Oznámení

CCDS Release 23 -. Aktualizace pro myš 24. října, 2019

Anotace NCBI a Ensembl/Havana pro GRCm38.p6 referenčního genomu (assembly GCF_000001635.26, anotace NCBI verze 108, anotace Ensembl verze 98) byla analyzována s cílem identifikovat další kódující sekvence (CDS), které jsou důsledně anotovány. Data CCDS jsou k dispozici na webových stránkách CCDS a FTP a budou k dispozici na webových stránkách genomových a/nebo genových prohlížečů spolupracovníků podle aktualizačního cyklu každého prohlížeče.

Tato aktualizace přidává 1 570 nových ID CCDS a do souboru CCDS myši přidává 175 genů. CCDS Release 23 obsahuje celkem 27 219 CCDS ID, které odpovídají 20 486 GeneID. Podrobnosti naleznete ve zprávě Releases & Statistics.

CCDS Release 22 – Update for Human 14. června 2018

Anotace NCBI a Ensembl/Havana referenčního genomu GRCh38.p12 (assembly GCF_000001405.38, anotace NCBI verze 109, anotace Ensembl verze 92) byla analyzována s cílem identifikovat další kódující sekvence (CDS), které jsou důsledně anotovány. Data CCDS jsou k dispozici na webových stránkách CCDS a FTP a budou k dispozici na webových stránkách genomových a/nebo genových prohlížečů spolupracovníků podle aktualizačního cyklu každého prohlížeče.

Tato aktualizace přidává 894 nových ID CCDS a přidává 128 genů do souboru lidských CCDS. CCDS Release 22 obsahuje celkem 33 397 CCDS ID, které odpovídají 19 033 GeneID. Podrobnosti naleznete ve zprávě Releases & Statistics.

Viz minulá oznámení

Přehled

Anotace genů poskytuje více veřejných zdrojů, které používají různé metody a jejichž výsledkem jsou informace podobné, ale ne vždy totožné. Sekvence lidského a myšího genomu je nyní dostatečně stabilní, aby bylo možné začít identifikovat ta umístění genů, která jsou identická, a aby tyto údaje byly zveřejněny a podporovány jako základní sada třemi hlavními veřejnými prohlížeči genomu. Dlouhodobým cílem je podpořit konvergenci ke standardní sadě genových anotací.

Za tímto účelem byl založen projekt Consensus CDS (CCDS). Projekt CCDS je společným úsilím o identifikaci základního souboru oblastí kódujících proteiny, které jsou konzistentně anotovány a mají vysokou kvalitu.

Přístup a dostupnost

Počáteční výsledky projektu Consensus CDS jsou nyní k dispozici na webových stránkách prohlížečů genomu účastníků. Kromě toho jsou identifikátory CCDS uvedeny v příslušných záznamech NCBI RefSeq a Entrez Gene. Ke zprávám CCDS lze přistupovat pomocí uvedených odkazů nebo přímým dotazem do základní databáze pomocí dotazovacího rozhraní uvedeného v horní části této stránky.

Soubor dat CCDS je rovněž k dispozici pro anonymní FTP.

Spolupracovníci

Soubor CCDS je vytvářen na základě konsensu spolupracujících členů, mezi něž patří např:

European Bioinformatics Institute (EBI)
- Ensembl Annotation Pipeline
- HAVANA Curation Group
HUGO Gene Nomenclature Committee (HGNC)
Mouse Genome Informatics (MGI)
National Center. for Biotechnology Information (NCBI)
- Eukaryotic Genome Annotation Pipeline
- RefSeq Curation Group

Předpokládáme, že soubor CCDS bude stále úplnější, jak se nezávislé kurátorské skupiny dohodnou na případech, kde se zpočátku liší, jak bude docházet k dalšímu experimentálnímu ověřování slabě podporovaných genů a jak se budou zdokonalovat metody automatické anotace. Komunikace mezi spolupracujícími skupinami CCDS je průběžnou činností, která bude řešit rozdíly a určovat upřesnění mezi cykly aktualizace CCDS.

Identifikátory a sledování CCDS

Anotované geny, které jsou zahrnuty do souboru CCDS, jsou spojeny s jedinečným identifikačním číslem a číslem verze (např. CCDS1.1, CCDS234.1). Číslo verze se aktualizuje, pokud se změní struktura CDS nebo pokud se v daném místě změní základní sekvence genomu. S cykly aktualizace prohlížeče genomu na základě anotace a sekvence bude sada CCDS mapována dopředu, přičemž identifikátory zůstanou zachovány. Všechny změny stávajících genů CCDS se provádějí na základě dohody o spolupráci; žádná jednotlivá skupina nebude sadu jednostranně měnit.

Procesní postup a testování kvality

Soubor CCDS se vypočítává po koordinovaných aktualizacích anotace celého genomu prováděných NCBI a Ensembl. Aktualizace anotací představují geny, které jsou definovány kombinací ručního kurátorství a automatizovaného počítačového zpracování.

Hlavními kurátorskými skupinami jsou tým Havana v EMBL-EBI a anotační skupina RefSeq v NCBI. Automatické metody jsou prostřednictvím skupiny Ensembl a výpočetní anotační pipeline genomu NCBI. Kurátorské informace jsou upřednostňovány před automatickými informacemi a informace musí být konzistentní ve skupinách EMBL-EBI a NCBI a musí také projít přísnou kontrolou kvality.

Obecný procesní postup pro definování souboru genů CCDS zahrnuje:

porovnání výsledků anotace genomu
identifikaci anotovaných kódujících oblastí, které mají shodné souřadnice umístění v genomu
hodnocení kvality
vyřazení CDS nižší kvality ze základního souboru do doby, než bude provedena další kontrola mezi spolupracujícími skupinami.

Soubor CCDS zahrnuje kódující oblasti, které jsou anotovány jako oblasti plné délky (s iniciačním ATG a platným stop-kodonem), mohou být přeloženy z genomu bez posunů rámců a používají konsenzuální místa sestřihu. Počet a typ prováděných testů kvality může být v budoucnu rozšířen, ale zahrnuje důslednou mezidruhovou srovnávací analýzu, analýzu k identifikaci domnělých pseudogenů, retrotransponovaných genů, konsenzuálních míst sestřihu, podpůrných transkriptů a homologie proteinů.

Publikace

Prosím, používejte následující citace pro CCDS:
Projekt konsenzuální kódující sekvence (CCDS): Identifikace společného souboru genů kódujících proteiny pro lidský a myší genom.
Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR, Searle S, Farrell CM, Loveland JE, Ruef BJ, Hart E, Suner MM, Landrum MJ, Aken B, Ayling S, Baertsch R, Fernandez-Banet J, Cherry JL, Curwen V, Dicuccio M, Kellis M, Lee J, Lin MF, Schuster M, Shkeda A, Amid C, Brown G, Dukhanina O, Frankish A, Hart J, Maidak BL, Mudge J, Murphy MR, Murphy T, Rajan J, Rajput B, Riddick LD, Snow C, Steward C, Webb D, Weber JA, Wilming L, Wu W, Birney E, Haussler D, Hubbard T, Ostell J, Durbin R, Lipman D.
Genome Res. 2009 Jul;19(7):1316-23.
PubMed: PMID: 19498102
Sledování a koordinace mezinárodního kurátorského úsilí pro projekt CCDS.
Harte RA, Farrell CM, Loveland JE, Suner MM, Wilming L, Aken B, Barrell D, Frankish A, Wallin C, Searle S, Diekhans M, Harrow J, Pruitt KD.
Databáze 2012 Mar 20;2012:bas008. doi: 10.1093/database/bas008.
PubMed: PMID: 22434842
Aktuální stav a nové funkce databáze Consensus Coding Sequence.
Farrell CM, O’Leary NA, Harte RA, Loveland JE, Wilming LG, Wallin C, Diekhans M, Barrell D, Searle SM, Aken B, Hiatt SM, Frankish A, Suner MM, Rajput B, Steward CA, Brown GR, Bennett R, Murphy M, Wu W, Kay MP, Hart J, Rajan J, Weber J, Snow C, Riddick LD, Hunt T, Webb D, Thomas M, Tamez P, Rangwala SH, McGarvey KM, Pujar S, Shkeda A, Mudge JM, Gonzalez JM, Gilbert JG, Trevanion SJ, Baertsch R, Harrow JL, Hubbard T, Ostell JM, Haussler D, Pruitt KD.
Nucleic Acids Res. 2014 Jan 1;42(1):D865-72. doi: 10.1093/nar/gkt1059.
PubMed: PMID: 24217909
Databáze konsenzuálních kódujících sekvencí (CCDS): standardizovaný soubor oblastí kódujících lidské a myší proteiny podpořený kurátorstvím odborníků.
Pujar S, O’Leary NA, Farrell CM, Loveland JE, Mudge JM, Wallin C, Girón CG, Diekhans M, Barnes I, Bennett R, Berry AE, Cox E, Davidson C, Goldfarb T, Gonzalez JM, Hunt T, Jackson J, Joardar V, Kay MP, Kodali VK, Martin FJ, McAndrews M, McGarvey KM, Murphy M, Rajput B, Rangwala SH, Riddick LD, Seal RL, Suner MM, Webb D, Zhu S, Aken BL, Bruford EA, Bult CJ, Frankish A, Murphy T, Pruitt KD.
Nucleic Acids Res. 2018 Jan 4;46(D1):D221-D228. doi: 10.1093/nar/gkx1031.
PubMed: PMID: 29126148
PubMed Central: PMCID: PMC5753299CcdsBrowse: 1.1.44

Alai

CCDS Report for Consensus CDS

Napsat komentář Zrušit odpověď na komentář