A konszenzus CDS (Consensus CDS, CCDS) projekt egy közös erőfeszítés az emberi és egérfehérjék kódoló régióinak azonosítására, amelyek következetesen annotáltak és magas minőségűek. A hosszú távú cél az, hogy támogassa a gén annotációk szabványos készlete felé való konvergenciát.
A rendelkezésre álló információk a következők:
- Megjelenések
- Áttekintés
- Hozzáférés és elérhetőség
- Munkatársak
- CCDS azonosítók és nyomon követés
- Folyamat menete. és minőségellenőrzés
- Közlemények
Közlemények |
CCDS Release 23 – CCDS Release 23. Frissítés az egér számára október 24, 2019
A GRCm38 NCBI és Ensembl/Havana annotációja.p6 referenciagenom (assembly GCF_000001635.26, NCBI annotation release 108, Ensembl annotation release 98) elemzésre került, hogy további, következetesen annotált kódoló szekvenciákat (CDS) azonosítsunk. A CCDS adatok elérhetőek a CCDS weboldalon és az FTP oldalon, és az egyes böngészők frissítési ciklusának megfelelően elérhetővé válnak a munkatársak genom- és/vagy génböngésző weboldalain.
Ez a frissítés 1570 új CCDS azonosítót ad hozzá, és 175 génnel bővíti az egér CCDS készletet. A CCDS Release 23 összesen 27 219 CCDS ID-t tartalmaz, amelyek 20 486 GeneID-nek felelnek meg. A részleteket lásd a Releases & Statistics jelentésben.
CCDS Release 22 – Update for Human June 14, 2018
A GRCh38.p12 referencia genom NCBI és Ensembl/Havana annotációját (assembly GCF_000001405.38, NCBI annotation release 109, Ensembl annotation release 92) elemeztük további, következetesen annotált kódoló szekvenciák (CDS) azonosítása érdekében. A CCDS adatok elérhetőek a CCDS weboldalon és az FTP oldalon, és az egyes böngészők frissítési ciklusának megfelelően elérhetővé válnak a munkatársak genom- és/vagy génböngésző weboldalain.
Ez a frissítés 894 új CCDS azonosítót ad hozzá, és 128 génnel bővíti a humán CCDS készletet. A CCDS 22. kiadása összesen 33 397 CCDS ID-t tartalmaz, amelyek 19 033 GeneID-nek felelnek meg. Részletekért lásd a Kiadványok & Statisztikai jelentés.
Lásd korábbi bejelentések
Áttekintés |
A gének annotációját több nyilvános forrás biztosítja, különböző módszerekkel, amelyek hasonló, de nem mindig azonos információkat eredményeznek. Az emberi és egér genomszekvencia mostanra kellően stabil ahhoz, hogy elkezdjük azonosítani azokat a génelhelyezéseket, amelyek azonosak, és hogy ezeket az adatokat nyilvánossá tegyük, és a három nagy nyilvános genomböngésző alapkészletként támogassa. A hosszú távú cél a génmegjelölések szabványos készlete felé való konvergencia támogatása.
Ennek érdekében létrehozták a Consensus CDS (CCDS) projektet. A CCDS projekt egy közös erőfeszítés a következetesen annotált és magas minőségű fehérjekódoló régiók alapvető készletének azonosítására.
Hozzáférés és elérhetőség |
A Consensus CDS projekt első eredményei már elérhetőek a résztvevők genom böngésző weboldalain. Ezenkívül a CCDS-azonosítókat a vonatkozó NCBI RefSeq és Entrez Gene rekordokon is feltüntetik. A CCDS-jelentések elérhetők a megadott linkeket követve, vagy közvetlenül a mögöttes adatbázis lekérdezésével az oldal tetején található lekérdezési felület segítségével.
A CCDS-adatkészlet anonim FTP-n is elérhető.
Collaborators |
A CCDS-adatkészlet az együttműködő tagok konszenzusával épül fel, akik közé tartoznak:
- Európai Bioinformatikai Intézet (EBI)
- Ensembl Annotation Pipeline
- HAVANA Curation Group
- HUGO Gene Nomenclature Committee (HGNC)
- Mouse Genome Informatics (MGI)
- National Center
- National Center for Biotechnology Information (NCBI)
- Eukaryotic Genome Annotation Pipeline
- RefSeq Curation Group
Elképzeléseink szerint a CCDS-készlet egyre teljesebb lesz, ahogy a független kurációs csoportok megegyeznek azokban az esetekben, ahol kezdetben eltérnek, ahogy a gyengén támogatott gének további kísérleti validálása megtörténik, és ahogy az automatikus annotációs módszerek tovább fejlődnek. A CCDS-ben együttműködő csoportok közötti kommunikáció folyamatos tevékenység, amely a CCDS frissítési ciklusai között feloldja a különbségeket és meghatározza a finomításokat.
CCDS azonosítók és nyomon követés |
A CCDS-készletben szereplő annotált génekhez egyedi azonosítószám és verziószám (pl. CCDS1.1, CCDS234.1) tartozik. A verziószám frissül, ha a CDS szerkezete megváltozik, vagy ha az alapul szolgáló genomszekvencia megváltozik az adott helyen. Az annotációs és szekvenciaalapú genomböngésző frissítési ciklusaival a CCDS-készletet az azonosítók megtartása mellett előre leképezik. A meglévő CCDS-gének minden módosítása együttműködési megállapodás alapján történik; egyetlen csoport sem változtatja meg egyoldalúan a készletet.
Process Flow and Quality Testing |
A CCDS-készletet az NCBI és az Ensembl által végzett koordinált teljes genom annotációs frissítések nyomán számítják ki. Az annotációs frissítések olyan géneket képviselnek, amelyeket a kézi kuráció és az automatikus számítógépes feldolgozás keveréke határoz meg.
A fő kurációs csoportok az EMBL-EBI Havanna-csoportja és az NCBI RefSeq annotációs csoportja. Az automatikus módszerek az Ensembl csoporton és az NCBI genom annotációs számítógépes csővezetékén keresztül valósulnak meg. A kurált információkat előnyben részesítik az automatizált információkkal szemben, és az információknak egyrészt konzisztensnek kell lenniük az EMBL-EBI és az NCBI csoportokban, másrészt át kell esniük szigorú minőségellenőrzéseken.
A CCDS-génkészlet meghatározásának általános folyamatmenete a következőket tartalmazza:
- összehasonlítjuk a genom annotációs eredményeket
- azonosítjuk a genomban azonos helykoordinátákkal rendelkező annotált kódoló régiókat
- minőségi értékelés
- a rosszabb minőségű CDS-ek eltávolítása a magkészletből az együttműködési csoportok közötti további felülvizsgálatig.
A CCDS-készlet olyan kódoló régiókat tartalmaz, amelyek teljes hosszúságúnak vannak annotálva (indító ATG-vel és érvényes stop-kodonnal), a genomból frameshifts nélkül lefordíthatók, és konszenzusos splice-helyeket használnak. Az elvégzett minőségvizsgálatok száma és típusa a jövőben bővülhet, de magában foglalja a fajok közötti összehasonlító elemzés következetességét, a feltételezett pszeudogének, retrotranszponált gének, konszenzusos splice-helyek, támogató transzkriptumok és fehérje-homológia azonosítására irányuló elemzést.
Publikációk |
A CCDS-re vonatkozóan a következő hivatkozásokat kérjük használni:
A konszenzusos kódoló szekvencia (CCDS) projekt: Az emberi és egér genom közös fehérjekódoló génkészletének azonosítása.
Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR, Searle S, Farrell CM, Loveland JE, Ruef BJ, Hart E, Suner MM, Landrum MJ, Aken B, Ayling S, Baertsch R, Fernandez-Banet J, Cherry JL, Curwen V, Dicuccio M, Kellis M, Lee J, Lin MF, Schuster M, Shkeda A, Amid C, Brown G, Dukhanina O, Frankish A, Hart J, Maidak BL, Mudge J, Murphy MR, Murphy T, Rajan J, Rajput B, Riddick LD, Snow C, Steward C, Webb D, Weber JA, Wilming L, Wu W, Birney E, Haussler D, Hubbard T, Ostell J, Durbin R, Lipman D.
Genome Res. 2009 Jul;19(7):1316-23.
PubMed: PMID: 19498102
Tracking and coordinating an international curation effort for the CCDS Project.
Harte RA, Farrell CM, Loveland JE, Suner MM, Wilming L, Aken B, Barrell D, Frankish A, Wallin C, Searle S, Diekhans M, Harrow J, Pruitt KD.
Database 2012 Mar 20;2012:bas008. doi: 10.1093/database/bas008.
PubMed: PMID: 22434842
Current status and new features of the Consensus Coding Sequence database.
Farrell CM, O’Leary NA, Harte RA, Loveland JE, Wilming LG, Wallin C, Diekhans M, Barrell D, Searle SM, Aken B, Hiatt SM, Frankish A, Suner MM, Rajput B, Steward CA, Brown GR, Bennett R, Murphy M, Wu W, Kay MP, Hart J, Rajan J, Weber J, Snow C, Riddick LD, Hunt T, Webb D, Thomas M, Tamez P, Rangwala SH, McGarvey KM, Pujar S, Shkeda A, Mudge JM, Gonzalez JM, Gilbert JG, Trevanion SJ, Baertsch R, Harrow JL, Hubbard T, Ostell JM, Haussler D, Pruitt KD.
Nucleic Acids Res. 2014 Jan 1;42(1):D865-72. doi: 10.1093/nar/gkt1059.
PubMed: PMID: 24217909
Consensus coding sequence (CCDS) adatbázis: szakértői kurációval támogatott emberi és egér fehérjéket kódoló régiók standardizált készlete.
Pujar S, O’Leary NA, Farrell CM, Loveland JE, Mudge JM, Wallin C, Girón CG, Diekhans M, Barnes I, Bennett R, Berry AE, Cox E, Davidson C, Goldfarb T, Gonzalez JM, Hunt T, Jackson J, Joardar V, Kay MP, Kodali VK, Martin FJ, McAndrews M, McGarvey KM, Murphy M, Rajput B, Rangwala SH, Riddick LD, Seal RL, Suner MM, Webb D, Zhu S, Aken BL, Bruford EA, Bult CJ, Frankish A, Murphy T, Pruitt KD.
Nucleic Acids Res. 2018 Jan 4;46(D1):D221-D228. doi: 10.1093/nar/gkx1031.
PubMed: PMID: 29126148
PubMed Central: PMCID: PMC5753299CcdsBrowse: 1.1.44