Consensus CDS (CCDS) -projekti on yhteistyöhanke, jonka tavoitteena on tunnistaa ydinjoukko ihmisen ja hiiren proteiineja koodaavia alueita, jotka ovat johdonmukaisesti annotoituja ja korkealaatuisia. Pitkän aikavälin tavoitteena on tukea lähentymistä kohti standardoitua geenien annotaatiojoukkoa.

Saatavilla olevat tiedot sisältävät:

  • Announcements
  • Overview
  • Access and Availability
  • Collaborators
  • CCDS Identifiers and Tracking
  • Process Flow and Quality Testing
  • Publications
Announcements Takaisin sivun yläreunaan

CCDS Release 23 – Päivitys hiirelle 24. lokakuuta, 2019

GRCm38:n NCBI- ja Ensembl/Havana-annotaatio.p6-referenssigenomin (assembly GCF_000001635.26, NCBI-annotaation julkaisu 108, Ensembl-annotaation julkaisu 98) analysoitiin sellaisten koodaavien lisäsekvenssien (CDS) tunnistamiseksi, jotka on annotoitu johdonmukaisesti. CCDS-tiedot ovat saatavilla CCDS-verkkosivustolla ja FTP-sivustolla, ja ne tulevat saataville yhteistyökumppaneiden genomi- ja/tai geeniselainten verkkosivuille kunkin selaimen päivityssyklin mukaisesti.

Tässä päivityksessä lisätään 1570 uutta CCDS-tunnusta ja 175 geeniä hiiren CCDS-joukkoon. CCDS Release 23 sisältää yhteensä 27 219 CCDS ID:tä, jotka vastaavat 20 486 GeneID:tä. Katso lisätietoja Release & Statistics -raportista.

CCDS Release 22 – Päivitys ihmiselle 14. kesäkuuta 2018

Resenssigenomin GRCh38.p12 NCBI- ja Ensembl/Havana-annotaatioita (assembly GCF_000001405.38, NCBI-annotaatiojulkaisu 109, Ensembl-annotaatiojulkaisu 92) analysoitiin, jotta voitaisiin tunnistaa lisää koodaavia sekvenssejä (CDS), jotka ovat johdonmukaisesti annotoitu. CCDS-tiedot ovat saatavilla CCDS-verkkosivustolla ja FTP-sivustolla, ja ne tulevat saataville yhteistyökumppaneiden genomi- ja/tai geeniselainten verkkosivuille kunkin selaimen päivityssyklin mukaisesti.

Tällä päivityksellä lisätään 894 uutta CCDS-tunnusta ja 128 geeniä ihmisen CCDS-joukkoon. CCDS Release 22 sisältää yhteensä 33 397 CCDS ID:tä, jotka vastaavat 19 033 GeneID:tä. Katso tarkemmat tiedot Release & Statistics -raportista.

Katso aiemmat ilmoitukset

Yleiskatsaus Takaisin sivun alkuun

Geenien annotaatioita tarjoavat useat erilaiset julkiset resurssit, jotka käyttävät erilaisia menetelmiä ja joiden tuloksena saadaan samankaltaista mutta ei aina identtistä tietoa. Ihmisen ja hiiren genomisekvenssi on nyt riittävän vakaa, jotta voidaan alkaa tunnistaa ne geenien sijoittelut, jotka ovat identtisiä, ja jotta nämä tiedot voidaan julkaista ja niitä voidaan tukea ydinjoukkona kolmessa suurimmassa julkisessa genomiselaimessa. Pitkän aikavälin tavoitteena on tukea lähentymistä kohti vakiomuotoista geenien annotaatioiden joukkoa.

Tätä tarkoitusta varten perustettiin Consensus CDS (CCDS) -hanke. CCDS-hanke on yhteistyöpyrkimys, jonka tavoitteena on tunnistaa ydinjoukko proteiineja koodaavia alueita, jotka ovat johdonmukaisesti annotoituja ja korkealaatuisia.

Käytettävyys ja saatavuus Takaisin sivun yläreunaan

Konsensus-CDS-hankkeesta saadut ensimmäiset tulokset ovat nyt saatavilla osallistujien genomiselainten verkkosivuilta. Lisäksi CCDS-tunnisteet on merkitty asianomaisiin NCBI RefSeq- ja Entrez Gene -tietueisiin. CCDS-raportteihin pääsee käsiksi seuraamalla annettuja linkkejä tai tekemällä suoran kyselyn taustalla olevaan tietokantaan tämän sivun yläosassa olevan kyselyrajapinnan avulla.

CCDS-tietokanta on saatavilla myös anonyymisti FTP:llä.

Yhteistyökumppanit Takaisin sivun alkuun

CCDS-tietokokonaisuus rakennetaan yhteisymmärryksessä yhteistyötä tekevien jäsenten kesken, joita ovat mm. seuraavat:

  • European Bioinformatics Institute (EBI)
    • Ensembl Annotation Pipeline
    • HAVANA Curation Group
  • HUGO Gene Nomenclature Committee (HGNC)
  • Mouse Genome Informatics (MGI)
  • National Center (National Center). for Biotechnology Information (NCBI)
    • Eukaryotic Genome Annotation Pipeline
    • RefSeq Curation Group

Odotamme, että CCDS-joukosta tulee täydellisempi sitä mukaa, kun riippumattomat kuraattoriryhmät pääsevät yhteisymmärrykseen niistä tapauksista, joissa ne aluksi eroavat, kun heikosti tuettujen geenien kokeellista validointia lisätään ja kun automaattiset annotaatiomenetelmät paranevat edelleen. CCDS:n yhteistyöryhmien välinen viestintä on jatkuvaa toimintaa, jolla ratkaistaan erimielisyyksiä ja määritetään parannuksia CCDS:n päivityskierrosten välillä.

CCDS-tunnisteet ja seuranta Takaisin sivun alkuun

CCDS-kokonaisuuteen sisältyviin annotoituihin geeneihin liitetään yksilöllinen tunnistenumero ja versionumero (esim. CCDS1.1, CCDS234.1). Versionumero päivittyy, jos CDS-rakenne muuttuu tai jos taustalla oleva genomisekvenssi muuttuu kyseisessä kohdassa. Annotaatio- ja sekvenssipohjaisen genomiselaimen päivityssyklien myötä CCDS-joukko kartoitetaan eteenpäin, jolloin tunnisteet säilyvät. Kaikki muutokset olemassa oleviin CCDS-geeneihin tehdään yhteistyösopimuksella; mikään yksittäinen ryhmä ei muuta joukkoa yksipuolisesti.

Prosessin kulku ja laadun testaus Takaisin sivun alkuun

CCDS-joukko lasketaan NCBI:n ja Ensemblin suorittamien koordinoitujen koko genomin annotaatiopäivitysten jälkeen. Annotaatiopäivitykset edustavat geenejä, jotka on määritelty sekoituksella manuaalista kuratointia ja automaattista laskennallista käsittelyä.

Tärkeimmät kuratointiryhmät ovat EMBL-EBI:n Havana-ryhmä ja NCBI:n RefSeq-annotaatioryhmä. Automaattiset menetelmät ovat Ensembl-ryhmän ja NCBI:n genomien annotoinnin laskennallisen putken kautta. Kuratoitua tietoa suositaan automaattisen tiedon kustannuksella, ja tiedon on oltava johdonmukaista EMBL-EBI:n ja NCBI:n ryhmissä ja läpäistävä tiukat QC-kontrollit.

CCDS-geenijoukon määrittelyn yleiseen prosessivirtaan kuuluu:

  1. vertaillaan genomin annotaatiotuloksia
  2. identifioidaan annotoidut koodausalueet, joilla on identtiset sijaintikoordinaatit genomissa
  3. laadunarviointi
  4. poistetaan heikompilaatuiset CDS-geenit ydinsarjasta odottamaan lisäkatselmusta yhteistyöryhmien välillä.

CCDS-joukko sisältää koodaavia alueita, jotka on annotoitu täyspitkiksi (joissa on aloittava ATG ja kelvollinen stop-kodoni), jotka voidaan kääntää genomista ilman kehyssiirtymiä ja jotka käyttävät konsensusliitoskohtia. Suoritettujen laatutestien määrää ja tyyppiä voidaan laajentaa tulevaisuudessa, mutta niihin sisältyy johdonmukaisuus lajien välisessä vertailevassa analyysissä, analyysi oletettujen pseudogeenien, retrotransponoitujen geenien, konsensusliitoskohtien, tukevien transkriptien ja proteiinihomologian tunnistamiseksi.

Julkaisut Takaisin sivun alkuun

Käyttäkää CCDS:n osalta seuraavia sitaatteja:
Konsensus-koodaussekvenssiprojekti (Consensus Coding Sequence, CCDS): Identifying a common protein-coding gene set for the human and mouse genomes.
Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR, Searle S, Farrell CM, Loveland JE, Ruef BJ, Hart E, Suner MM, Landrum MJ, Aken B, Ayling S, Baertsch R, Fernandez-Banet J, Cherry JL, Curwen V, Dicuccio M, Dicuccio M, Kellis M, Lee J, Lin MF, Schuster M, Shkeda A, Amid C, Brown G, Dukhanina O, Frankish A, Hart J, Maidak BL, Mudge J, Murphy MR, Murphy T, Rajan J, Rajput B, Riddick LD, Snow C, Steward C, Webb D, Weber JA, Wilming L, Wu W, Birney E, Haussler D, Hubbard T, Ostell J, Durbin R, Lipman D.
Genome Res. 2009 Jul;19(7):1316-23.
PubMed: PMID: 19498102
Tracking and coordinating an international curation effort for the CCDS Project.
Harte RA, Farrell CM, Loveland JE, Suner MM, Wilming L, Aken B, Barrell D, Frankish A, Wallin C, Searle S, Diekhans M, Harrow J, Pruitt KD.
Database 2012 Mar 20;2012:bas008. doi: 10.1093/database/bas008.
PubMed: PMID: 22434842
Current status and new features of the Consensus Coding Sequence database.
Farrell CM, O’Leary NA, Harte RA, Loveland JE, Wilming LG, Wallin C, Diekhans M, Barrell D, Searle SM, Aken B, Hiatt SM, Frankish A, Suner MM, Rajput B, Steward CA, Brown GR, Bennett R, Murphy M, Wu W, Kay MP, Hart J, Rajan J, Weber J, Snow C, Riddick LD, Hunt T, Webb D, Thomas M, Tamez P, Rangwala SH, McGarvey KM, Pujar S, Shkeda A, Mudge JM, Gonzalez JM, Gilbert JG, Trevanion SJ, Baertsch R, Harrow JL, Hubbard T, Ostell JM, Haussler D, Pruitt KD.
Nucleic Acids Res. 2014 Jan 1;42(1):D865-72. doi: 10.1093/nar/gkt1059.
PubMed: PMID: 24217909
Consensus coding sequence (CCDS) database: a standardized set of human and mouse protein-coding regions supported by expert curation.
Pujar S, O’Leary NA, Farrell CM, Loveland JE, Mudge JM, Wallin C, Girón CG, Diekhans M, Barnes I, Bennett R, Berry AE, Cox E, Davidson C, Goldfarb T, Gonzalez JM, Hunt T, Jackson J, Joardar V, Kay MP, Kodali VK, Martin FJ, McAndrews M, McGarvey KM, Murphy M, Rajput B, Rangwala SH, Riddick LD, Seal RL, Suner MM, Webb D, Zhu S, Aken BL, Bruford EA, Bult CJ, Frankish A, Murphy T, Pruitt KD.
Nucleic Acids Res. 2018 Jan 4;46(D1):D221-D228. doi: 10.1093/nar/gkx1031.
PubMed: PMID: 29126148
PubMed Central: PMCID: PMC5753299CcdsBrowse: 1.1.44

Vastaa

Sähköpostiosoitettasi ei julkaista.