Kyselyt
SNPper tarjoaa useita eri tapoja hakea SNP:tä, jotka heijastavat eri tarkoituksia, joihin SNP:tä voidaan käyttää. Yksinkertaisimmassa tapauksessa SNP:t voidaan hakea määrittämällä yksi tai useampi rs- tai ss-tunniste, jos ne ovat tiedossa. Toinen yleinen kysely hakee joukon vierekkäisiä SNP:itä, jotka kuuluvat kromosomin tietylle alueelle, joka määritetään joko absoluuttisen sijaintialueen tai sytogeneettisen kaistan nimen avulla. Geenilähtöisten tutkimusten tukemiseksi SNPper voi tuottaa joukon SNP:itä geenillä tai sen ympärillä (käyttäjän määrittelemään enimmäisetäisyyteen asti) tai joukon geenejä. Geenit voidaan määrittää käyttämällä niiden HUGO-nimeä tai niiden Genbank-, Locuslink-, OMIM- tai Unigene-tunnisteita. Kiinnostavien geenien joukko voidaan puolestaan määrittää sijainnin perusteella (eli kaikki geenit kromosomialueella) tai GeneOntology-luokan kautta. Viimeksi mainittu ominaisuus mahdollistaa sellaisten SNP-joukkojen tutkimisen, jotka mahdollisesti liittyvät kiinnostavaan biologiseen prosessiin sen sijaan, että ne olisi yhdistetty sijainnin perusteella.
Kyselyn tulos on kaikissa tapauksissa SNPset, tietorakenne, joka sisältää kokoelman SNP:tä. On olemassa erityyppisiä SNPset-joukkoja sen mukaan, minkä tyyppinen kysely ne on tuottanut, ja niille on määritelty erilaisia operaatioita. Esimerkiksi vierekkäisiä SNP:itä sisältävälle SNPjoukolle on järkevää mitata SNP-tiheys, ja SNPper tarjoaa toiminnon, jolla voidaan vähentää sen sisältämien SNP:iden määrää säilyttäen samalla yhtenäinen väli. Geenijoukosta generoidulle SNP-joukolle tämä toiminto ei olisi järkevä (koska SNP:t voivat olla hajaantuneet eri kromosomeihin), eikä se siksi ole käytettävissä. Yleisesti ottaen SNPset edustaa SNP-joukkoa, joka on tuotettu yhdellä kyselyllä ja jota voidaan käsitellä ja analysoida kokonaisuutena. SNPsetit näkyvät vain ne tuottaneelle käyttäjälle, ja ne ovat pysyviä tietorakenteita: niitä säilytetään palvelimella niin kauan kuin niitä käytetään, ja ne poistetaan automaattisesti, kun niiden viimeisestä käyttökerrasta on kulunut riittävästi aikaa. Käyttäjä voi myös halutessaan tallentaa SNPsetin, jolloin se on käytettävissä tulevissa istunnoissa.
SNP:n visualisointi
SNPper tarjoaa useita tapoja SNP:iden esittämiseen web-käyttöliittymässä. Aluksi jokainen SNP kuvataan erikseen sivulla, jolla näytetään yleiset tiedot (SNP:n tunnisteet, sijainti, alleelit, validointitilanne), luettelo SNP:n lähettäjistä, luettelo geeneistä, joihin se kuuluu, sen frekvenssi eri populaatioissa (joka koostuu otoskoon sekä pää- ja sivuaalleleiden frekvensseistä), jos se on saatavilla, ja luettelo proteiinidomeeneista, joihin SNP kuuluu, jos niitä on. Geeniin kuuluvat SNP:t voidaan näyttää vastaavan DNA-sekvenssin tai (koodaavien SNP:iden osalta) aminohapposekvenssin yhteydessä. Molemmissa tapauksissa SNP:n sijainti korostetaan ja ponnahdusikkunassa näytetään sitä koskevat tiedot (nimi, sijainti, alleelit). Kuvassa 1 on annotoitu geenisekvenssi, joka sisältää SNP:tä, ja kuvassa 2 on yksityiskohtainen tietosivu yhdestä kyseisessä sekvenssissä olevasta SNP:stä.
SNP-sarjat näytetään taulukoiden avulla, joissa luetellaan kunkin SNP:n nimi, sijainti, alleelit ja muut SNP-sarjan tyypistä riippuvat tiedot. SNP-joukot, jotka sisältävät suuren määrän SNP:tä, näytetään suorituskykysyistä valinnaisesti lyhennetyssä muodossa. Taulukossa on myös linkkejä SNPsetin eri komentojen suorittamiseen, kuten sen tallentamiseen, vientiin (ks. seuraava jakso) ja tarkentamiseen. Erityisesti SNPsetin tarkistusoperaatio antaa käyttäjälle mahdollisuuden ”suodattaa” sen sisältämät SNP:t useiden eri kriteerien mukaan: yleiset ominaisuudet (esim. validointi), sijainti suhteessa geeniin (esim. vain eksonisten SNP:iden tai promoottori-SNP:iden valitseminen), frekvenssi tai heterotsygoottius, lähettäjät (vain SNP:iden valitseminen vain tietyistä lähettäjistä tai vähimmäismäärän erillisten lähettäjiä sisältävistä SNP:iden valitseminen) tai keskimääräinen etäisyys (SNP:iden lukumäärän pienentäminen säilyttäen kuitenkin yhdenmukaisen välyksen). Kaikissa tapauksissa tuloksena on niiden SNP:iden piilottaminen, jotka eivät täytä käyttäjän kriteerejä: vaikka nämä SNP:t ovat edelleen osa SNPjoukkoa, ne eivät ole enää näkyvissä, eikä niitä oteta huomioon missään analyysi-, näyttö- tai vientioperaatiossa.
Kuvassa 3 on lopuksi esitetty tuloste Java-sovelluksesta, jota voidaan käyttää SNPjoukkojen näyttämiseen graafisessa muodossa. Geenin rakenne esitetään käyttäen erivärisiä ja -paksuisia palkkeja; SNP:t tunnistetaan neliöillä (jos frekvenssitieto on saatavilla) tai ympyröillä (muutoin), ja ne on väritetty vihreällä, jos ne on validoitu, ja mustalla, jos ne on validoitu. Sovelluksessa on komennot näytön vierittämiseksi vasemmalle tai oikealle ja näytön zoomaamiseksi sisään tai ulos.
Datan vienti
Yksi SNPperin tärkeimmistä suunnittelutavoitteista on tarjota helppoja tapoja viedä SNP-dataa useissa yleisissä muodoissa. SNPsetin vientisivulla, joka on esitetty kuvassa 4, käyttäjä voi valita minkä tahansa määrän kenttiä käytettävissä olevista annotaatioista (mukaan lukien flanking-sekvenssit, frekvenssitiedot, validointitilanne, aminohappomuutos) ja määrittää halutun tulostusmuodon (XML, välilehdillä eroteltu teksti, HTML tai BED) ja määränpään (tiedot voidaan näyttää selainikkunassa tai ne voidaan lähettää sähköpostitse käyttäjän ilmoittamaan osoitteeseen). XML:stä on vähitellen tulossa biolääketieteellisten sovellusten tiedonsiirron standardiformaatti, ja se tarjotaan SNPperissä yhteentoimivuuden tukemiseksi muiden ohjelmien kanssa. Tabulaattorilla erotettu teksti edustaa yksinkertaisinta strukturoitua datamuotoa, ja siksi sitä tukevat useimmat sovellukset, kuten taulukkolaskentaohjelmat tai PCR-alkuaineiden suunnitteluohjelmat. HTML-tulosteen avulla käyttäjät voivat näyttää tiedot toisella verkkosivustolla, esimerkiksi julkaisun lisätietojen tarjoamiseksi. Lopuksi BED-muotoa käytetään Goldenpathin ”custom tracks” -ominaisuuden hyödyntämiseen: tuloksena syntyvä tiedosto voidaan ladata Goldenpath-sivustolle, ja SNPset-data näytetään genomiselaimessa sen track display -ikkunassa.
SNPper tarjoaa myös vaihtoehtoisen menetelmän SNP-tietojen hakemiseen XML-muodossa. Järjestelmämme toteuttaa Remote Procedure Call (RPC) -rajapinnan, jonka avulla muut ohjelmat voivat lähettää tilapäisiä HTTP-pyyntöjä ja vastaanottaa vastauksena XML-dokumentin HTML-sivun sijasta. Tämän ominaisuuden tarkoituksena on lisätä SNPper-tietokannan arvoa ja käyttökelpoisuutta sallimalla vaihtoehtoisten, erilaisia käyttöliittymiä käyttävien järjestelmien rakentaminen samojen tietojen päälle
Vertailu muihin SNP-tietokantoihin
Lukuisia muita julkisia SNP-tietokantoja on olemassa, ja kullakin on omat vahvuutensa ja rajoituksensa. Tässä jaksossa käymme lyhyesti läpi tärkeimmät niistä, tuomme esiin niiden ominaispiirteet ja vertaamme niitä SNPperin tarjoamiin palveluihin.
HGVBASE-tietokanta on keskittynyt käytettävissä olevan SNP-datan erittäin tarkkaan manuaaliseen kuratointiin ja annotaatioon . Siksi se on kooltaan pienempi kuin dbSNP, mutta sen tiedot ovat erittäin hyödyllisiä tutkijoille, jotka ovat kiinnostuneita ihmisen fenotyyppisen vaihtelun geneettisen komponentin tutkimisesta. Se tarjoaa laajoja annotaatioita SNP-tietokannoistaan ja useita hakuvaihtoehtoja, mukaan lukien mahdollisuus etsiä SNP:tä käyttäjän toimittamasta genomisekvenssistä, joka on automaattisesti kohdistettu ihmisen genomiin.
ALFRED ja JSNPs ovat kaksi pienempää SNP-tietokantaa, jotka pyrkivät tarjoamaan tarkkaa frekvenssitietoa. JSNPs keskittyy japanilaiseen väestöön, kun taas ALFRED tarjoaa tietoja suuresta määrästä hyvin erilaisia populaatioita koko maailmasta niiden taajuuserojen korostamiseksi ja haplotyyppien tutkimisen helpottamiseksi . Molemmat sivustot tarjoavat suhteellisen pienen määrän SNP:tä, mutta niiden tarjoamat frekvenssitiedot ovat erittäin tärkeitä. JSNPs tarjoaa käyttökelpoisen graafisen kromosomiselaimen ja mahdollisuuden näyttää SNPS:iensä sekvenssijäljet. Toisaalta tietojen vientitoiminnot ovat molemmissa järjestelmissä jonkin verran rajalliset.
GeneSNPs-sivusto yhdistää geeni-, sekvenssi- ja SNP-tiedot pitkälle annotoituihin geenimalleihin. Se tarjoaa laajat visualisointi- ja tiedonvientiominaisuudet, mukaan lukien tapa näyttää SNP:t sen geenin genomisekvenssin sisällä, johon ne kuuluvat, samanlainen kuin SNPperissä. SNPperiin verrattuna sen tärkein rajoitus on se, että se sisältää SNP:t vain pienestä määrästä geenejä, jotka liittyvät alttiuteen ympäristöaltistukselle.
EnsMart on erittäin kattava tiedonlouhintatyökalu, jolla voidaan poimia tietoa Ensembl-tietokannasta. Ensembl on ylivoimaisesti kattavin ja kehittynein tietokanta kaikista tässä kuvatuista tietokannoista. Se tarjoaa suunnilleen saman joukon tietoja SNP:istä kuin SNPper, ja suurin ero on se, että se käyttää omaa geenitietokantaansa sen sijaan, että se olisi linkitetty Goldenpathiin. Vaikka sen käyttöliittymä on erittäin tehokas ja tehokas, sitä ei ole erityisesti räätälöity SNP-pohjaisen tutkimuksen tarpeisiin; se ei esimerkiksi tarjoa tapoja luoda SNP-joukkoja, joilla on haluttu keskimääräinen välimatka, kuten sen sijaan on mahdollista SNPperillä.
SNPperin ainutlaatuiset ominaisuudet liittyvät lähinnä SNP-joukkojen hallintaan ja sen yhteentoimivuusominaisuuksiin. SNPper on ainoa resurssi, joka antaa käyttäjille mahdollisuuden käsitellä, tarkentaa, tallentaa ja viedä SNPsettejä kokonaisuutena sekä luoda SNP-joukkoja monimutkaisten kyselyjen avulla (kuten kohdassa 4.a kuvattu GeneOntology-luokkia käyttävä kysely). Lisäksi SNPper on tietojemme mukaan ainoa SNP-resurssi, joka tarjoaa täydellisen pääsyn tietokantaansa koneellisesti luettavina XML-tiedostoina Remote Procedure Call -rajapinnan kautta ja jonka avulla käyttäjä voi ladata tietokantaansa joukon yksityisiä SNP:itä ja analysoida tai näyttää ne standardikäyttöliittymän kautta.