Dotazy
SNPper nabízí několik různých způsobů vyhledávání SNP, které odrážejí různé účely, k nimž mohou být SNP použity. V nejjednodušším případě lze SNP vyhledat zadáním jednoho nebo více identifikátorů rs nebo ss, pokud jsou známy. Jiný běžný dotaz vyhledává sadu sousedících SNP patřících do určité oblasti chromozomu, specifikovanou buď prostřednictvím absolutního rozsahu pozic, nebo prostřednictvím názvu cytogenetického pásma. Pro podporu studií zaměřených na geny může SNPper generovat soubor SNP na genu nebo v jeho okolí (až do uživatelem zadané maximální vzdálenosti) nebo soubor genů. Geny lze zadat pomocí jejich názvu HUGO nebo prostřednictvím jejich identifikátorů Genbank, Locuslink, OMIM nebo Unigene. Sadu zájmových genů lze zase zadat podle polohy (tj. všechny geny v oblasti chromozomu) nebo prostřednictvím třídy GeneOntology. Tato poslední vlastnost umožňuje studovat sady SNP, které jsou potenciálně spojeny se zájmovým biologickým procesem, spíše než aby byly spojeny podle pozice.
Ve všech případech je výsledkem dotazu SNPset, datová struktura, která obsahuje kolekci SNP. Existují různé typy SNPsetů podle typu dotazu, který je vytvořil, a jsou nad nimi definovány různé operace. Například pro sadu SNPset obsahující sousedící SNPy má smysl měřit hustotu SNPů a SNPper poskytuje funkci pro snížení počtu SNPů, které obsahuje, při zachování rovnoměrných rozestupů. Pro sadu SNPset vytvořenou ze sady genů by tato operace neměla smysl (protože SNPs mohou být rozmístěny na různých chromozomech), a proto není k dispozici. Obecně SNPset představuje sadu SNP, která byla vytvořena jedním dotazem a se kterou lze manipulovat a analyzovat ji jako celek. Sady SNPset jsou viditelné pouze pro uživatele, který je vytvořil, a jedná se o trvalé datové struktury: jsou uloženy na serveru tak dlouho, dokud jsou používány, a jsou automaticky odstraněny po uplynutí dostatečně dlouhé doby od posledního přístupu k nim. Uživatel se také může rozhodnout sadu SNPset uložit, v takovém případě bude k dispozici v budoucích relacích.
Vizualizace SNP
SNPper poskytuje několik způsobů zobrazení SNPsetů prostřednictvím svého webového rozhraní. Pro začátek je každý SNP popsán jednotlivě na stránce, která zobrazuje obecné údaje (identifikátory SNP, pozice, alely, stav validace), seznam jeho předkladatelů, seznam genů, ke kterým patří, jeho frekvenci v různých populacích (sestávající z velikosti vzorku a frekvence hlavní a vedlejší alely), pokud je k dispozici, a seznam proteinových domén, do kterých SNP spadá, pokud existuje. SNP, které patří ke genu, lze zobrazit v kontextu odpovídající sekvence DNA nebo (u kódujících SNP) sekvence aminokyselin. V obou případech je pozice SNP zvýrazněna a vyskakovací okno slouží k zobrazení informací o něm (název, pozice, alely). Obrázek 1 ukazuje anotovanou genovou sekvenci obsahující SNP a obrázek 2 zobrazuje stránku s podrobnými informacemi o jednom ze SNP v této sekvenci.
Sady SNP jsou zobrazeny pomocí tabulek, které uvádějí název každého SNP, jeho pozici, jeho alely a další informace závislé na konkrétním typu sady SNP. Sady SNPset, které obsahují velký počet SNP, jsou z výkonnostních důvodů volitelně zobrazeny ve zkrácené podobě. Tabulka obsahuje také odkazy na provedení různých příkazů dostupných pro sadu SNPset, jako je její uložení, export (viz další část) a upřesnění. Zejména operace upřesnění sady SNPset umožňuje uživateli „filtrovat“ SNP, které obsahuje, podle několika různých kritérií: obecných vlastností (např. validace), polohy vzhledem ke genu (např. pro výběr pouze exonických SNP nebo promotorových SNP), frekvence nebo heterozygotnosti, předkladatelů (pro výběr pouze SNP od zadaných předkladatelů nebo s minimálním počtem různých předkladatelů) nebo průměrné vzdálenosti (za účelem snížení počtu SNP při zachování rovnoměrného rozestupu). Ve všech případech je výsledkem skrytí těch SNP, které nesplňují kritéria uživatele: tyto SNP jsou sice stále součástí sady SNP, ale již nejsou viditelné a nebudou brány v úvahu při žádné operaci analýzy, zobrazení nebo exportu.
Nakonec obrázek 3 ukazuje výstup appletu Java, který lze použít k zobrazení sad SNP v grafické podobě. Struktura genu je zobrazena pomocí pruhů různých barev a tloušťky; SNP jsou označeny čtverci (pokud jsou k dispozici informace o frekvenci) nebo kruhy (v opačném případě) a jsou zbarveny zeleně, pokud jsou validní, jinak černě. Aplet poskytuje příkazy pro posouvání zobrazení doleva nebo doprava a pro zvětšení nebo zmenšení zobrazení.
Export dat
Jedním z nejdůležitějších cílů návrhu programu SNPper je poskytnout snadné způsoby exportu dat SNP v různých běžných formátech. Stránka pro export SNPset, zobrazená na obrázku 4, umožňuje uživateli vybrat libovolný počet polí z dostupných anotací (včetně doprovodných sekvencí, informací o frekvenci, stavu validace, změny aminokyselin) a určit požadovaný výstupní formát (XML, text oddělený tabulátory, HTML nebo BED) a cíl (data lze zobrazit v okně prohlížeče nebo odeslat e-mailem na uživatelem zadanou adresu). XML se postupně stává standardním formátem pro výměnu dat v biomedicínských aplikacích a v programu SNPper je k dispozici pro podporu interoperability s jinými programy. Text oddělený tabulátory představuje nejjednodušší formát strukturovaných dat, a je proto podporován většinou aplikací, jako jsou tabulkové procesory nebo programy pro návrh primerů PCR. Výstup HTML umožňuje uživatelům zobrazit data na jiné webové stránce, například poskytnout doplňující informace pro publikaci. A konečně formát BED slouží k využití funkce „vlastní stopy“ programu Goldenpath: výsledný soubor lze nahrát na web Goldenpath a data SNPset zobrazí prohlížeč genomu ve svém okně pro zobrazení stop.
SNPper poskytuje také alternativní metodu pro získání informací o SNP ve formátu XML. Náš systém implementuje rozhraní RPC (Remote Procedure Call), které umožňuje jiným programům odesílat ad hoc požadavky HTTP a v odpovědi obdržet dokument XML namísto stránky HTML . Tato funkce má zvýšit hodnotu a užitečnost databáze SNPper tím, že umožní, aby nad stejnými základními daty byly vybudovány alternativní systémy využívající různá uživatelská rozhraní
Srovnání s jinými zdroji SNP
Existuje několik dalších veřejných databází SNP, z nichž každá má své silné stránky a omezení. V této části si stručně prohlédneme ty nejdůležitější, poukážeme na jejich charakteristické rysy a porovnáme je s tím, co nabízí SNPper.
Báze HGVBASE je zaměřena na velmi přesnou ruční kurátorskou práci a anotaci dostupných dat SNP . Proto je co do velikosti menší než dbSNP, ale její data jsou mimořádně užitečná pro výzkumníky, kteří se zajímají o zkoumání genetické složky fenotypové variability člověka. Poskytuje rozsáhlé anotace svých SNP a několik možností vyhledávání, včetně možnosti hledat SNP v uživatelem zadané genomové sekvenci, která je automaticky zarovnána s lidským genomem.
ALFRED a JSNPs jsou dvě menší databáze SNP, jejichž cílem je poskytovat přesné informace o frekvenci. JSNPs se zaměřuje na japonskou populaci, zatímco ALFRED poskytuje údaje o velkém počtu velmi různorodých populací z celého světa s cílem zvýšit jejich rozdíly ve frekvenci a usnadnit studium haplotypů . Obě stránky nabízejí relativně malý počet SNP, ale údaje o frekvenci, které k nim poskytují, jsou nesmírně důležité. JSNPs nabízí užitečný grafický prohlížeč chromozomů a možnost zobrazit stopy sekvenátorů pro své SNPS. Na druhou stranu jsou funkce exportu dat v obou systémech poněkud omezené.
Stránka GeneSNPs integruje údaje o genech, sekvencích a SNP do vysoce anotovaných modelů genů. Poskytuje rozsáhlé funkce vizualizace a exportu dat, včetně způsobu zobrazení SNP v rámci genomové sekvence genu, ke kterému patří, podobně jako je to k dispozici v systému SNPper. Oproti SNPperu je jeho hlavním omezením to, že obsahuje pouze SNP na malém počtu genů souvisejících s náchylností k expozici prostředí.
EnsMart je velmi komplexní nástroj pro dolování dat, který umožňuje extrahovat data z databáze Ensembl. Ensembl je zdaleka nejúplnější a nejpropracovanější databáze ze všech zde popsaných. Poskytuje přibližně stejný soubor datových položek o SNP jako SNPper, přičemž hlavní rozdíl spočívá v tom, že využívá vlastní databázi genů, místo aby byla propojena s databází Goldenpath. Ačkoli je jeho rozhraní velmi výkonné a efektivní, není speciálně přizpůsobeno potřebám výzkumu založeného na SNP; například neposkytuje způsoby, jak generovat sady SNP, které mají požadovaný průměrný rozestup, jak je to naopak možné u SNPper.
Vlastnosti, které jsou pro SNPper jedinečné, se týkají především správy sad SNP a jeho funkcí interoperability. SNPper je jediným zdrojem, který dává uživatelům možnost manipulovat se soubory SNPset, zpřesňovat je, ukládat a exportovat jako celek a umožňovat vytváření souborů SNPsetů prostřednictvím složitých dotazů (například pomocí tříd GeneOntology popsaných v oddíle 4.a). Podle našich znalostí je SNPper také jediným zdrojem SNP, který poskytuje úplný přístup ke své databázi ve formě strojově čitelných souborů XML prostřednictvím rozhraní Remote Procedure Call a který umožňuje uživateli nahrát do své databáze sadu soukromých SNP a analyzovat ji nebo zobrazit prostřednictvím standardního rozhraní.
.