Queries

SNPper tilbyder flere forskellige måder at hente SNP’er på, hvilket afspejler de forskellige formål, som SNP’erne kan bruges til. I det enkleste tilfælde kan SNP’er hentes ved at angive en eller flere rs eller ss-identifikatorer, hvis de er kendt. En anden almindelig forespørgsel henter et sæt sammenhængende SNP’er, der tilhører et bestemt område af et kromosom, specificeret enten ved hjælp af et absolut positionsområde eller ved hjælp af navnet på et cytogenetisk bånd. For at støtte genorienterede undersøgelser kan SNPper generere et sæt af SNP’er på eller omkring et gen (op til en brugerspecificeret maksimal afstand) eller et sæt gener. Gener kan specificeres ved hjælp af deres HUGO-navn eller gennem deres Genbank-, Locuslink-, OMIM- eller Unigene-identifikatorer. Et sæt af gener af interesse kan på sin side specificeres efter position (dvs. alle gener i et kromosomområde) eller gennem en GeneOntology-klasse. Denne sidste funktion gør det muligt at undersøge sæt af SNP’er, der potentielt er forbundet med en biologisk proces af interesse, i stedet for at være forbundet ved position.

I alle tilfælde er resultatet af en forespørgsel et SNPset, en datastruktur, der indeholder en samling af SNP’er. Der findes forskellige typer af SNPset, alt efter hvilken type forespørgsel der har frembragt dem, og der er defineret forskellige operationer på dem. For et SNPset, der indeholder sammenhængende SNP’er, giver det f.eks. mening at måle SNP-tætheden, og SNPper indeholder en funktion til at reducere antallet af SNP’er, som det indeholder, samtidig med at der opretholdes en ensartet afstand mellem dem. For et SNPset, der er genereret fra et sæt gener, ville denne funktion ikke give mening (da SNP’erne kan være spredt ud over forskellige kromosomer) og er derfor ikke tilgængelig. Generelt repræsenterer et SNPset et sæt af SNP’er, der blev produceret af en enkelt forespørgsel, og som kan manipuleres og analyseres som en helhed. SNP-sæt er kun synlige for den bruger, der har genereret dem, og er vedvarende datastrukturer: de gemmes på serveren, så længe de bruges, og fjernes automatisk, når der er gået tilstrækkelig lang tid, siden de sidst blev tilgået. Brugeren kan også vælge at gemme et SNPset, i hvilket tilfælde det vil være tilgængeligt i fremtidige sessioner.

SNP-visualisering

SNPper tilbyder flere måder at vise SNP’er på via sin webgrænseflade. Til at begynde med beskrives hver SNP individuelt på en side, der viser generelle data (SNP-identifikatorer, position, alleler, valideringsstatus), listen over indsendere, listen over gener, som den tilhører, dens frekvens i forskellige populationer (bestående af prøvestørrelsen og de store og små allelhyppigheder), hvis den er tilgængelig, og listen over proteindomæner, som SNP’en falder inden for, hvis den er tilgængelig. SNP’er, der tilhører et gen, kan vises i forbindelse med den tilsvarende DNA-sekvens eller (for kodende SNP’er) aminosyresekvens. I begge tilfælde fremhæves SNP-positionen, og et popup-vindue bruges til at vise oplysninger om den (navn, position, alleler). Figur 1 viser en annoteret gensekvens, der indeholder SNP’er, og figur 2 viser den detaljerede informationsside om en af SNP’erne i denne sekvens.

Figur 1

En annoteret gensekvens, der indeholder SNP’er. En del af sekvensen for gen F13B (på kromosom 1) er vist. Sorte områder repræsenterer exoner, mens introner er gråtonede. Nukleotidpositionerne til venstre er i forhold til den samling af det menneskelige genom, der er leveret af Goldenpath. SNP’er er angivet ved fede, understregede nukleotider, og deres dbSNP-identifikator vises til højre for sekvensen. Et pop op-vindue viser yderligere oplysninger om individuelle SNP’er: I dette eksempel vises SNP rs6003 som en valideret, ikke-synonym kodnings-SNP.

Figur 2

Detaljeretaileret informationsside for en individuel SNP. Siden er opdelt i fem afsnit. Det første indeholder generelle oplysninger om SNP’en, herunder dens identifikator, dens alleler og dens placering i det gen (eller de gener), den hører til. Den anden del beskriver de proteindomæner, som denne SNP hører til, i henhold til SWISS-PROT. Det næste afsnit indeholder en liste over alle indsendelser for denne SNP og indeholder dbSNP-identifikatoren for indsendelse, indsenderens navn og den private SNP-identifikator. Afsnittet “Tools” indeholder links til forskellige PCR-primerdesignprogrammer og til en facilitet til at eksportere de data, der vises på denne side, i XML-format. Endelig vises den flankerende sekvens for denne SNP, op til maksimalt 10 000 nukleotider.

SNP-sæt vises ved hjælp af tabeller, der angiver navnet på hver SNP, dens position, dens alleler og andre oplysninger, der afhænger af den specifikke SNP-sættetype. SNP-sæt, der indeholder et stort antal SNP’er, vises eventuelt i forkortet form af hensyn til ydeevnen. Tabellen indeholder også links til at udføre de forskellige kommandoer, der er tilgængelige for et SNPset, såsom at gemme det, eksportere det (se næste afsnit) og forædle det. Navnlig giver SNPset-forfiningsoperationen brugeren mulighed for at “filtrere” de SNP’er, som det indeholder, efter flere forskellige kriterier: generelle egenskaber (f.eks. validering), position i forhold til et gen (f.eks. for kun at vælge exoniske SNP’er eller promotor-SNP’er), frekvens eller heterozygotitet, indsendere (for kun at vælge SNP’er fra bestemte indsendere eller med et mindste antal forskellige indsendere) eller gennemsnitsafstand (for at reducere antallet af SNP’er, samtidig med at der opretholdes en ensartet afstand). I alle tilfælde er resultatet, at de SNP’er, der ikke opfylder brugerens kriterier, skjules: selv om de stadig er en del af SNP-sættet, er disse SNP’er ikke længere synlige og vil ikke blive taget i betragtning i nogen analyse-, visnings- eller eksportoperation.

Figur 3 viser endelig resultatet af en Java-applet, der kan bruges til at vise SNP-sæt i grafisk form. Genets struktur vises ved hjælp af søjler af forskellig farve og tykkelse; SNP’er identificeres ved hjælp af firkanter (hvis der foreligger frekvensoplysninger) eller cirkler (ellers) og farves i grønt, hvis de er validerede, og sort ellers. Appletten indeholder kommandoer til at rulle displayet til venstre eller højre og til at zoome displayet ind eller ud.

Figur 3

Grafisk repræsentation af et gen med de SNP’er, det indeholder. Billedet viser resultatet af en Java-applet, der viser genets struktur (exoner er blå, introner er grå) og alle SNP’er i samme region (repræsenteret ved prikker eller firkanter). Brugeren kan rulle eller zoome i visningen ved hjælp af de medfølgende knapper, eller han kan centrere visningen igen ved at klikke på den øverste del af billedet. Ved at klikke på en SNP åbnes et popup-vindue med oplysninger om den.

Dataeksport

Et af de vigtigste designmål for SNPper er at give nemme måder at eksportere SNP-data på i en række almindelige formater. SNPset-eksport-siden, vist i figur 4, giver brugeren mulighed for at vælge et vilkårligt antal felter fra de tilgængelige annotationer (herunder flankerende sekvenser, frekvensoplysninger, valideringsstatus, aminosyreændring) og for at angive det ønskede outputformat (XML, tab-delimiteret tekst, HTML eller BED) og destination (dataene kan vises i browservinduet eller sendes pr. e-mail til en adresse, som brugeren har angivet). XML er efterhånden ved at blive et standardformat for dataudveksling i biomedicinske applikationer, og det leveres i SNPper for at understøtte interoperabilitet med andre programmer. Tab-delimiteret tekst repræsenterer det enkleste strukturerede dataformat og understøttes derfor af de fleste programmer, f.eks. regneark eller PCR-primerdesignprogrammer. HTML-output giver brugerne mulighed for at vise dataene på et andet websted, f.eks. for at give supplerende oplysninger til en publikation. Endelig bruges BED-formatet til at udnytte Goldenpaths “custom tracks”-funktion: den resulterende fil kan uploades til Goldenpath-webstedet, og SNPset-dataene vil blive vist af genom-browseren i dens vindue til visning af spor.

Figur 4

Siden til eksport af SNPset. Den første del af formularen giver brugeren mulighed for at vælge det sæt annotationer, der skal eksporteres, ud af de annotationer, som SNPper tilbyder. Alle kombinationer af annotationer kan vælges, selv om nogle felter kun gælder for en delmængde af alle SNP’er (f.eks. Aminosyreændring), og nogle felter kan indeholde flere værdier (f.eks. Gen). Det andet afsnit bruges til at bestemme formatet for de eksporterede data og deres destination. Brugeren kan vælge mellem at eksportere dataene som en HTML-tabel, som en tab-delimiteret tekstfil, som et XML-dokument eller som en BED-fil. Denne sidste mulighed bruges til at uploade de eksporterede data til Goldenpath-genombrowseren som et brugerdefineret spor. Endelig kan brugeren vælge at vise den resulterende fil i browservinduet eller få den sendt pr. e-mail til en angivet adresse.

SNPper giver også en alternativ metode til at hente SNP-oplysninger i XML-format. Vores system implementerer en RPC-grænseflade (Remote Procedure Call), der gør det muligt for andre programmer at sende ad hoc HTTP-forespørgsler og modtage et XML-dokument som svar i stedet for en HTML-side . Denne funktion har til formål at øge værdien og anvendeligheden af SNPper-databasen ved at gøre det muligt at bygge alternative systemer med forskellige brugergrænseflader oven på de samme underliggende data

Sammenligning med andre SNP-ressourcer

Der findes flere andre offentlige SNP-databaser, som hver især har deres egne styrker og begrænsninger. I dette afsnit gennemgår vi kort de vigtigste af dem, idet vi påpeger deres karakteristiske træk og sammenligner dem med det, som SNPper tilbyder.

Databasen HGVBASE er fokuseret på meget præcis manuel kuratering og annotering af de tilgængelige SNP-data . Derfor er den mindre end dbSNP i størrelse, men dens data er yderst nyttige for forskere, der er interesseret i at udforske den genetiske komponent af menneskelig fænotypisk variation. Den indeholder omfattende annotationer for sine SNP’er og flere søgemuligheder, herunder muligheden for at søge efter SNP’er i en brugerleveret genomisk sekvens, der automatisk tilpasses det menneskelige genom.

ALFRED og JSNPs er to mindre SNP-databaser, der har til formål at give nøjagtige frekvensoplysninger. JSNPs fokuserer på den japanske befolkning, mens ALFRED leverer data om et stort antal meget forskellige befolkninger fra hele verden med henblik på at fremhæve deres frekvensforskelle og lette undersøgelsen af haplotyper . Begge websteder tilbyder et relativt lille antal SNP’er, men de frekvensdata, de leverer for dem, er yderst vigtige. JSNPs tilbyder en nyttig grafisk kromosombrowser og mulighed for at vise sekvenseringsspor for sine SNPS. På den anden side er dataeksportfunktionerne noget begrænsede i begge systemer.

GeneSNPs-webstedet integrerer gen-, sekvens- og SNP-data i højt annoterede genmodeller. Det giver omfattende visualiserings- og dataeksportfunktioner, herunder en måde at vise SNP’er inden for den genomiske sekvens af det gen, de tilhører, svarende til den måde, der er tilgængelig i SNPper. Sammenlignet med SNPper er dens største begrænsning, at den kun indeholder SNP’er på et lille antal gener, der er relateret til modtagelighed over for miljømæssig eksponering.

EnsMart er et meget omfattende data mining-værktøj til at udtrække data fra Ensembl-databasen. Ensembl er langt den mest udtømmende og sofistikerede database af alle de databaser, der er beskrevet her. Den indeholder omtrent det samme sæt dataelementer om SNP’er som SNPper, idet den væsentligste forskel er, at den anvender sin egen database over gener i stedet for at være knyttet til Goldenpath. Selv om dens grænseflade er meget kraftfuld og effektiv, er den ikke specielt skræddersyet til SNP-baserede forskningers behov; den giver f.eks. ikke mulighed for at generere sæt af SNP’er med en ønsket gennemsnitlig afstand, som det i stedet er muligt med SNPper.

Funktioner, der er unikke for SNPper, er hovedsagelig relateret til forvaltningen af SNPsets og til dens interoperabilitetsfunktioner. SNPper er den eneste ressource, der giver brugerne mulighed for at manipulere, forfine, gemme og eksportere SNP-sæt som helhed og for at give mulighed for at skabe sæt af SNP’er gennem komplekse forespørgsler (som f.eks. den, der anvender GeneOntology-klasser, der er beskrevet i afsnit 4.a). SNPper er også, så vidt vi ved, den eneste SNP-ressource, der giver fuld adgang til sin database som maskinlæsbare XML-filer gennem en grænseflade med Remote Procedure Call, og som giver brugeren mulighed for at uploade et sæt private SNP’er til sin database og analysere eller vise dem gennem sin standardgrænseflade.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.