Abfragen

SNPper bietet verschiedene Möglichkeiten, SNPs abzurufen, die die unterschiedlichen Zwecke widerspiegeln, für die die SNPs verwendet werden könnten. Im einfachsten Fall können SNPs durch die Angabe eines oder mehrerer rs- oder ss-Identifikatoren, sofern bekannt, abgerufen werden. Eine andere häufige Abfrage ist die Suche nach einer Reihe zusammenhängender SNPs, die zu einer bestimmten Region eines Chromosoms gehören, die entweder durch einen absoluten Positionsbereich oder durch den Namen einer zytogenetischen Bande angegeben wird. Zur Unterstützung genorientierter Studien kann SNPper die Menge der SNPs auf oder um ein Gen (bis zu einem vom Benutzer angegebenen maximalen Abstand) oder eine Menge von Genen erzeugen. Gene können über ihren HUGO-Namen oder über ihre Genbank-, Locuslink-, OMIM- oder Unigene-Identifikatoren angegeben werden. Eine Gruppe von Genen, die von Interesse sind, kann wiederum durch ihre Position (d. h. alle Gene in einer Chromosomenregion) oder durch eine GeneOntology-Klasse spezifiziert werden. Letzteres ermöglicht die Untersuchung von SNP-Sätzen, die potenziell mit einem biologischen Prozess von Interesse verbunden sind und nicht über die Position verknüpft sind.

In allen Fällen ist das Ergebnis einer Abfrage ein SNPset, eine Datenstruktur, die eine Sammlung von SNPs enthält. Es gibt verschiedene Arten von SNPsets, je nach der Art der Abfrage, die sie erzeugt hat, und es sind verschiedene Operationen für sie definiert. Für ein SNPset, das zusammenhängende SNPs enthält, ist es zum Beispiel sinnvoll, die SNP-Dichte zu messen, und SNPper bietet eine Funktion, um die Anzahl der enthaltenen SNPs zu reduzieren und gleichzeitig einen gleichmäßigen Abstand beizubehalten. Für ein SNPset, das aus einem Satz von Genen generiert wurde, wäre dieser Vorgang nicht sinnvoll (da die SNPs auf verschiedenen Chromosomen verteilt sein können) und ist daher nicht verfügbar. Im Allgemeinen stellt ein SNPset einen Satz von SNPs dar, der durch eine einzige Abfrage erzeugt wurde und der als Ganzes manipuliert und analysiert werden kann. SNP-Sets sind nur für den Benutzer sichtbar, der sie erzeugt hat, und sind persistente Datenstrukturen: Sie werden auf dem Server gespeichert, solange sie verwendet werden, und werden automatisch gelöscht, wenn seit dem letzten Zugriff eine ausreichende Zeitspanne vergangen ist. Der Benutzer kann ein SNPset auch speichern, so dass es in zukünftigen Sitzungen wieder zur Verfügung steht.

SNP-Visualisierung

SNPper bietet mehrere Möglichkeiten, SNPs über seine Webschnittstelle darzustellen. Zunächst wird jeder SNP einzeln auf einer Seite beschrieben, die allgemeine Daten (SNP-Identifikatoren, Position, Allele, Validierungsstatus), die Liste der Einreicher, die Liste der Gene, zu denen er gehört, seine Häufigkeit in verschiedenen Populationen (bestehend aus der Stichprobengröße und den Haupt- und Nebenallelhäufigkeiten), falls verfügbar, und die Liste der Proteindomänen, in die der SNP fällt, falls vorhanden, anzeigt. SNPs, die zu einem Gen gehören, können im Zusammenhang mit der entsprechenden DNA-Sequenz oder (bei kodierenden SNPs) Aminosäuresequenz angezeigt werden. In beiden Fällen wird die SNP-Position hervorgehoben, und in einem Popup-Fenster werden Informationen über den SNP angezeigt (Name, Position, Allele). Abbildung 1 zeigt eine annotierte Gensequenz, die SNPs enthält, und Abbildung 2 zeigt die detaillierte Informationsseite über einen der SNPs in dieser Sequenz.

Abbildung 1

Eine annotierte Gensequenz, die SNPs enthält. Dargestellt ist ein Teil der Sequenz für das Gen F13B (auf Chromosom 1). Schwarze Bereiche stellen Exons dar, während Introns grau dargestellt sind. Die Nukleotidpositionen auf der linken Seite beziehen sich auf das von Goldenpath bereitgestellte menschliche Genom. SNPs sind durch fettgedruckte, unterstrichene Nukleotide gekennzeichnet, und ihr dbSNP-Identifikator erscheint rechts neben der Sequenz. In einem Pop-up-Fenster werden zusätzliche Informationen über einzelne SNPs angezeigt: In diesem Beispiel ist der SNP rs6003 ein validierter, nicht-synonymer kodierender SNP.

Abbildung 2

Detailinformationsseite für einen einzelnen SNP. Die Seite ist in fünf Abschnitte unterteilt. Der erste Abschnitt enthält allgemeine Informationen über den SNP, einschließlich seines Identifikators, seiner Allele und seiner Position in dem Gen (oder den Genen), zu dem er gehört. Der zweite Teil beschreibt die Proteindomänen, zu denen dieser SNP laut SWISS-PROT gehört. Der nächste Abschnitt listet alle Einreichungen für diesen SNP auf und enthält den dbSNP Submission Identifier, den Namen des Einreichers und den privaten SNP Identifier. Der Abschnitt „Tools“ enthält Links zu verschiedenen PCR-Primer-Design-Programmen und zu einer Möglichkeit, die auf dieser Seite angezeigten Daten im XML-Format zu exportieren. Schließlich wird die flankierende Sequenz für diesen SNP angezeigt, bis zu einem Maximum von 10.000 Nukleotiden.

SNPsets werden mit Hilfe von Tabellen angezeigt, die den Namen jedes SNP, seine Position, seine Allele und andere Informationen auflisten, die vom spezifischen SNPset-Typ abhängen. SNPsets, die eine große Anzahl von SNPs enthalten, werden aus Leistungsgründen optional in verkürzter Form angezeigt. Die Tabelle enthält auch Links zu den verschiedenen Befehlen, die für ein SNPset zur Verfügung stehen, wie Speichern, Exportieren (siehe nächster Abschnitt) und Verfeinern. Die SNPset-Verfeinerung ermöglicht es dem Benutzer, die darin enthaltenen SNPs nach verschiedenen Kriterien zu „filtern“: allgemeine Eigenschaften (z. B. Validierung), Position in Bezug auf ein Gen (z. B. um nur exonische SNPs oder Promotor-SNPs auszuwählen), Häufigkeit oder Heterozygotie, Übermittler (um nur SNPs von bestimmten Übermittlern oder mit einer Mindestanzahl verschiedener Übermittler auszuwählen) oder durchschnittlicher Abstand (um die Anzahl der SNPs zu reduzieren und gleichzeitig einen einheitlichen Abstand beizubehalten). In allen Fällen führt dies dazu, dass die SNPs, die die Kriterien des Benutzers nicht erfüllen, ausgeblendet werden: Sie sind zwar immer noch Teil des SNP-Sets, aber nicht mehr sichtbar und werden bei keiner Analyse, Anzeige oder Exportoperation berücksichtigt.

Abbildung 3 zeigt schließlich die Ausgabe eines Java-Applets, mit dem SNPsets grafisch dargestellt werden können. Die Struktur des Gens wird durch Balken unterschiedlicher Farbe und Dicke dargestellt; SNPs werden durch Quadrate (wenn Häufigkeitsinformationen verfügbar sind) oder Kreise (andernfalls) identifiziert und sind grün gefärbt, wenn sie validiert sind, ansonsten schwarz. Das Applet bietet Befehle zum Scrollen der Anzeige nach links oder rechts und zum Vergrößern oder Verkleinern der Anzeige.

Abbildung 3

Grafische Darstellung eines Gens mit den darin enthaltenen SNPs. Das Bild zeigt die Ausgabe eines Java-Applets, das die Genstruktur (Exons in blau, Introns in grau) und alle SNPs in derselben Region (dargestellt durch Punkte oder Quadrate) anzeigt. Der Benutzer kann die Anzeige mit den mitgelieferten Schaltflächen scrollen oder zoomen oder die Anzeige durch Klicken auf den oberen Teil des Bildes neu zentrieren. Ein Klick auf einen SNP öffnet ein Pop-up-Fenster mit Informationen zu diesem SNP.

Datenexport

Eines der wichtigsten Design-Ziele von SNPper ist es, einfache Möglichkeiten für den Export von SNP-Daten in einer Vielzahl von gängigen Formaten zu bieten. Auf der in Abbildung 4 gezeigten Seite für den SNPset-Export kann der Benutzer eine beliebige Anzahl von Feldern aus den verfügbaren Annotationen auswählen (einschließlich flankierender Sequenzen, Häufigkeitsinformationen, Validierungsstatus, Aminosäureänderungen) und das gewünschte Ausgabeformat (XML, tabulatorgetrennter Text, HTML oder BED) sowie das Ziel angeben (die Daten können im Browserfenster angezeigt oder per E-Mail an eine vom Benutzer angegebene Adresse gesendet werden). XML entwickelt sich allmählich zu einem Standardformat für den Datenaustausch in biomedizinischen Anwendungen und wird in SNPper bereitgestellt, um die Interoperabilität mit anderen Programmen zu unterstützen. Tabulatorgetrennter Text stellt das einfachste strukturierte Datenformat dar und wird daher von den meisten Anwendungen, wie Tabellenkalkulationen oder PCR-Primer-Design-Programmen, unterstützt. Die HTML-Ausgabe ermöglicht es den Benutzern, die Daten auf einer anderen Website anzuzeigen, um beispielsweise zusätzliche Informationen für eine Veröffentlichung bereitzustellen. Schließlich wird das BED-Format verwendet, um die „Custom Tracks“-Funktion von Goldenpath zu nutzen: Die resultierende Datei kann auf die Goldenpath-Website hochgeladen werden, und die SNPset-Daten werden vom Genombrowser in seinem Track-Anzeigefenster angezeigt.

Abbildung 4

Die SNPset-Exportseite. Im ersten Teil des Formulars kann der Benutzer aus den von SNPper angebotenen Annotationen das zu exportierende Annotationsset auswählen. Es können alle Kombinationen von Annotationen ausgewählt werden, obwohl einige Felder nur auf eine Teilmenge aller SNPs anwendbar sind (z. B. Aminosäureänderung) und einige Felder mehrere Werte enthalten können (z. B. Gen). Im zweiten Abschnitt wird das Format der exportierten Daten und ihr Ziel festgelegt. Der Benutzer kann wählen, ob er die Daten als HTML-Tabelle, als Tabulator-getrennte Textdatei, als XML-Dokument oder als BED-Datei exportieren möchte. Die letzte Option wird verwendet, um die exportierten Daten als benutzerdefinierte Spur in den Goldenpath-Genombrowser hochzuladen. Schließlich kann der Benutzer wählen, ob er die resultierende Datei im Browserfenster anzeigen oder per E-Mail an eine bestimmte Adresse senden möchte.

SNPper bietet auch eine alternative Methode zum Abrufen von SNP-Informationen im XML-Format. Unser System implementiert eine Remote Procedure Call (RPC)-Schnittstelle, die es anderen Programmen ermöglicht, Ad-hoc-HTTP-Anfragen zu senden und als Antwort ein XML-Dokument anstelle einer HTML-Seite zu erhalten. Diese Funktion soll den Wert und die Nützlichkeit der SNPper-Datenbank erhöhen, indem alternative Systeme mit unterschiedlichen Benutzeroberflächen auf denselben zugrunde liegenden Daten aufgebaut werden können

Vergleich mit anderen SNP-Ressourcen

Es gibt mehrere andere öffentliche SNP-Datenbanken, jede mit ihren eigenen Stärken und Einschränkungen. In diesem Abschnitt werden die wichtigsten Datenbanken kurz vorgestellt, ihre charakteristischen Merkmale hervorgehoben und mit dem Angebot von SNPper verglichen.

Die HGVBASE-Datenbank konzentriert sich auf eine sehr genaue manuelle Kuratierung und Annotation der verfügbaren SNP-Daten. Sie ist daher kleiner als dbSNP, aber ihre Daten sind äußerst nützlich für Forscher, die an der Erforschung der genetischen Komponente der phänotypischen Variation des Menschen interessiert sind. Sie bietet umfangreiche Anmerkungen zu ihren SNPs und mehrere Suchoptionen, darunter die Möglichkeit, nach SNPs in einer vom Benutzer bereitgestellten genomischen Sequenz zu suchen, die automatisch an das menschliche Genom angeglichen wird.

ALFRED und JSNPs sind zwei kleinere SNP-Datenbanken, die genaue Häufigkeitsinformationen liefern sollen. JSNPs konzentriert sich auf die japanische Bevölkerung, während ALFRED Daten zu einer großen Anzahl sehr unterschiedlicher Populationen aus der ganzen Welt bereitstellt, um die Unterschiede in der Häufigkeit zu vergrößern und die Untersuchung von Haplotypen zu erleichtern. Beide Websites bieten eine relativ kleine Anzahl von SNPs an, aber die Häufigkeitsdaten, die sie für sie bereitstellen, sind äußerst wichtig. JSNPs bietet einen nützlichen grafischen Chromosomenbrowser und die Möglichkeit, Sequenzierspuren für seine SNPS anzuzeigen. Andererseits sind die Datenexportfunktionen in beiden Systemen etwas eingeschränkt.

Die GeneSNPs-Site integriert Gen-, Sequenz- und SNP-Daten in stark annotierte Genmodelle. Sie bietet umfangreiche Visualisierungs- und Datenexportfunktionen, einschließlich einer Möglichkeit zur Anzeige von SNPs innerhalb der genomischen Sequenz des Gens, zu dem sie gehören, ähnlich der in SNPper verfügbaren. Im Vergleich zu SNPper besteht seine größte Einschränkung darin, dass es nur SNPs auf einer kleinen Anzahl von Genen enthält, die mit der Anfälligkeit für Umwelteinflüsse zusammenhängen.

EnsMart ist ein sehr umfassendes Data-Mining-Tool zur Extraktion von Daten aus der Ensembl-Datenbank. Ensembl ist bei weitem die umfangreichste und anspruchsvollste Datenbank von allen hier beschriebenen. Sie bietet ungefähr die gleiche Menge an Datenelementen zu SNPs wie SNPper, mit dem Hauptunterschied, dass sie ihre eigene Gendatenbank verwendet und nicht mit Goldenpath verknüpft ist. Obwohl seine Schnittstelle sehr leistungsfähig und effektiv ist, ist sie nicht speziell auf die Bedürfnisse der SNP-basierten Forschung zugeschnitten; zum Beispiel bietet sie keine Möglichkeiten, SNP-Sets mit einem gewünschten durchschnittlichen Abstand zu generieren, wie es mit SNPper möglich ist.

Einzigartige Eigenschaften von SNPper beziehen sich hauptsächlich auf die Verwaltung von SNPsets und auf seine Interoperabilitätsfunktionen. SNPper ist die einzige Ressource, die es den Nutzern ermöglicht, SNPsets als Ganzes zu bearbeiten, zu verfeinern, zu speichern und zu exportieren sowie SNPsets durch komplexe Abfragen zu erstellen (wie die in Abschnitt 4.a beschriebene Abfrage mit GeneOntology-Klassen). Außerdem ist SNPper unseres Wissens nach die einzige SNP-Ressource, die einen vollständigen Zugriff auf ihre Datenbank in Form von maschinenlesbaren XML-Dateien über eine Remote Procedure Call-Schnittstelle bietet und es dem Benutzer ermöglicht, einen Satz privater SNPs in ihre Datenbank hochzuladen und sie über ihre Standardschnittstelle zu analysieren oder anzuzeigen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.