Queries

SNPper offre plusieurs façons différentes de récupérer les SNP, reflétant les différents objectifs pour lesquels les SNP pourraient être utilisés. Dans le cas le plus simple, les SNP peuvent être récupérés en spécifiant un ou plusieurs identifiants rs ou ss, s’ils sont connus. Une autre requête courante permet de récupérer un ensemble de SNP contigus appartenant à une région spécifique d’un chromosome, spécifiée soit par une plage de positions absolues, soit par le nom d’une bande cytogénétique. Pour soutenir les études orientées vers les gènes, SNPper peut générer l’ensemble des SNP sur ou autour d’un gène (jusqu’à une distance maximale spécifiée par l’utilisateur), ou un ensemble de gènes. Les gènes peuvent être spécifiés à l’aide de leur nom HUGO, ou de leurs identifiants Genbank, Locuslink, OMIM, ou Unigene. Un ensemble de gènes d’intérêt, à son tour, peut être spécifié par position (c’est-à-dire tous les gènes d’une région chromosomique), ou par une classe GeneOntology. Cette dernière caractéristique permet d’étudier des ensembles de SNP qui sont potentiellement associés à un processus biologique d’intérêt, plutôt que d’être liés par la position.

Dans tous les cas, le résultat d’une requête est un SNPset, une structure de données qui contient une collection de SNP. Il existe différents types de SNPset, selon le type de requête qui les a produits, et différentes opérations sont définies sur eux. Par exemple, pour un SNPset contenant des SNP contigus, il est logique de mesurer la densité de SNP, et SNPper fournit une fonction pour réduire le nombre de SNP qu’il contient tout en maintenant un espacement uniforme. Pour un SNPset généré à partir d’un ensemble de gènes, cette opération n’aurait pas de sens (puisque les SNP peuvent être répartis sur différents chromosomes) et n’est donc pas disponible. En général, un SNPset représente un ensemble de SNP qui a été produit par une seule requête, et qui peut être manipulé et analysé comme un tout. Les SNPets ne sont visibles que par l’utilisateur qui les a générés, et sont des structures de données persistantes : ils sont stockés dans le serveur aussi longtemps qu’ils sont utilisés, et sont automatiquement supprimés après un laps de temps suffisant depuis leur dernier accès. L’utilisateur peut également choisir d’enregistrer un SNPset, auquel cas il sera disponible dans les sessions futures.

Visualisation des SNP

SNPper fournit plusieurs façons d’afficher les SNP à travers son interface web. Pour commencer, chaque SNP est décrit individuellement dans une page qui affiche les données générales (identifiants du SNP, position, allèles, statut de validation), sa liste de soumissionnaires, la liste des gènes auxquels il appartient, sa fréquence dans différentes populations (constituée de la taille de l’échantillon et des fréquences des allèles majeurs et mineurs) si elle est disponible, et la liste des domaines protéiques dans lesquels le SNP tombe, le cas échéant. Les SNP qui appartiennent à un gène peuvent être affichés dans le contexte de la séquence d’ADN correspondante ou (pour les SNP codants) de la séquence d’acides aminés. Dans les deux cas, la position du SNP est mise en évidence et une fenêtre popup est utilisée pour afficher les informations le concernant (nom, position, allèles). La figure 1 montre une séquence génique annotée contenant des SNP, et la figure 2 montre la page d’informations détaillées sur l’un des SNP de cette séquence.

Figure 1

Une séquence génique annotée contenant des SNP. Une partie de la séquence du gène F13B (sur le chromosome 1) est représentée. Les zones noires représentent les exons, tandis que les introns sont en gris. Les positions des nucléotides à gauche sont relatives à l’assemblage du génome humain fourni par Goldenpath. Les SNP sont indiqués par des nucléotides en gras et soulignés, et leur identifiant dbSNP apparaît à droite de la séquence. Une fenêtre contextuelle affiche des informations supplémentaires sur les SNP individuels : dans cet exemple, le SNP rs6003 est montré comme étant un SNP codant validé et non synonyme.

Figure 2

Page d’informations détaillées pour un SNP individuel. La page est divisée en cinq sections. La première contient des informations générales sur le SNP, notamment son identifiant, ses allèles et sa position dans le gène (ou les gènes) auquel il appartient. La deuxième partie décrit les domaines protéiques auxquels ce SNP appartient, selon SWISS-PROT. La section suivante énumère toutes les soumissions pour ce SNP, et fournit l’identifiant de soumission dbSNP, le nom de l’auteur de la soumission et l’identifiant privé du SNP. La section « Outils » contient des liens vers divers programmes de conception d’amorces PCR et vers une fonction permettant d’exporter les données présentées sur cette page au format XML. Enfin, la séquence flanquante de ce SNP est affichée, jusqu’à un maximum de 10 000 nucléotides.

Les SNPets sont affichés à l’aide de tableaux qui listent le nom de chaque SNP, sa position, ses allèles, et d’autres informations dépendant du type spécifique de SNPset. Les SNPets qui contiennent un grand nombre de SNP sont éventuellement affichés sous forme abrégée pour des raisons de performance. Le tableau contient également des liens permettant d’exécuter les différentes commandes disponibles sur un SNPset, telles que l’enregistrer, l’exporter (voir section suivante) et l’affiner. L’opération de raffinement d’un SNPset, en particulier, permet à l’utilisateur de « filtrer » les SNP qu’il contient selon plusieurs critères différents : propriétés générales (par exemple la validation), position par rapport à un gène (par exemple pour ne sélectionner que les SNP exoniques, ou les SNP promoteurs), fréquence ou hétérozygotie, soumissionnaires (pour ne sélectionner que les SNP de soumissionnaires spécifiés, ou avec un nombre minimum de soumissionnaires distincts), ou distance moyenne (afin de réduire le nombre de SNP tout en maintenant un espacement uniforme). Dans tous les cas, le résultat est de masquer les SNP qui ne satisfont pas aux critères de l’utilisateur : bien que faisant toujours partie du SNPset, ces SNP ne sont plus visibles, et ne seront pas pris en compte dans toute opération d’analyse, d’affichage ou d’exportation.

Enfin, la figure 3 montre la sortie d’une applet Java qui peut être utilisée pour afficher les SNPets sous forme graphique. La structure du gène est représentée à l’aide de barres de différentes couleurs et épaisseurs ; les SNPs sont identifiés par des carrés (si l’information sur la fréquence est disponible) ou des cercles (sinon), et sont colorés en vert s’ils sont validés, en noir sinon. L’applet fournit des commandes pour faire défiler l’affichage à gauche ou à droite, et pour le zoomer en avant ou en arrière.

Figure 3

Représentation graphique d’un gène avec les SNP qu’il contient. L’image montre la sortie d’une applet Java affichant la structure du gène (les exons sont en bleu, les introns en gris) et tous les SNP de la même région (représentés par des points ou des carrés). L’utilisateur peut faire défiler ou zoomer l’affichage en utilisant les boutons fournis, ou recentrer l’affichage en cliquant sur la partie supérieure de l’image. Cliquer sur un SNP ouvre une fenêtre pop-up contenant des informations à son sujet.

Exportation de données

L’un des objectifs de conception les plus importants de SNPper est de fournir des moyens faciles d’exporter des données SNP dans une variété de formats courants. La page d’exportation de SNPset, présentée à la figure 4, permet à l’utilisateur de choisir un nombre quelconque de champs parmi les annotations disponibles (y compris les séquences flanquantes, les informations sur la fréquence, le statut de validation, le changement d’acide aminé), et de spécifier le format de sortie souhaité (XML, texte délimité par des tabulations, HTML ou BED) et la destination (les données peuvent être affichées dans la fenêtre du navigateur ou envoyées par courrier électronique à une adresse fournie par l’utilisateur). XML devient progressivement un format standard pour l’échange de données dans les applications biomédicales, et est fourni dans SNPper pour soutenir l’interopérabilité avec d’autres programmes. Le texte délimité par des tabulations représente le format de données structuré le plus simple, et est donc pris en charge par la plupart des applications, telles que les tableurs ou les programmes de conception d’amorces PCR. La sortie HTML permet aux utilisateurs d’afficher les données sur un autre site web, par exemple pour fournir des informations supplémentaires pour une publication. Enfin, le format BED est utilisé pour exploiter la fonction « pistes personnalisées » de Goldenpath : le fichier résultant peut être téléchargé sur le site de Goldenpath, et les données SNPset seront affichées par le navigateur de génome dans sa fenêtre d’affichage des pistes.

Figure 4

La page d’exportation SNPset. La première partie du formulaire permet à l’utilisateur de sélectionner l’ensemble des annotations à exporter, parmi celles proposées par SNPper. Toutes les combinaisons d’annotations peuvent être sélectionnées, bien que certains champs ne soient applicables qu’à un sous-ensemble de tous les SNP (par exemple, changement d’acide aminé), et que certains champs puissent contenir plusieurs valeurs (par exemple, Gène). La deuxième section est utilisée pour déterminer le format des données exportées et leur destination. L’utilisateur peut choisir d’exporter les données sous la forme d’un tableau HTML, d’un fichier texte délimité par des tabulations, d’un document XML ou d’un fichier BED. Cette dernière option est utilisée pour télécharger les données exportées vers le navigateur de génome Goldenpath, comme une piste personnalisée. Enfin, l’utilisateur peut choisir d’afficher le fichier résultant dans la fenêtre du navigateur, ou de le faire envoyer par courriel à une adresse spécifiée.

SNPper fournit également une méthode alternative pour récupérer les informations SNP au format XML. Notre système met en œuvre une interface RPC (Remote Procedure Call), qui permet à d’autres programmes d’envoyer des requêtes HTTP ad hoc et de recevoir en réponse un document XML plutôt qu’une page HTML . Cette fonctionnalité est destinée à augmenter la valeur et l’utilité de la base de données SNPper, en permettant à des systèmes alternatifs utilisant différentes interfaces utilisateur d’être construits sur les mêmes données sous-jacentes

Comparaison avec d’autres ressources SNP

Plusieurs autres bases de données SNP publiques existent, chacune avec ses propres forces et limites. Dans cette section, nous passons brièvement en revue les plus importantes, en soulignant leurs traits caractéristiques et en les comparant avec ce qui est offert par SNPper.

La base de données HGVBASE est axée sur une curation et une annotation manuelles très précises des données SNP disponibles . Par conséquent, elle est plus petite que dbSNP en taille, mais ses données sont extrêmement utiles pour les chercheurs intéressés par l’exploration de la composante génétique de la variation phénotypique humaine. Elle fournit des annotations étendues pour ses SNP, et plusieurs options de recherche, y compris la possibilité de rechercher des SNP dans une séquence génomique fournie par l’utilisateur qui est automatiquement alignée sur le génome humain.

ALFRED et JSNPs sont deux bases de données SNP plus petites qui visent à fournir des informations précises sur la fréquence. JSNPs se concentre sur la population japonaise, tandis qu’ALFRED fournit des données sur un grand nombre de populations très diverses du monde entier afin de mettre en valeur leurs différences de fréquence et de faciliter l’étude des haplotypes . Les deux sites proposent un nombre relativement faible de SNP, mais les données de fréquence qu’ils fournissent pour ceux-ci sont extrêmement importantes. JSNPs offre un navigateur chromosomique graphique utile et la possibilité d’afficher les traces du séquenceur pour ses SNP. En revanche, les fonctionnalités d’exportation de données sont quelque peu limitées dans les deux systèmes.

Le site GeneSNPs intègre des données sur les gènes, les séquences et les SNP dans des modèles de gènes hautement annotés. Il offre des fonctions étendues de visualisation et d’exportation de données, y compris une façon d’afficher les SNP dans la séquence génomique du gène auquel ils appartiennent, similaire à celle disponible dans SNPper. Par rapport à SNPper, sa principale limitation est qu’il ne contient que des SNP sur un petit nombre de gènes liés à la susceptibilité à l’exposition environnementale.

EnsMart est un outil d’exploration de données très complet pour extraire des données de la base de données Ensembl. Ensembl est de loin la base de données la plus exhaustive et la plus sophistiquée de toutes celles décrites ici. Elle fournit approximativement le même ensemble de données sur les SNP que SNPper, la principale différence étant qu’elle utilise sa propre base de données de gènes plutôt que d’être liée à Goldenpath. Bien que son interface soit très puissante et efficace, elle n’est pas spécifiquement adaptée aux besoins de la recherche basée sur les SNP ; par exemple, elle ne fournit pas de moyens de générer des ensembles de SNP ayant un espacement moyen désiré, comme cela est au contraire possible avec SNPper.

Les caractéristiques qui sont uniques à SNPper sont principalement liées à la gestion des SNPsets et à ses caractéristiques d’interopérabilité. SNPper est la seule ressource donnant aux utilisateurs la possibilité de manipuler, d’affiner, de sauvegarder et d’exporter des SNPsets dans leur ensemble, et de permettre la création d’ensembles de SNPs par des requêtes complexes (comme celle utilisant les classes de GeneOntology décrite dans la section 4.a). De plus, à notre connaissance, SNPper est la seule ressource SNP qui fournit un accès complet à sa base de données sous forme de fichiers XML lisibles par machine via une interface Remote Procedure Call, et qui permet à l’utilisateur de télécharger un ensemble de SNP privés dans sa base de données et de les analyser ou de les afficher via son interface standard.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.