Consultas

SNPper ofrece varias formas diferentes de recuperar los SNP, reflejando los diferentes propósitos para los que los SNP podrían ser utilizados. En el caso más sencillo, los SNP pueden recuperarse especificando uno o más identificadores rs o ss, si se conocen. Otra consulta común recupera un conjunto de SNPs contiguos pertenecientes a una región específica de un cromosoma, especificada ya sea a través de un rango de posición absoluta o a través del nombre de una banda citogenética. Para apoyar los estudios orientados a los genes, SNPper puede generar el conjunto de SNPs en o alrededor de un gen (hasta una distancia máxima especificada por el usuario), o un conjunto de genes. Los genes pueden ser especificados usando su nombre HUGO, o a través de sus identificadores Genbank, Locuslink, OMIM, o Unigene. Un conjunto de genes de interés, a su vez, puede especificarse por posición (es decir, todos los genes de una región cromosómica), o a través de una clase GeneOntology. Esta última característica permite estudiar conjuntos de SNPs que están potencialmente asociados a un proceso biológico de interés, en lugar de estar vinculados por posición.

En todos los casos, el resultado de una consulta es un SNPset, una estructura de datos que contiene una colección de SNPs. Existen diferentes tipos de SNPset, según el tipo de consulta que los produjo, y se definen diferentes operaciones sobre ellos. Por ejemplo, para un SNPset que contiene SNPs contiguos tiene sentido medir la densidad de SNPs, y SNPper proporciona una función para reducir el número de SNPs que contiene manteniendo un espaciado uniforme. Para un SNPset generado a partir de un conjunto de genes, esta operación no tendría sentido (ya que los SNPs pueden estar repartidos en diferentes cromosomas) y por lo tanto no está disponible. En general, un SNPset representa un conjunto de SNPs que fue producido por una sola consulta, y que puede ser manipulado y analizado como un todo. Los SNPsets sólo son visibles para el usuario que los generó, y son estructuras de datos persistentes: se almacenan en el servidor mientras se utilizan, y se eliminan automáticamente después de que haya pasado un tiempo suficiente desde que se accedió a ellos por última vez. El usuario también puede optar por guardar un SNPset, en cuyo caso estará disponible en futuras sesiones.

Visualización de SNP

SNPper proporciona múltiples formas de mostrar los SNP a través de su interfaz web. Para empezar, cada SNP se describe individualmente en una página que muestra los datos generales (identificadores del SNP, posición, alelos, estado de validación), su lista de remitentes, la lista de genes a los que pertenece, su frecuencia en diferentes poblaciones (consistente en el tamaño de la muestra y las frecuencias alélicas mayor y menor) si está disponible, y la lista de dominios proteicos en los que se encuentra el SNP, si los hay. Los SNP que pertenecen a un gen pueden mostrarse en el contexto de la correspondiente secuencia de ADN o (para los SNP codificantes) de aminoácidos. En ambos casos, se resalta la posición del SNP y se utiliza una ventana emergente para mostrar información sobre él (nombre, posición, alelos). La Figura 1 muestra una secuencia genética anotada que contiene SNPs, y la Figura 2 muestra la página de información detallada sobre uno de los SNPs de esa secuencia.

Figura 1

Una secuencia genética anotada que contiene SNPs. Se muestra una parte de la secuencia del gen F13B (en el cromosoma 1). Las áreas negras representan los exones, mientras que los intrones están en gris. Las posiciones de los nucleótidos a la izquierda son relativas al ensamblaje del genoma humano proporcionado por Goldenpath. Los SNPs se indican con nucleótidos subrayados en negrita, y su identificador dbSNP aparece a la derecha de la secuencia. Una ventana emergente muestra información adicional sobre SNPs individuales: en este ejemplo, el SNP rs6003 se muestra como un SNP codificador no sinónimo validado.

Figura 2

Página de información detallada para un SNP individual. La página se divide en cinco secciones. La primera contiene información general sobre el SNP, incluyendo su identificador, sus alelos y su posición en el gen (o genes) al que pertenece. La segunda sección describe los dominios proteicos a los que pertenece este SNP, según SWISS-PROT. La siguiente sección enumera todos los envíos de este SNP, y proporciona el identificador de envío de dbSNP, el nombre del remitente y el identificador privado del SNP. La sección «Herramientas» contiene enlaces a varios programas de diseño de cebadores de PCR, y a una función para exportar los datos mostrados en esta página en formato XML. Por último, se muestra la secuencia de flanqueo de este SNP, hasta un máximo de 10.000 nucleótidos.

Los SNPets se muestran mediante tablas que enumeran el nombre de cada SNP, su posición, sus alelos y otra información que depende del tipo de SNPset específico. Los SNPsets que contienen un gran número de SNPs se muestran opcionalmente de forma abreviada por razones de rendimiento. La tabla también contiene enlaces para realizar los diferentes comandos disponibles en un SNPset, como guardarlo, exportarlo (véase la siguiente sección) y refinarlo. La operación de refinamiento del SNPset, en particular, permite al usuario «filtrar» los SNPs que contiene según varios criterios diferentes: propiedades generales (por ejemplo, validación), posición relativa a un gen (por ejemplo, para seleccionar sólo SNPs exónicos, o SNPs promotores), frecuencia o heterocigosidad, remitentes (para seleccionar sólo SNPs de remitentes especificados, o con un número mínimo de remitentes distintos), o distancia media (para reducir el número de SNPs manteniendo un espaciado uniforme). En todos los casos, el resultado es ocultar aquellos SNPs que no satisfacen los criterios del usuario: aunque siguen formando parte del SNPset, estos SNPs ya no son visibles, y no se tendrán en cuenta en ninguna operación de análisis, visualización o exportación.

Por último, la Figura 3 muestra la salida de un applet de Java que puede utilizarse para mostrar los SNPsets en forma gráfica. La estructura del gen se muestra mediante barras de diferentes colores y grosores; los SNPs se identifican mediante cuadrados (si se dispone de información sobre la frecuencia) o círculos (en caso contrario), y se colorean en verde si están validados, y en negro en caso contrario. El applet proporciona comandos para desplazar la pantalla a la izquierda o a la derecha, y para acercar o alejar la pantalla.

Figura 3

Representación gráfica de un gen con los SNPs que contiene. La imagen muestra la salida de un applet de Java que muestra la estructura del gen (los exones están en azul, los intrones en gris) y todos los SNPs en la misma región (representados por puntos o cuadrados). El usuario puede desplazarse o ampliar la pantalla utilizando los botones suministrados, o recentrar la pantalla haciendo clic en la parte superior de la imagen. Al hacer clic en un SNP se abre una ventana emergente con información sobre el mismo.

Exportación de datos

Uno de los objetivos de diseño más importantes de SNPper es proporcionar formas fáciles de exportar los datos de SNP en una variedad de formatos comunes. La página de exportación de SNPset, mostrada en la Figura 4, permite al usuario elegir cualquier número de campos de las anotaciones disponibles (incluyendo secuencias flanqueantes, información de frecuencia, estado de validación, cambio de aminoácidos), y especificar el formato de salida deseado (XML, texto delimitado por tabulaciones, HTML o BED) y el destino (los datos pueden mostrarse en la ventana del navegador o enviarse por correo electrónico a una dirección proporcionada por el usuario). XML se está convirtiendo gradualmente en un formato estándar para el intercambio de datos en aplicaciones biomédicas, y se proporciona en SNPper para apoyar la interoperabilidad con otros programas. El texto delimitado por tabulaciones representa el formato de datos estructurados más simple, y por lo tanto es soportado por la mayoría de las aplicaciones, tales como hojas de cálculo o programas de diseño de cebadores PCR. La salida HTML permite a los usuarios mostrar los datos en un sitio web diferente, por ejemplo para proporcionar información complementaria para una publicación. Finalmente, el formato BED se utiliza para explotar la función de «pistas personalizadas» de Goldenpath: el archivo resultante puede cargarse en el sitio de Goldenpath, y los datos del SNPset serán mostrados por el navegador del genoma en su ventana de visualización de pistas.

Figura 4

La página de exportación del SNPset. La primera parte del formulario permite al usuario seleccionar el conjunto de anotaciones a exportar, de entre las que ofrece SNPper. Pueden seleccionarse todas las combinaciones de anotaciones, aunque algunos campos sólo son aplicables a un subconjunto de todos los SNP (por ejemplo, Cambio de aminoácidos), y algunos campos pueden contener múltiples valores (por ejemplo, Gen). La segunda sección se utiliza para determinar el formato de los datos exportados y su destino. El usuario puede elegir entre exportar los datos como una tabla HTML, como un archivo de texto delimitado por tabulaciones, como un documento XML o como un archivo BED. Esta última opción se utiliza para cargar los datos exportados en el navegador del genoma Goldenpath, como una pista personalizada. Finalmente, el usuario puede elegir entre mostrar el archivo resultante en la ventana del navegador, o hacer que se envíe por correo electrónico a una dirección especificada.

SNPper también proporciona un método alternativo para recuperar información de SNP en formato XML. Nuestro sistema implementa una interfaz de Llamada a Procedimiento Remoto (RPC), que permite a otros programas enviar peticiones HTTP ad hoc y recibir como respuesta un documento XML en lugar de una página HTML. Esta característica pretende aumentar el valor y la utilidad de la base de datos SNPper, permitiendo que sistemas alternativos que utilizan diferentes interfaces de usuario se construyan sobre los mismos datos subyacentes

Comparación con otros recursos SNP

Existen varias otras bases de datos SNP públicas, cada una con sus propias fortalezas y limitaciones. En esta sección revisamos brevemente las más importantes, señalando sus rasgos característicos y comparándolos con lo que ofrece SNPper.

La base de datos HGVBASE se centra en una curación y anotación manual muy precisa de los datos SNP disponibles . Por lo tanto, es más pequeña que dbSNP en tamaño, pero sus datos son extremadamente útiles para los investigadores interesados en explorar el componente genético de la variación fenotípica humana. Ofrece amplias anotaciones para sus SNP y varias opciones de búsqueda, incluida la posibilidad de buscar SNP en una secuencia genómica suministrada por el usuario que se alinea automáticamente con el genoma humano.

ALFRED y JSNPs son dos bases de datos de SNP más pequeñas cuyo objetivo es proporcionar información precisa sobre la frecuencia. JSNPs se centra en la población japonesa, mientras que ALFRED proporciona datos sobre un gran número de poblaciones muy diversas de todo el mundo para potenciar sus diferencias de frecuencia y facilitar el estudio de los haplotipos . Ambos sitios ofrecen un número relativamente pequeño de SNPs, pero los datos de frecuencia que proporcionan para ellos son extremadamente importantes. JSNPs ofrece un útil navegador gráfico de cromosomas y la posibilidad de mostrar las trazas del secuenciador para sus SNPS. Por otro lado, las características de exportación de datos son algo limitadas en ambos sistemas.

El sitio GeneSNPs integra datos de genes, secuencias y SNP en modelos de genes altamente anotados. Ofrece amplias funciones de visualización y exportación de datos, incluida una forma de mostrar los SNP dentro de la secuencia genómica del gen al que pertenecen similar a la disponible en SNPper. En comparación con SNPper, su principal limitación es que sólo contiene SNPs en un pequeño número de genes relacionados con la susceptibilidad a la exposición ambiental.

EnsMart es una herramienta de minería de datos muy completa para extraer datos de la base de datos Ensembl. Ensembl es, con mucho, la base de datos más exhaustiva y sofisticada de todas las descritas aquí. Proporciona aproximadamente el mismo conjunto de datos sobre SNPs que SNPper, con la principal diferencia de que utiliza su propia base de datos de genes en lugar de estar vinculada a Goldenpath. Aunque su interfaz es muy potente y efectiva, no está específicamente adaptada a las necesidades de la investigación basada en SNPs; por ejemplo, no proporciona formas de generar conjuntos de SNPs que tengan un espaciado medio deseado, como sí es posible con SNPper.

Las características que son únicas de SNPper están principalmente relacionadas con la gestión de SNPsets y con sus características de interoperabilidad. SNPper es el único recurso que ofrece a los usuarios la posibilidad de manipular, refinar, guardar y exportar SNPsets como un todo, y de permitir la creación de conjuntos de SNPs a través de consultas complejas (como la que utiliza las clases de GeneOntology descritas en la sección 4.a). Además, hasta donde sabemos, SNPper es el único recurso SNP que proporciona acceso completo a su base de datos como archivos XML legibles por la máquina a través de una interfaz de Llamada a Procedimiento Remoto, y que permite al usuario cargar un conjunto de SNPs privados en su base de datos y analizarlos o visualizarlos a través de su interfaz estándar.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.