Queries

SNPper oferuje kilka różnych sposobów pobierania SNP, odzwierciedlających różne cele, do których SNP mogą być użyte. W najprostszym przypadku, SNP mogą być pobierane poprzez określenie jednego lub więcej identyfikatorów rs lub ss, jeśli są znane. Inne powszechne zapytanie pobiera zestaw sąsiadujących SNP należących do określonego regionu chromosomu, określonego albo przez bezwzględny zakres pozycji, albo przez nazwę zespołu cytogenetycznego. Aby wesprzeć badania ukierunkowane na geny, SNPper może wygenerować zestaw SNP na lub wokół genu (do określonej przez użytkownika maksymalnej odległości), lub zestaw genów. Geny mogą być określone za pomocą ich nazwy HUGO lub identyfikatorów Genbank, Locuslink, OMIM lub Unigene. Z kolei zestaw interesujących nas genów może być określony przez pozycję (np. wszystkie geny w danym regionie chromosomu) lub przez klasę GeneOntology. Ta ostatnia cecha umożliwia badanie zestawów SNP, które są potencjalnie związane z interesującym nas procesem biologicznym, a nie są powiązane przez pozycję.

W każdym przypadku wynikiem zapytania jest SNPset, struktura danych, która przechowuje zbiór SNPs. Istnieją różne typy SNPset, w zależności od typu zapytania, które je wygenerowało, i zdefiniowane są na nich różne operacje. Na przykład, dla zbioru SNPset zawierającego przylegające do siebie SNP sensowne jest zmierzenie gęstości SNP, a SNPper udostępnia funkcję redukującą liczbę SNP zawartych w nim SNP przy zachowaniu jednolitych odstępów. W przypadku SNPset wygenerowanego z zestawu genów, operacja ta nie miałaby sensu (ponieważ SNP mogą być rozmieszczone na różnych chromosomach) i dlatego nie jest dostępna. Ogólnie rzecz biorąc, zestaw SNP reprezentuje zbiór SNP, który został wygenerowany przez pojedyncze zapytanie, i który może być manipulowany i analizowany jako całość. SNPsety są widoczne tylko dla użytkownika, który je wygenerował i są trwałymi strukturami danych: są przechowywane na serwerze tak długo, jak są używane i są automatycznie usuwane po upływie odpowiedniego czasu od ostatniego dostępu do nich. Użytkownik może również zdecydować się na zapisanie SNPset, w którym to przypadku będzie on dostępny w przyszłych sesjach.

Wizualizacja SNP

SNPper zapewnia wiele sposobów wyświetlania SNP poprzez swój interfejs internetowy. Na początek, każdy SNP jest opisany indywidualnie na stronie, która wyświetla ogólne dane (identyfikatory SNP, pozycję, allele, status walidacji), jego listę zgłaszających, listę genów, do których należy, jego częstotliwość w różnych populacjach (składającą się z wielkości próbki oraz częstotliwości alleli głównych i drugorzędowych), jeśli jest dostępna, oraz listę domen białkowych, do których należy SNP, jeśli istnieje. SNP należące do genu mogą być wyświetlane w kontekście odpowiadającej mu sekwencji DNA lub (w przypadku SNP kodujących) sekwencji aminokwasowej. W obu przypadkach pozycja SNP jest podświetlana, a okno popup służy do wyświetlenia informacji o nim (nazwa, pozycja, allele). Rysunek 1 przedstawia adnotowaną sekwencję genu zawierającą SNP, a rysunek 2 pokazuje stronę ze szczegółowymi informacjami o jednym z SNP w tej sekwencji.

Rysunek 1

Annotowana sekwencja genu zawierająca SNP. Pokazano fragment sekwencji dla genu F13B (na chromosomie 1). Czarne obszary reprezentują eksony, podczas gdy introny są w kolorze szarym. Pozycje nukleotydów po lewej stronie odnoszą się do zespołu genomu ludzkiego dostarczonego przez Goldenpath. SNP są wskazane przez pogrubione, podkreślone nukleotydy, a ich identyfikator dbSNP pojawia się po prawej stronie sekwencji. Okno wyskakujące wyświetla dodatkowe informacje o poszczególnych SNP: w tym przykładzie pokazano SNP rs6003 jako zwalidowany, niesynonimiczny SNP kodujący.

Rysunek 2

Strona zawierająca szczegółowe informacje o pojedynczym SNP. Strona podzielona jest na pięć sekcji. Pierwsza z nich zawiera ogólne informacje o SNP, w tym jego identyfikator, allele i pozycję w genie (lub genach), do którego należy. Druga część opisuje domeny białkowe, do których należy ten SNP, zgodnie z SWISS-PROT. Następna sekcja zawiera listę wszystkich zgłoszeń dla tego SNP i podaje identyfikator zgłoszenia dbSNP, nazwisko zgłaszającego oraz prywatny identyfikator SNP. Sekcja „Narzędzia” zawiera linki do różnych programów do projektowania starterów PCR oraz do narzędzia do eksportowania danych przedstawionych na tej stronie w formacie XML. Wreszcie, pokazana jest sekwencja flankująca dla tego SNP, maksymalnie do 10 000 nukleotydów.

Zestawy SNP są wyświetlane przy użyciu tabel, które zawierają nazwę każdego SNP, jego pozycję, allele i inne informacje zależne od konkretnego typu zestawu SNP. Zestawy SNP, które zawierają dużą liczbę SNP, są opcjonalnie wyświetlane w formie skróconej ze względu na wydajność. Tabela zawiera również łącza do wykonywania różnych poleceń dostępnych dla zestawu SNPset, takich jak zapisywanie go, eksportowanie (patrz następna sekcja) i rafinowanie. W szczególności operacja rafinacji SNPset pozwala użytkownikowi na „filtrowanie” zawartych w nim SNPs według kilku różnych kryteriów: właściwości ogólnych (np. walidacja), położenia względem genu (np. aby wybrać tylko egzoniczne SNPs lub SNPs promotora), częstości lub heterozygotyczności, podmiotów zgłaszających (aby wybrać tylko SNPs z określonych podmiotów zgłaszających lub z minimalną liczbą różnych podmiotów zgłaszających) lub średniej odległości (w celu zmniejszenia liczby SNPs przy zachowaniu jednolitych odstępów). We wszystkich przypadkach rezultatem jest ukrycie tych SNP, które nie spełniają kryteriów użytkownika: choć nadal są częścią zbioru SNP, te SNP nie są już widoczne i nie będą brane pod uwagę w żadnej analizie, wyświetlaniu ani operacji eksportu.

Wreszcie, Rysunek 3 pokazuje wyjście apletu Javy, który może być użyty do wyświetlania zbiorów SNP w formie graficznej. Struktura genu jest przedstawiona za pomocą pasków o różnych kolorach i grubości; SNPs są identyfikowane za pomocą kwadratów (jeśli dostępna jest informacja o częstotliwości) lub kółek (w przeciwnym razie) i są oznaczone kolorem zielonym, jeśli są potwierdzone, czarnym w przeciwnym razie. Aplet udostępnia polecenia do przewijania ekranu w lewo lub w prawo oraz do powiększania lub zmniejszania ekranu.

Rysunek 3

Graficzna reprezentacja genu z zawartymi w nim SNP. Rysunek przedstawia wynik działania apletu Java wyświetlającego strukturę genu (eksony są w kolorze niebieskim, introny w szarym) oraz wszystkie SNP w tym samym regionie (reprezentowane przez kropki lub kwadraty). Użytkownik może przewijać lub powiększać obrazek za pomocą odpowiednich przycisków lub zmienić jego położenie, klikając na górną część obrazka. Kliknięcie na SNP otwiera wyskakujące okienko zawierające informacje o nim.

Eksport danych

Jednym z najważniejszych celów projektowych SNPpera jest zapewnienie łatwych sposobów eksportowania danych SNP w różnych popularnych formatach. Strona eksportu zestawu SNP, pokazana na Rysunku 4, pozwala użytkownikowi wybrać dowolną liczbę pól z dostępnych adnotacji (w tym sekwencje flankujące, informacje o częstotliwości, status walidacji, zmiana aminokwasów), a także określić pożądany format wyjściowy (XML, tekst w formacie tabulacji, HTML lub BED) i miejsce docelowe (dane mogą być wyświetlane w oknie przeglądarki lub wysyłane pocztą elektroniczną na adres podany przez użytkownika). XML stopniowo staje się standardowym formatem wymiany danych w aplikacjach biomedycznych i jest dostarczany w SNPper w celu wspierania współpracy z innymi programami. Tabelaryczny tekst reprezentuje najprostszy format danych strukturalnych i dlatego jest obsługiwany przez większość aplikacji, takich jak arkusze kalkulacyjne lub programy do projektowania primerów PCR. Wyjście HTML pozwala użytkownikom na wyświetlanie danych na innej stronie internetowej, na przykład w celu dostarczenia dodatkowych informacji do publikacji. Wreszcie, format BED jest używany do wykorzystania funkcji „niestandardowych ścieżek” Goldenpath: plik wynikowy może być przesłany na stronę Goldenpath, a dane SNPset będą wyświetlane przez przeglądarkę genomu w jej oknie wyświetlania ścieżek.

Rysunek 4

Strona eksportu SNPset. Pierwsza część formularza pozwala użytkownikowi wybrać zestaw anotacji do eksportu, spośród oferowanych przez SNPper. Można wybrać wszystkie kombinacje adnotacji, chociaż niektóre pola mają zastosowanie tylko do podzbioru wszystkich SNP (np. Amino acid change), a niektóre pola mogą zawierać wiele wartości (np. Gene). Druga sekcja służy do określenia formatu eksportowanych danych oraz ich przeznaczenia. Użytkownik może wybrać pomiędzy eksportem danych w postaci tabeli HTML, pliku tekstowego tab-delimitowanego, dokumentu XML lub pliku BED. Ta ostatnia opcja jest używana do załadowania wyeksportowanych danych do przeglądarki genomu Goldenpath, jako niestandardowa ścieżka. Wreszcie, użytkownik może wybrać wyświetlenie pliku wynikowego w oknie przeglądarki lub wysłanie go pocztą elektroniczną na wskazany adres.

SNPper zapewnia również alternatywną metodę pobierania informacji o SNP w formacie XML. Nasz system implementuje interfejs RPC (Remote Procedure Call), który pozwala innym programom wysyłać żądania HTTP ad hoc i otrzymywać w odpowiedzi dokument XML, a nie stronę HTML. Ta cecha ma na celu zwiększenie wartości i użyteczności bazy danych SNPper, pozwalając alternatywnym systemom używającym różnych interfejsów użytkownika być zbudowanym na tych samych danych bazowych

Porównanie z innymi zasobami SNP

Istnieje kilka innych publicznych baz danych SNP, każda z własnymi mocnymi stronami i ograniczeniami. W tej sekcji dokonujemy krótkiego przeglądu najważniejszych z nich, wskazując na ich charakterystyczne cechy i porównując je z tym, co oferuje SNPper.

Baza danych HGVBASE skupia się na bardzo dokładnej ręcznej kuracji i adnotacji dostępnych danych SNP. Z tego powodu jest mniejsza niż dbSNP, ale jej dane są niezwykle przydatne dla badaczy zainteresowanych badaniem genetycznego komponentu ludzkiej zmienności fenotypowej. Zapewnia obszerne adnotacje dla swoich SNP oraz kilka opcji wyszukiwania, w tym możliwość poszukiwania SNP w sekwencji genomowej dostarczonej przez użytkownika, która jest automatycznie wyrównywana do ludzkiego genomu.

ALFRED i JSNPs to dwie mniejsze bazy danych SNP, które mają na celu dostarczenie dokładnych informacji o częstotliwości. JSNPs koncentruje się na populacji japońskiej, podczas gdy ALFRED dostarcza danych na temat dużej liczby bardzo zróżnicowanych populacji z całego świata w celu zwiększenia ich różnic w częstotliwości i ułatwienia badania haplotypów. Oba serwisy oferują stosunkowo niewielką liczbę SNP, ale dane dotyczące ich częstości są niezwykle istotne. JSNPs oferuje użyteczną graficzną przeglądarkę chromosomów i możliwość wyświetlania śladów sekwencjonowania dla swoich SNPS. Z drugiej strony, funkcje eksportu danych są nieco ograniczone w obu systemach.

Strona GeneSNPs integruje dane genów, sekwencji i SNP w wysoce adnotowane modele genów. Zapewnia obszerną wizualizację i funkcje eksportu danych, w tym sposób wyświetlania SNP w obrębie sekwencji genomowej genu, do którego należą, podobny do tego dostępnego w SNPper. W porównaniu do SNPper, jego głównym ograniczeniem jest to, że zawiera tylko SNP na niewielkiej liczbie genów związanych z podatnością na ekspozycję środowiskową.

EnsMart jest bardzo wszechstronnym narzędziem do eksploracji danych, służącym do wydobywania danych z bazy Ensembl. Ensembl jest zdecydowanie najbardziej wyczerpującą i wyrafinowaną bazą danych spośród wszystkich tutaj opisanych. Dostarcza mniej więcej ten sam zestaw danych o SNP co SNPper, z tą różnicą, że korzysta z własnej bazy genów, a nie jest połączona z Goldenpath. Chociaż jego interfejs jest bardzo wydajny i skuteczny, nie jest specjalnie dostosowany do potrzeb badań opartych na SNP; na przykład, nie zapewnia sposobów generowania zestawów SNP o pożądanym średnim odstępie, co jest natomiast możliwe w przypadku SNPper.

Cechy, które są unikalne dla SNPper są głównie związane z zarządzaniem SNPsets i jego cechami interoperacyjności. SNPper jest jedynym zasobem dającym użytkownikom możliwość manipulowania, udoskonalania, zapisywania i eksportowania SNPsets jako całości, a także pozwalającym na tworzenie zestawów SNP poprzez złożone zapytania (takie jak to wykorzystujące klasy GeneOntology opisane w sekcji 4.a). Ponadto, według naszej wiedzy, SNPper jest jedynym zasobem SNP, który zapewnia pełny dostęp do swojej bazy danych w postaci plików XML do odczytu maszynowego poprzez interfejs Remote Procedure Call i który pozwala użytkownikowi na załadowanie zestawu prywatnych SNP do swojej bazy danych i analizowanie lub wyświetlanie ich poprzez standardowy interfejs.

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.