Întrebări
SNPper oferă mai multe moduri diferite de recuperare a SNP-urilor, reflectând diferitele scopuri în care pot fi utilizate SNP-urile. În cel mai simplu caz, SNP-urile pot fi recuperate prin specificarea unuia sau mai multor identificatori rs sau ss, dacă sunt cunoscuți. O altă interogare obișnuită permite recuperarea unui set de SNP-uri contigue aparținând unei regiuni specifice a unui cromozom, specificate fie printr-un interval de poziții absolute, fie prin denumirea unei benzi citogenetice. Pentru a sprijini studiile orientate spre gene, SNPper poate genera setul de SNP pe sau în jurul unei gene (până la o distanță maximă specificată de utilizator) sau un set de gene. Genele pot fi specificate folosind numele lor HUGO sau prin intermediul identificatorilor Genbank, Locuslink, OMIM sau Unigene. La rândul său, un set de gene de interes poate fi specificat în funcție de poziție (de exemplu, toate genele dintr-o regiune cromozomială) sau prin intermediul unei clase GeneOntology. Această ultimă caracteristică face posibilă studierea seturilor de SNP-uri care sunt potențial asociate cu un proces biologic de interes, mai degrabă decât să fie legate prin poziție.
În toate cazurile, rezultatul unei interogări este un SNPset, o structură de date care conține o colecție de SNP-uri. Există diferite tipuri de SNPset, în funcție de tipul de interogare care le-a produs, și sunt definite diferite operații asupra acestora. De exemplu, pentru un SNPset care conține SNP-uri contigue, este logic să se măsoare densitatea SNP-urilor, iar SNPper oferă o funcție de reducere a numărului de SNP-uri pe care le conține, menținând în același timp o spațiere uniformă. Pentru un SNPset generat dintr-un set de gene, această operațiune nu ar avea sens (deoarece SNP-urile pot fi răspândite pe diferiți cromozomi) și, prin urmare, nu este disponibilă. În general, un SNPset reprezintă un set de SNP-uri care a fost produs de o singură interogare și care poate fi manipulat și analizat ca un întreg. SNPset-urile sunt vizibile doar pentru utilizatorul care le-a generat și sunt structuri de date persistente: sunt stocate în server atâta timp cât sunt utilizate și sunt eliminate automat după ce a trecut o perioadă suficientă de timp de când au fost accesate ultima dată. Utilizatorul poate alege, de asemenea, să salveze un SNPset, caz în care acesta va fi disponibil în sesiunile viitoare.
Vizualizare SNP
SNPper oferă mai multe modalități de afișare a SNP-urilor prin interfața sa web. Pentru început, fiecare SNP este descris individual într-o pagină care afișează date generale (identificatori SNP, poziție, alele, stare de validare), lista celor care l-au prezentat, lista genelor din care face parte, frecvența sa în diferite populații (constând în mărimea eșantionului și frecvența alelelor majore și minore), dacă este disponibilă, și lista domeniilor proteice în care se încadrează SNP-ul, dacă este cazul. SNP-urile care aparțin unei gene pot fi afișate în contextul secvenței ADN corespunzătoare sau (pentru SNP-urile codificatoare) al secvenței de aminoacizi. În ambele cazuri, poziția SNP este evidențiată și o fereastră pop-up este utilizată pentru a afișa informații despre aceasta (nume, poziție, alele). Figura 1 prezintă o secvență genetică adnotată care conține SNP-uri, iar figura 2 prezintă pagina cu informații detaliate despre unul dintre SNP-urile din această secvență.
SNPsets sunt afișate cu ajutorul unor tabele care enumeră numele fiecărui SNP, poziția sa, alelele sale și alte informații care depind de tipul specific de SNPset. Seturile SNPset care conțin un număr mare de SNP-uri sunt afișate opțional într-o formă prescurtată din motive de performanță. Tabelul conține, de asemenea, linkuri pentru a executa diferitele comenzi disponibile pentru un SNPset, cum ar fi salvarea, exportul (a se vedea secțiunea următoare) și rafinarea acestuia. Operațiunea de rafinare a setului de SNP, în special, permite utilizatorului să „filtreze” SNP-urile pe care le conține în funcție de mai multe criterii diferite: proprietăți generale (de exemplu, validarea), poziția față de o genă (de exemplu, pentru a selecta numai SNP-uri exonice sau SNP-uri promotoare), frecvența sau heterozigozitatea, solicitanții (pentru a selecta numai SNP-uri de la solicitanții specificați sau cu un număr minim de solicitanți distincți) sau distanța medie (pentru a reduce numărul de SNP-uri, menținând în același timp o spațiere uniformă). În toate cazurile, rezultatul este ascunderea acelor SNP-uri care nu îndeplinesc criteriile utilizatorului: deși fac încă parte din SNPset, aceste SNP-uri nu mai sunt vizibile și nu vor fi luate în considerare în nicio operațiune de analiză, de afișare sau de export.
În cele din urmă, figura 3 prezintă ieșirea unui applet Java care poate fi utilizat pentru a afișa SNPset-urile în formă grafică. Structura genei este prezentată cu ajutorul unor bare de diferite culori și grosimi; SNP-urile sunt identificate prin pătrate (dacă sunt disponibile informații privind frecvența) sau cercuri (în caz contrar), și sunt colorate în verde dacă sunt validate, în negru în caz contrar. Applet-ul oferă comenzi pentru a derula afișajul la stânga sau la dreapta și pentru a mări sau micșora afișajul.
Exportul de date
Unul dintre cele mai importante obiective de proiectare ale SNPper este acela de a oferi modalități ușoare de a exporta datele SNP într-o varietate de formate comune. Pagina de export SNPset, prezentată în figura 4, permite utilizatorului să aleagă orice număr de câmpuri din adnotările disponibile (inclusiv secvențe flancate, informații privind frecvența, starea de validare, modificarea aminoacizilor) și să specifice formatul de ieșire dorit (XML, text delimitat prin tabulare, HTML sau BED) și destinația (datele pot fi afișate în fereastra browserului sau trimise prin e-mail la o adresă furnizată de utilizator). XML devine treptat un format standard pentru schimbul de date în aplicațiile biomedicale și este furnizat în SNPper pentru a sprijini interoperabilitatea cu alte programe. Textul delimitat prin tabulare reprezintă cel mai simplu format structurat de date și, prin urmare, este acceptat de majoritatea aplicațiilor, cum ar fi foile de calcul sau programele de proiectare a amorselor PCR. Ieșirea HTML permite utilizatorilor să afișeze datele pe un alt site web, de exemplu pentru a furniza informații suplimentare pentru o publicație. În cele din urmă, formatul BED este utilizat pentru a exploata caracteristica „track-uri personalizate” a Goldenpath: fișierul rezultat poate fi încărcat pe site-ul Goldenpath, iar datele SNPset vor fi afișate de către browserul genomului în fereastra de afișare a track-urilor acestuia.
SNPper oferă, de asemenea, o metodă alternativă pentru recuperarea informațiilor SNP în format XML. Sistemul nostru implementează o interfață Remote Procedure Call (RPC), care permite altor programe să trimită cereri HTTP ad-hoc și să primească ca răspuns un document XML mai degrabă decât o pagină HTML . Această caracteristică este menită să sporească valoarea și utilitatea bazei de date SNPper, permițând construirea unor sisteme alternative care utilizează interfețe de utilizator diferite pe baza acelorași date de bază
Comparare cu alte resurse SNP
Există mai multe alte baze de date SNP publice, fiecare cu propriile sale puncte forte și limitări. În această secțiune le trecem pe scurt în revistă pe cele mai importante, subliniind trăsăturile lor caracteristice și comparându-le cu ceea ce oferă SNPper.
Baza de date HGVBASE este axată pe o curatorie și o adnotare manuală foarte precisă a datelor SNP disponibile . Prin urmare, este mai mică decât dbSNP ca mărime, dar datele sale sunt extrem de utile pentru cercetătorii interesați să exploreze componenta genetică a variației fenotipice umane. Oferă adnotări extinse pentru SNP-urile sale și mai multe opțiuni de căutare, inclusiv posibilitatea de a căuta SNP-uri într-o secvență genomică furnizată de utilizator, care este aliniată automat la genomul uman.
ALFRED și JSNPs sunt două baze de date SNP mai mici care au ca scop furnizarea de informații precise privind frecvența. JSNPs se concentrează pe populația japoneză, în timp ce ALFRED furnizează date despre un număr mare de populații foarte diverse din întreaga lume pentru a spori diferențele de frecvență și pentru a facilita studiul haplotipurilor . Ambele site-uri oferă un număr relativ mic de SNP-uri, dar datele de frecvență pe care le oferă pentru acestea sunt extrem de importante. JSNPs oferă un browser grafic util pentru cromozomi și posibilitatea de a afișa urmele secvențiatorului pentru SNPS-urile sale. Pe de altă parte, funcțiile de export de date sunt oarecum limitate în ambele sisteme.
Site-ul GeneSNPs integrează date despre gene, secvențe și SNP în modele de gene foarte bine comentate. Acesta oferă funcții extinse de vizualizare și export de date, inclusiv o modalitate de afișare a SNP-urilor în cadrul secvenței genomice a genei căreia îi aparțin, similară celei disponibile în SNPper. În comparație cu SNPper, principala sa limitare este că nu conține SNP decât pe un număr mic de gene legate de susceptibilitatea la expunerea la mediul înconjurător.
EnsMart este un instrument foarte cuprinzător de minerit de date pentru a extrage date din baza de date Ensembl. Ensembl este de departe cea mai exhaustivă și mai sofisticată bază de date dintre toate cele descrise aici. Oferă aproximativ același set de elemente de date privind SNP-urile ca și SNPper, principala diferență fiind aceea că utilizează propria bază de date de gene, în loc să fie legată de Goldenpath. Deși interfața sa este foarte puternică și eficientă, nu este adaptată în mod specific pentru nevoile cercetării bazate pe SNP; de exemplu, nu oferă modalități de a genera seturi de SNP-uri având o spațiere medie dorită, așa cum este în schimb posibil cu SNPper.
Caracteristicile care sunt unice pentru SNPper sunt legate în principal de gestionarea seturilor de SNP-uri și de caracteristicile sale de interoperabilitate. SNPper este singura resursă care oferă utilizatorilor posibilitatea de a manipula, rafina, salva și exporta SNPsets ca un întreg și de a permite crearea de seturi de SNPs prin interogări complexe (cum ar fi cea care utilizează clasele GeneOntology descrise în secțiunea 4.a). De asemenea, după cunoștințele noastre, SNPper este singura resursă SNP care oferă acces complet la baza sa de date sub formă de fișiere XML care pot fi citite de mașini prin intermediul unei interfețe Remote Procedure Call și care permite utilizatorului să încarce un set de SNP-uri private în baza sa de date și să le analizeze sau să le afișeze prin intermediul interfeței sale standard.
.