Queries

SNPper には、SNP を利用する目的の違いにより、いくつかの異なる取得の仕方が用意されています。 最も単純なケースでは、SNPsは1つ以上のrsまたはss識別子(既知であれば)を指定することで検索することができる。 また、染色体上の特定の領域に属する連続したSNPを、絶対位置の範囲や細胞遺伝学的バンド名で指定して検索することも可能である。 遺伝子指向の研究を支援するために、SNPperは遺伝子上または遺伝子周辺のSNPsセット(ユーザーが指定した最大距離まで)、あるいは遺伝子セットを生成することができる。 遺伝子はHUGO名、またはGenbank、Locuslink、OMIM、Unigeneの識別子で指定することができます。 また、遺伝子セットは、位置(染色体領域内の全遺伝子)、またはGeneOntologyクラスで指定することができる。

いずれの場合も、クエリーの結果はSNPsetというSNPsのコレクションを保持するデータ構造である。 SNPsetには、それを生成したクエリの種類によって異なるタイプが存在し、それに対して異なる操作が定義されています。 例えば、連続したSNPを含むSNPsetの場合、SNPの密度を測定することは意味があり、SNPperは一定の間隔を保ちながらSNPの数を減らす関数を提供します。 遺伝子セットから生成されたSNPsetの場合、この操作は意味をなさないため(SNPが異なる染色体に分散している可能性があるため)、利用することはできません。 一般に、SNPsetは1つのクエリによって生成されたSNPのセットを表し、全体として操作・分析することができる。 SNPsetは、それを生成したユーザのみが見ることができ、永続的なデータ構造である:使用されている限りサーバに保存され、最後にアクセスされてから十分な時間が経過すると自動的に削除される。

SNP visualization

SNPper では、Web インターフェースを通じて SNP を表示する方法が複数用意されている。 まず、各SNPは一般的なデータ(SNP識別子、位置、アレル、検証状況)、投稿者リスト、属する遺伝子リスト、異なる集団における頻度(サンプルサイズ、メジャーおよびマイナーアレル頻度からなる)、SNPが属するタンパク質ドメインのリスト(あれば)を表示するページで個別に説明される。 遺伝子に属するSNPは、対応するDNA配列または(コーディングSNPの場合)アミノ酸配列の文脈で表示されることがある。 いずれの場合も、SNPの位置はハイライトされ、その情報(名前、位置、アレル)を表示するポップアップウィンドウが使用されます。 図1はSNPを含む注釈付き遺伝子配列、図2はその配列中のSNPの一つに関する詳細情報ページである。

Figure 1

SNPを含む注釈付き遺伝子配列。 遺伝子F13B(1番染色体上)の配列の一部を示す。 黒い部分はエクソン、イントロンは灰色である。 左の塩基位置はGoldenpathが提供するヒトゲノムアセンブリとの相対的な位置である。 SNPは太字の下線で示され、配列の右側にdbSNPの識別子が表示される。 ポップアップウィンドウには、個々のSNPに関する追加情報が表示されます。この例では、SNP rs6003は、有効な、非同義コーディングSNPであることが示されています。 このページは5つのセクションに分かれている。 最初のものは、SNPの識別子、その対立遺伝子、それが属する遺伝子(または遺伝子)内の位置など、SNPに関する一般的な情報を含んでいます。 2つ目の部分は、SWISS-PROTによると、このSNPが属するタンパク質のドメインが記載されています。 次の部分は、このSNPに対する全ての投稿をリストアップし、dbSNP投稿識別子、投稿者名、プライベートSNP識別子を提供しています。 Tools “セクションには、様々なPCRプライマー設計プログラムへのリンクと、このページで示されたデータをXML形式でエクスポートする機能へのリンクがあります。 SNPsetsは、各SNPの名前、位置、アレル、その他SNPsetの種類に依存する情報をリストしたテーブルを用いて表示される。 多数の SNP を含む SNPsets は、パフォーマンス上の理由から省略形式で表示されることもあります。 この表には、SNPset の保存、エクスポート(次のセクションを参照)、リファイニングなど、SNPset で利用できるさまざまなコマンドを実行するためのリンクも含まれています。 特にSNPsetの絞り込み操作では、一般的な特性(検証など)、遺伝子に対する位置(エクソンSNPやプロモーターSNPのみを選択するなど)、頻度やヘテロ接合度、投稿者(指定投稿者からのSNPのみを選択、または最小数の異なる投稿者を持つ)、平均距離(一定の間隔を維持しながらSNP数を削減するため)などの異なる基準によって、そのSNPを「フィルター」できるようになっています。 すべての場合において、結果はユーザーの基準を満たさないそれらのSNPを隠すことである。SNPセットの一部ではあるが、これらのSNPはもはや表示されず、いかなる分析、表示またはエクスポート操作においても考慮されない。 遺伝子の構造は色と太さの異なる棒を使って表示され、SNPは四角(頻度情報がある場合)または丸(それ以外)で識別され、有効であれば緑、そうでなければ黒で色分けされて表示される。 アプレットには、表示を左右にスクロールするコマンドと、表示を拡大または縮小するコマンドがある。

Figure 3

ある遺伝子とそれが含む SNP をグラフで表示する。 この図は、遺伝子構造(エクソンは青色、イントロンは灰色)と同じ領域のすべてのSNP(点または四角で表現)を表示するJavaアプレットの出力である。 ユーザーは付属のボタンで表示をスクロール、ズームしたり、画像の上部をクリックして表示を再調整することができる。 SNP をクリックすると、それに関する情報を含むポップアップ ウィンドウが開きます。

Data export

SNPper の最も重要な設計目標の 1 つは、SNP データをさまざまな一般的フォーマットで簡単にエクスポートする方法を提供することです。 図4に示すSNPsetエクスポートページでは、利用可能な注釈(近傍配列、頻度情報、検証状況、アミノ酸変化など)から任意の数のフィールドを選択し、希望の出力形式(XML、タブ区切りテキスト、HTML、BED)と送信先(データはブラウザウィンドウに表示するかユーザーが指定したアドレスにメールで送信可能)を指定できるようになっています。 XMLは、生物医学アプリケーションにおけるデータ交換のための標準フォーマットになりつつあり、SNPperでは他のプログラムとの相互運用をサポートするために提供されています。 タブ区切りのテキストは最もシンプルなデータ形式であり、表計算ソフトやPCRプライマー設計プログラムなど、ほとんどのアプリケーションでサポートされています。 HTML出力は、例えば出版物の補足情報を提供するために、ユーザーが別のウェブサイトにデータを表示することを可能にします。 BED形式は、Goldenpathの “custom tracks “機能を利用するために使用されます。作成したファイルをGoldenpathサイトにアップロードすると、SNPsetデータがゲノムブラウザのトラック表示ウィンドウに表示されます。 フォームの最初の部分では、SNPperが提供するアノテーションのうち、エクスポートするアノテーションのセットを選択することができます。 注釈の組み合わせはすべて選択できますが、一部のフィールドは全SNPのサブセットにしか適用できず(例:Amino acid change)、一部のフィールドは複数の値を含む場合があります(例:Gene)。 2 番目のセクションは、エクスポートされるデータの形式とその保存先を決定するために使用されます。 ユーザーは、データを HTML テーブル、タブ区切りテキストファイル、XML ドキュメント、または BED ファイルとしてエクスポートすることを選択できます。 この最後のオプションは、エクスポートされたデータを Goldenpath ゲノムブラウザにカスタムトラックとしてアップロードするために使用されます。

SNPper は、XML 形式の SNP 情報を取得する方法も提供しています。 私たちのシステムは、他のプログラムがアドホックなHTTPリクエストを送信し、HTMLページではなくXMLドキュメントを応答として受け取ることを可能にするリモートプロシージャコール(RPC)インターフェースを実装している。 この機能は、SNPperデータベースの価値と有用性を高めることを目的としており、異なるユーザーインターフェースを使用する代替システムを同じ基礎データの上に構築することを可能にする

他のSNPリソースとの比較

他にもいくつかの公開SNPデータベースが存在するが、それぞれが長所と短所を有している。 このセクションでは、最も重要なものを簡単にレビューし、その特徴を指摘し、SNPperが提供するものと比較する。

HGVBASEデータベースは、利用可能なSNPデータの非常に正確なマニュアルキュレーションとアノテーションに焦点を当てています。 そのため、dbSNPより規模は小さいが、ヒトの表現型変異の遺伝的要素を調べることに興味のある研究者にとっては非常に有用なデータである。 また、SNPのアノテーションも充実しており、ヒトゲノムに自動的にアラインメントされたユーザー提供のゲノム配列からSNPを検索する機能など、いくつかの検索オプションが用意されています。 JSNPsは日本人集団に焦点を当て、ALFREDは全世界の非常に多様な集団のデータを提供し、その頻度の違いを強調し、ハプロタイプの研究を容易にするためである 。 両サイトとも提供するSNPsの数は比較的少ないが、その頻度データは非常に重要である。 JSNPsは、便利なグラフィカルな染色体ブラウザと、そのSNPSのシーケンサートレースを表示する機能を提供しています。

GeneSNPsのサイトは遺伝子、配列、SNPデータを高度にアノテーションされた遺伝子モデルに統合している。 SNPperと同様、SNPを属する遺伝子のゲノム配列内に表示する方法など、幅広い可視化およびデータエクスポート機能を提供する。 SNPperと比較すると、環境暴露に対する感受性に関連する少数の遺伝子上のSNPsしか含まれていないことが主な制限事項である。 Ensemblは、ここで紹介したものの中で、圧倒的に網羅的で洗練されたデータベースである。 SNPperとほぼ同じSNPに関するデータ項目を提供していますが、主な違いはGoldenpathとリンクしているのではなく、独自の遺伝子のデータベースを使用している点です。 そのインターフェースは非常に強力で効果的であるが、SNPベースの研究のニーズに特に合わせたものではない。例えば、SNPperで代わりに可能な、希望の平均間隔を持つSNPsのセットを生成する方法を提供しない。

SNPper独自の機能は、主にSNPsetsの管理とその相互運用性機能に関連している。 SNPperは、SNPsetsを全体として操作、改良、保存、エクスポートする機能を持ち、複雑なクエリー(4.aで述べたGeneOntologyクラスを用いたものなど)によってSNPsのセットを作成できる唯一のリソースである。 また、我々の知る限り、SNPperは、Remote Procedure Callインターフェースを通じて、機械読み取り可能なXMLファイルとしてデータベースに完全にアクセスでき、ユーザーがプライベートSNPsセットをデータベースにアップロードし、標準インターフェースを通じてそれらを分析または表示できる、唯一のSNPリソースである

コメントを残す

メールアドレスが公開されることはありません。