L. L. Minorのデノボアセンブリ(De novo assembly)を実施。 L. minor clone 5500のゲノムはフローサイトメトリーにより481Mbpと推定され(図1b)、20の染色体対(2n=40、図1c)にコンパクトにまとめられていた。 L. minorゲノムの参照配列を得るために、全ゲノムDNAを分離し、Illuminaプラットフォーム用の2つのペアエンドライブラリーを作成した。 ハイカバレッジの2×100 HiSeqライブラリーに、2×300 MiSeqライブラリーの長いリードを追加した。 フラグメントの両端間にギャップがないため、それぞれ公称フラグメント長200 bpと600 bpのペアエンドリードとなりました。 HiSeqライブラリーは215,721,669リード(43Gbp)で約90×ゲノムカバレッジ、Miseqライブラリーは26,270,063リード(15Gbp)で30×ゲノムカバレッジに相当する。 アダプターや未知・低品質ヌクレオチドを含むリードを除去した後、残りの207,985,822リードと24,416,556リード(それぞれカバー率87×、29×)を用いてL. minorゲノムを構築した(追加ファイル1:Table S1)。 また、SOAPdenovo2、CLC bioはde Bruijn graph-based algorithm、MaSuRCAはoverlap-based assembly algorithmで、それぞれスーパーリードを用いたアセンブリーを行っている。 スーパーリードは、ハイカバレッジペアエンドリードを独自に拡張したショートリードで、データの大幅な圧縮が可能です。 その後、得られたアセンブリをさらにSSPACEで足場固めし、最終段階でGapcloserでギャップを閉じる処理を行った。 コンティグ数、スキャフォールド数、N50値、ミスマッチエラー頻度から、MaSuRCAで作成したドラフトゲノムは、SOAPdenovo2やCLC bioで作成したゲノムと比較してより堅牢なゲノム配列を生成することが分かりました(追加ファイル2: 表S2)。 MaSuRCAのエラー訂正とスーパーリード処理により、ペアエンドの生リードを2,145,090本のスーパーリードに変換し、これらのリード間のペアワイズオーバーラップを計算しました。 これらのスーパーリードから、MaSuRCAパイプラインは49,027本のコンティグ(N50 contig size 20.9 kbp)と最小長1000 bpの46,105個のスキャフォールド(N50 scaffold size 23.6 kbp)を生成した(追加ファイル 2: Table S2)。 9129>
CEGMAパイプラインを用い、MaSuRCAで組み立てたゲノムのうち、高度に保存された真核生物遺伝子(248)のうち233遺伝子(94 %)を認識し、そのうち215遺伝子(86 %)は完全に(>70 %)カバーしていた(追加ファイル3:表S3)。 また、L. minor株から得られた転写産物を足場に、de novoアセンブリの精度を評価するために、de novoで作成した転写産物のセットをアライメントした。 BLATソフトウェアを用いて、洗浄した転写産物の約97 %が少なくとも1つの足場に整列し、カバー率95 %以上、配列同一性90 %以上であることがわかった(Additional file 4: Table S4)。 最終的に46,047のスキャフォールドに埋め込まれた472,128,703塩基が組み合わされ、1000 bp以下のスキャフォールドを除いたN50長は23,801塩基となった。 この長さは、Kmergenieで予測されたゲノムサイズとほぼ同じであり、k-mer統計に基づくと475 Mbp、フローサイトメトリーでは481 Mbpと推定された(図1b)。 したがって、核内DNA量に占めるL. minorゲノム配列の割合は、組み立てたスキャフォールドでほぼ完全に(98.15 %)カバーされていることがわかった。 また、2kbp以上の配列長を持つスキャフォールドは、de novoゲノムアセンブリ配列の約96%のサイズをカバーしており、そのうち17スキャフォールドは最小配列長が0.5Mbpであった(追加ファイル5:図S1)。 L. minorの葉緑体DNAデータを用いて、Genbank L. minor葉緑体ゲノム(NC_010109.1)を参照にBWAを用いてNGSリードをアライメントし、L. minor clone 5500の完全葉緑体ゲノムを得ました。 この葉緑体ゲノムは165.9 Mbpで、異なるクローン/エコタイプに由来するGenbank参照配列と比較して、117 bp (0.07 %) に関連する48の変異が含まれていました(追加ファイル 6: 表S5)。
この研究では、L. minorゲノムの配列決定に、ペアエンドリードライブラリーのみをde novoアセンブリする全ゲノムショットガン手法を用いたため、N50値は中程度であった。 その結果、N50値は中程度にとどまりました。 特に植物ゲノムは反復配列が多いことが知られており、ペアエンドリードのライブラリはゲノム中の反復配列の多くに対応できません。 mate-pairライブラリーを用いると、より長いスキャフォールドが得られ、N50値は10-100倍高くなる。 これは、Cannabis sativaやPhoenix dactyliferaのゲノムアセンブリのscaffold N50値に匹敵する値である。 さらに、mate-pairライブラリを含まない他の植物ゲノムアセンブリのN50値(scaffold N50値)も、今回得られたscaffold N50値に匹敵する値であった。 このことは、L. minorのアセンブリが非反復配列の大部分をカバーしていることを示唆している。 ゲノム配列の質を向上させ、比較ゲノム解析、全ゲノム重複解析、ゲノム進化解析を行うためには、新たな配列決定ライブラリーと物理地図、光学地図、細胞遺伝学地図などのマッピング情報が必要であることが示唆された。 しかし、現在のアセンブリでは、L. minorゲノムの基本的な要素(例えば、繰り返し配列や遺伝子含有量)を特徴付けることができる。
繰り返し配列はL. minorゲノムアセンブリの62 %を占める
相同性ベースの比較では、L. minorゲノムアセンブリの62 %が繰り返し配列からなることがわかった(Table 1)。 この反復配列はレトロトランスポゾン(31.20 %),DNAトランスポゾン(5.08 %),タンデムリピート(3.91 %)およびその他の分類不能な反復配列(21.27 %)に分類された。 LTR(ロングターミナルリピート)レトロトランスポゾンが最も多く(29.57 %)、これは他の植物ゲノムと一致する。
最も多いトランスポゾン群はジプシとコピアで、それぞれゲノム中の 10.59 と 18.79 % を占めている。 DNAトランスポゾンでは,DNA_hAT-Acが最も多く,核ゲノムの約2.7%に及んだ。 L. minor clone 8623 (377 Mbp, ) のヘテロクロマチンシグネチャーが分散しているのは、この反復配列の割合が高いためと考えられる。 L. minorクローンのゲノムサイズ(323〜760Mbp)の可塑性は、異なる反復配列の増幅や最近の全ゲノム重複に起因すると考えられることから、異なるL. minorクローンの反復配列量と核型を調査することは興味深いことである。 その結果、L. minorの反復増幅は、最も古いダッコウソウゲノムであるS. polyrhizaゲノムと比較して、2つのダッコウソウ参照ゲノム間のゲノムサイズの差の94.5%を説明できることが分かった。 また、LTR copiaはLTR gypsyよりも豊富であることがわかった。 L. minorのジプシー/コピアの比率は0.56であるのに対し、S. polyrhizaの対応する比率は3.5であった。 しかし、LTRレトロトランスポゾンの増幅がカモガヤゲノム進化に重要な役割を果たしていることが示唆された。 L. minor 5500はS. polyrhiza 7498
と同数のタンパクコード遺伝子を含む。遺伝子予測には、遺伝子の上流と下流に一定量の配列が必要なため、2kbp以上のスキャフォールドが選ばれた。 したがって、遺伝子予測における誤検出エラーや断片化した遺伝子モデルを減らすために、2kbp以下のスキャフォールドはスキップされた。 この足場配列の選択に関する完全性を評価するために、CEGMAツールを使用した。 その結果、213個の全長遺伝子が完全にアラインメントされており、最終的な遺伝子アノテーションの数は、真の遺伝子数の85%以上であることがわかった(追加ファイル3: Table S3)。 L. minorのゲノム配列から遺伝子モデルを予測し、相同性に基づく遺伝子予測パイプラインMAKER-Pでアノテーションを行った(Additional file 7: Table S6)。 L. minor遺伝子モデルの包括的なセットを得るために、健全な生育条件で栽培されたL. minor植物と、様々なストレス条件(ウラン、ガンマ線、Sr-90処理を含む)にさらされたL. minor植物からRNAを分離して配列を決定した。 Illumina HiSeqプラットフォームを用い、アダプターリードと低品質リードのトリミング後、約592,326,402本のクリーンなシーケンスリードを得た(追加ファイル8: 表S7)。 Trinity de novoアセンブラにより、転写産物ごとに異なるアイソフォームを含む530,159の転写産物が生成されました。 これらのL. minorのトランスクリプトームデータは、Landoltia punctata, Lemna gibba, S. polyrhizaの全ての転写産物と、単子葉植物の9つのプロテオームと共に、遺伝子予測ツールSNAPとMaker-Pパイプライン内のAugustusの根拠となるものであった。 その結果、22,382のタンパク質コード遺伝子がアノテーションされ、そのうち18,744遺伝子(84%)はAED (Annotation Edit Distance) スコアが0.25以下と高精度と評価された(図1d)。 この遺伝子数は、他の単子葉植物に比べれば少ないが、近縁種のS. polyrhizaと非常によく似ている。 このことは、ダッコウソウの種が小さく構造的に単純な解剖学的構造であるため、多くの遺伝子を逃がすことができたという仮説を支持するものである。 遺伝子モデルは平均1934bpで構成され、1遺伝子あたり平均4.8個のエクソンを有していた(表2;Additional file 9: Figure S2)。 エクソン長の分布は他の種と一致していたが、L. minorのイントロン長は比較に用いた他の種より短い傾向にあった(表2)。 得られたアノテーションの精度を評価するために、米国国立生物工学情報センター(NCBI)のL. minorタンパク質一式にブラストを行った。 その結果、61のNCBIアクセッション(2015年11月9日にダウンロード)のうち60が、L. minorタンパク質の少なくとも1つに整列できることが判明した(BLASTP 、e値は1e-10)(追加ファイル10:表S8)
L.minorゲノムは、mate-pairライブラリや物理地図の構築を使用せずにWGSアプローチで配列決定されているので、いくつかの対立遺伝子が個々の遺伝子として注釈されている可能性は排除されません。 ヘテロ接合性は、有性種に比べ無性種ではクローン系列での突然変異の蓄積により、すなわちより一般的になっている。 ColeとVoskuilの研究によると、これはL. minorの集団でも同様であった。 しかし、de Bruijnグラフベースのアセンブリアプローチではなく、MaSuRCAパイプラインを使用すると、オーバーラップ-レイアウト-コンセンサスアプローチのため、ヘテロ接合性に起因する繰り返し配列、エラー、低カバレッジ領域、小さな構造の違いを克服することができます … de novoアノテーションの精度を評価するために、de novoで作成された転写産物がアノテーションされたトランスクリプトームでどの程度の割合で表現されているかを調べました。 トランスデコーダーにより179,736種類のRNA転写物が作成され、そのうち179,734種類が注釈付き転写物にマップされた(BLASTN , e値1e-30)。2 %)Spirodelaプロテオームと共有している
L.マイナーとカモガヤ全般の遺伝子内容を調べるために、L.マイナーとS. polyrhiza遺伝子と他の2つの高度に注釈された単子葉植物の間の配列類似性を調査しました。 そこで、L. minor の 22,382 の遺伝子産物を、S. polyrhiza、Oryza sativa、Zea mays の 107,716 の遺伝子産物と orthologous および paralogous グループに OrthoMCL を用いてクラスタリングした 。 このように、3つの遺伝子アノテーションセットでは、アノテーション履歴の違いにより遺伝子モデルの数が異なるが、この比較により、我々のアセンブリが全体的に完全であることを示すことができる。 その結果、4つの種で8202のオルソログが保存されており、これは提出された遺伝子の39%に相当しました(図2a)。 また、L. minor のシングルトン遺伝子 3546 個(OrthoMCL でグループ化されていない、全 L. minor 遺伝子の 15.8 %)に加え、2897 個(12.9 %)の遺伝子からなるパラロググループ 795 個が L. minor に固有だった(追加ファイル 11: 表 S9)。 これらの2つのグループからの6443遺伝子を、本研究ではさらにレムナ固有遺伝子と呼ぶことにする。 近縁種ほど類似遺伝子モデルの数が多いことが予想される。 その結果、14,830 個の L. minor 遺伝子(66.2 %)は S. polyrhiza にオルソログを持ち、他の 1109 個の L. minor 遺伝子(4.9 %)は O. sativa, Z. mays、または両方に存在するが S. polyrhiza にはない(図2b)。 さらに、L. minorの1821個の遺伝子(8.13 %)は、S. polyrhizaの少なくとも1つの遺伝子と固有の類似性を共有しており、これらはさらにカモガヤ特異的遺伝子と呼ばれる。 S. polyrhizaと代表的な植物4種(シロイヌナズナ、トマト、バナナ、イネ)の遺伝子ファミリーの比較では、S. polyrhizaの遺伝子コピー数が少ないことから、重複した遺伝子が優先的に失われることが示唆された。 今後、Lemnaの他のゲノム(L. polyrhizaなど)の遺伝子数、遺伝子ファミリーの関係を調べることができれば、さらに興味深い。 gibba G3 DWC131 (450 Mbp) と Lemna minor clone 8627 (800 Mbp) である。 このことから、Lemna属の祖先ゲノムには、L. minor属とS. polyrhiza属に分かれた後に少なくとも1回の全ゲノム重複があり、その後、重複した遺伝子を除去する過程で、323〜760Mbpの異なるLemna属のゲノムサイズとなった可能性がある。 L. minor 5500のように、最も大規模な遺伝子喪失が起こると、遺伝子数が減少することがある。 一方、L. minor 5500はLemnaの祖先ゲノムであり、Spirodelaのゲノムと同様の遺伝子を含んでいるとする仮説もある。 また、他の大きなゲノムのレムナ種は、より大きな繰り返しの拡大や、ごく最近の独立した全ゲノム重複から進化した可能性がある。 この仮説は、S. polyrhiza 7498ゲノム(2n = 40, 158 Mbp)とL. minor 5500ゲノム(2n = 40, 481 Mbp)の大同団結を研究する今後の研究によって検証される可能性があります。
Gene annotation information supports further genome functional analysis and biomass production applications
L. minor遺伝子モデルの推定機能を特定するために、Arabidopsis thalianaとO. sativaのSwiss-Protタンパク質配列に対して配列類似性検索を行った(BLASTP , e-value 1e-5). その後、Interproscan 5 を用いて Gene Ontology (GO) および Pfam タームのアノテーションを行い、KEGG Automatic Annotation Server (KAAS) を用いて KEGG パスウェイマッピングを行った。 pfam-Aデータベースは、13,672以上の保存されたタンパク質ファミリーのプロファイル隠れマルコフモデルを提供しています。 GOプロジェクトは、細胞成分、分子機能、生物学的プロセスの3つのドメインをカバーする、遺伝子産物の特性を表す定義された用語のオントロジーを提供します。 KAAS の結果には、KO (KEGG Orthology) の割り当てと、自動的に生成された KEGG パスウェイが含まれています。 合計で 21,263 遺伝子モデル(95 %)が、含まれるデータベースの少なくとも1つとアノテーションリンクを持ち、そのうち 18,597 (83.1%) は一つ以上の Pfamドメインに、7329 (32.7%) は KEGG オントロジー用語に、そして 15,512 (69.3%) は Gene Ontology 用語で正しくアノテーションされた。 L. minorのGOタームは、S. polyrhiza、O. sativa、Z. maysのGOアノテーションと全体的に類似している(図3、追加ファイル12:図S3、追加ファイル13:表S10)。 2つのカモガヤ種間のGO濃縮解析により、L. minorプロテオームには24の過剰発現GO用語と15の過小発現GO用語があり、FDR <0.05と有意であった(図3;追加ファイル14;表S11)。 L. minor 5500で濃縮されたタンパク質は、(1)異化過程に関与する酵素(GO:9056, 422タンパク質)、ヒドロラーゼ活性(GO:16787, 2739タンパク質)、(2)様々な刺激に応答するタンパク質(例:, ストレス (GO:6950, 529 タンパク質), 生体外刺激 (GO:9628, 86 タンパク質), 細胞外刺激 (GO:9991, 19 タンパク質), 内生刺激 (GO:9719, 55 タンパク質); および (3) 生合成過程 (例:前駆代謝物およびエネルギー (GO:6091, 258タンパク質), DNA代謝過程 (GO:6259, 350タンパク質), 糖質代謝過程 (GO:5975, 776タンパク質)) が挙げられる。 これらのタンパク質は、L. minorが(1)排水中の余剰栄養素を除去する能力、(2)様々な気候条件に適応して世界中に分布する能力、(3)栄養価や高いバイオマス生産性を提供する能力に貢献すると考えられる。 興味深いことに、2381のL. minor特異的遺伝子(36.9%)と326のL. minorタンデム重複遺伝子(17.4%)が、過剰発現したGOタームに存在している。 さらに、L. minorには12種類のグルタミン合成酵素(GS)と21種類のグルタミン酸合成酵素(GOGAT)をコードする配列が存在するのに対し、S. polyrhizaにはそれぞれ7種類と11種類の配列があった(追加ファイル 15, 16: 図S4、S5; 追加ファイル 17: 表S12)。 両酵素はアンモニウム同化を制御しており、これは L. minor を廃水浄化に利用する際に、おそらくエネルギー生産と組み合わせて重要な生化学的経路となる。 したがって、これらの増幅された遺伝子は、新機能化によって新しい機能を生み出すために分岐する可能性があり、L. minorの効率的な形質転換プロトコルが利用できることから、さらなる機能研究のための候補となる可能性がある。