2017年8月3日 アラインメント

系統樹推定や分子進化学的解析のためには、起源を同じくする座位の対応を推定する必要があります。この操作を多重配列アラインメントと呼びます。近年の配列決定技術の進歩に伴って、多重配列アラインメントの推定にもこれまでと違う問題が生じてきています。それらの問題に対応するためにMAFFTプログラムに新しく追加している機能を紹介します。これらの新規能は、以下の三点に関わります。

第一に、一つのアラインメントに含める必要のある配列の数が増大しています。多数の配列を処理するためのアラインメント手法について最近論争が起こりました。Boyce et al. (2014) は、巨大データの処理には、現在よく使われている累進法よりも、ランダムな鎖状案内木を使った累進法の方が適していることを報告しました。ランダムな鎖状案内木による累進法とは、ランダムに選んだ二本のアラインメントから開始し、残りの配列を一本ずつ加えていくという簡単なものです。これは、30年来信じられて来た、アラインメント構築のために配列の間の進化的関係を利用すべきであるという考えに反する驚くべき結果です。その後、反論とこの説を補強するデータの両方が報告されましたが (Tan et al 2015, Sievers et al 2014, Fox et al 2016)、私達の得た結果 (Yamada et al 2016) を主に使ってこの議論を紹介します。

第二に、シークエンシングエラーや遺伝子推定の難しさから、間違いの多い配列が増えています。例えば、アミノ酸配列の途中に無関係な部分配列が混入してしまっていることはよくあります。そのような可能性を考慮せずに解析を行うと、変な結論が得られてしまいます。多重配列アラインメントにおいては、これは「合わせすぎ」問題の一種と考えられます。これを低減するために試みている方法 (Katoh & Standley 2016) を紹介します。

第三に、実際に生物学的に意味のある情報を得るには、巨大データを処理するだけでなく意味のある部分を抽出することが必要です。解析の目的によって必要なデータは異なりますので、ある程度の手作業は避けられません。配列アラインメントに関連して手作業が必要になる過程の一つは、計算に含める配列の選択と思われます。Web上のMAFFT計算サービスにおいて提供している、配列を対話的に取捨選択する機能 (Kuraku et al 2013) を紹介します。