2017年8月4日 ゲノム解析実習

データ解析のツールとして、身近な Excel を使う場合には、行番号の最大値は 1,048,576、 列番号の最大値は 16,384 となります。一般に、データの各項目を横方向、つまり列の方向 に列挙し、複数のデータを縦方向、つまり行の方向に並べます。このデータ仕様の場合は、 データの最大次元数が 16,384 次元、データ件数の最大値が約 100 万件となります。

これを超えるビッグデータを手軽に統計処理したい場合には、R言語などのオープンソ ースのパッケージがあります。各種の統計解析のモジュールや高度なグラフ描画機能が用 意されているだけでなく、統合開発環境も充実しているフリーソフトウェアなので、初心者 向けのバイオインフォマティクスの実習などで活用されている代表格のソフトウェアと言 えます。このため、はじめてR言語を使ってデータ解析を行う入門者向けの解説書も数多く 出版されています。書店などでR言語の入門書を見かけたら、手に取ってざっと眺めて見み て、なんとなくできそうな感じがしたら、是非ともチャレンジしてみてください。

しかし、実際のデータ解析の現場で、R言語で用意された機能だけを使って、データを処 理しようとすると、どうしても個別のニーズにそぐわない箇所が生じてしまいます。この場 合には、R言語のパッケージ自体の改良や新規のパッケージ開発が必要となりますが、この 開発作業に必要なプログラミング・スキルは相当なレベルであり、現実的ではありません。

そこで本実習では、最近話題のディープラーニングなどの人工知能のモジュールなど、プ ロ向けのパッケージが豊富に用意されている一方で、小学生向けのプログラミング入門書 もたくさん出版されていて、かつ、1000円程度のシングルボードコンピュータを使って IoT を学ぶための代表的な言語としても大いに注目を浴びている Python 言語を使います。 Python ならではの極めて短いコードで、実用的なデータ解析用のプログラムを開発するプ ロセスを体験していただいて、パズルを解いているときのような『プログラミングの楽しさ』 を味わっていただければと思っております。