読者です 読者をやめる 読者になる 読者になる

猫好きな老体気味SEの備忘録

タイトル通り、不定期更新、基本猫の話題は奥さんのブログに他力本願

今日は固い感じの「ビッグデータと統計科学の実践的利活用事例」

f:id:inf12ty:20140118231611j:plain

本日は、まじめにセミナー行ってきました。

しかも、有料です!(もちろん、自腹)

日本では、「技術士」という資格がありますが、私は持ってません。

今日は、技術士の方々が集う社団法人「日本技術士会」が開催した「1月度技術士CPD中央講座」ってのに行ってきました。

このイベントを知ったきっかけは、講師の一人であるUSP研究所からのメールでした。

通常スルーするところなんですが、USP研究所の人の話はどこかで聞きたいと思ってましたし、東京農工大の石井教授という人が「医療、農業、環境分野におけるビッグデータ分析」というタイトルだったので、青山ツインビル西館に行ってきました。

 

イベント案内ページは、こちらです。

1月度技術士CPD中央講座(第119回)|公益社団法人 日本技術士会

 

◆「医療、農業、環境分野におけるビッグデータ分析」
石井 一夫 氏(東京農工大学 特任教授(ゲノム科学)、技術士(生物工学部門)、博士(医学) )

資料は、公開されてませんね。紙では配布されました。

この話は、今後勉強を進めようと思っている分野なので、導入編としては十分満足でした。もちろんDNAの配列の話はちんぷんかんぷんでしたが、種の系統をDNAの画像処理で昔とは比べ物にならないほど早く作ることができるようになってました。

ただし、使っているPCはそれなりでしたね。ランニングコストも数百万/Hour、DNA検査試薬も数十万/回とか、検査に失敗すると1千万弱のお金が無駄になるみたいな世界でした。

DNAを正しく識別する装置としては、その専門性、正確性が必要なので、しょうがないですね。ただ配列データになってしまえば、統計科学の世界になりますから、Hadoop(オンプレ)やAWSで投入できる予算に応じたデータ分析を行うことができる状況になっているので、石井教授以外のお3方は、研究者さんに活用してもらうように事例紹介という立場で発表されてました。

重要なのは、「一度集めてしまえば」というところです。

集め方は、専門の装置を使って、パターン認識させるとかで、できるだけ「生データ」を長期間貯めることさえしてしまえば、

分析手段はECOな方法がいくつもあるという時代なんですよ!

さて、イルミナ社の話です。

ここでは、「次世代シーケンサ」という装置を提供しているところのようです。これですかね・・・縁がなさそうですが・・・

システム – 次世代シーケンサー MiSeq – イルミナ株式会社

とにかく、この装置でDNAを画像処理して、テキストデータに変換させます。(→DNA塩基配列というらしい)

テキストデータになってしまえば、
一般家庭でよく転がっているPCで、解析できてしまいます。

「うちには転がってるPCなんて無いよ」って人は、後述のAWS時間貸しで解析を楽しみましょう。

もう少し簡単にまとめると、

  1. 画像処理 ⇒ DNA塩基配列取得
    CASAVA
  2. DNA塩基配列を連結、整列、編集
    Velvet、SQAPdenovo、Trinity、など
    Bowtie、BWA、など
  3. 統計処理、視覚化、データマイニング
    S-PLUS/R

解析事例-Ⅰ
次世代シーケンサーデータの品質管理

こんな問題があるようです。

  • サンプル濃度の間違い
  • 試薬濃度の間違い
  • 操作の荒さ
  • 電圧の不適
  • データ転送のコマ落ち

そもそもDNAってのは、数億の塩基断片を配列にしてるわけですが、、、(いや、私は全く知りませんので、興味がある人は自動的にできるリンクをクリックしてください)、次世代シーケンサーデータのクオリティが40段階に分類されるんだそうです。

このクオリティにばらつきがあると、せっかく処理した塩基配列の信頼性にかけてしまいますよね。

かといって、全部のデータを全てチェックするってのも無理がありますから、100等分したところから1,000個ずつリードする方法(モンテカルロ法)でサンプル抽出して、クオリティデータを作るそうです。

このサンプル抽出で、全体のデータクオリティが推定できることになります。

1,000個の選択には、Rの乱数を使って「無作為」にやっていましたね。

解析事例-Ⅱ
進化系統樹の最適化

(あとで書きます。ごめんなさい。)

解析事例-Ⅲ

学会発表前ということで、資料はあんまりありませんでしたが、

現代の5大疾患の一つである「精神疾患患者」の診断方法を客観的に、というかかなりの精度で行うことが可能になりそうだという発表になります。

発生率は、今やガンの2倍以上です。(診断が結構グレーですけどね・・・)

これもゲノム分析の応用で、DNAを統計的有意検定で「感度」と「特異度」という分類をすると、健常者と精神疾患患者を明確に分類できてしまうというものです。

資料や論文は近日公開らしいですが、これは今後のメンタル医療分野が大きく変化しそうな話だと思いました。楽しみです。

 

一旦、今日はここまで。