クラウドコンピューティング

製品概要

シーケンシング技術の発展は生物研究に大きなチャンスをもたらすと同時に、膨大なデータの収集・分析・保存・転送・セキュリティーなどの問題ももたらしました。これらの問題を解決するために、BGIはカスタムデータの保存サービスと高性能な計算力を提供します。

BGIのクラウドコンピューティングプラットフォームは、ゲノミクス領域で頻繁に利用される基礎データと豊富な経験を組み合わせ、大規模なNGSデータと分析プロセスを融合したデータ解析プラットフォームを提供します。世界中の研究者にセルフサービスシステムを提供し、より低コストで効率的に膨大なデータを解析できます。


技術特長

ハードウェアとソフトウェアを融合したBGIのクラウドコンピューティングプラットフォームは、各国の研究者をエンド•ツー•エンドでサポートします。

 

1.ストレージ

研究者に手頃な価格で高性能なデータの保存サービスと、長期的なデータ保存サービスを提供します。30PBを超えるBGIの総ストレージ容量は、ここ数年で急激に増加しています。

 

20130606013.jpg

20130606014.jpg

参照配列の収集やダウンロードなどの手間を軽減できるよう、一般的なゲノムデータと関連データのセットサービスを提供しています。

 

2.計算

BLC/SGEクラスターに基づいたBGIのクラウドコンピューティングサービスは、マッピング・SNP・SV・Indel・CVN解析やDe Novoアセンブリーなどのデータ解析サービスをサポートしています。

計算能力は最大400T flopsですが、近々1,000T flopsにアップグレードされる予定です。最先端の高性能計算ノードを持つBGIのクラウドコンピューティングプラットフォームは、大規模なゲノム解析に適しており、分析時間も大幅に短縮できます。

BGIではSOAP・ゲノム融合分析・トランスクリプトーム解析・エキソームキャプチャー・Digital Gene Expression Profiling (DGE)・Small RNA分析などのゲノムアプリケーションの開発に取り組んでいます。BGIが独自に開発したSOAP(Short Oligonucleotide Alignment Program)は単なるアライメントツールから、次世代シーケンサーのデータを全面的に解析できる手法にアップグレードしました。また、総合的なデータ解析を提供するために、ABySSやVelvetなどのオープンソースソフトウェアの開発にも取り組んでいます。

20130606015.jpg

 

3.データの納品

データの納品は、専用サーバへのアップロード(FTP・HTTPS・Aspera)とメディアによる送付(USBメモリ・ハードディスク)があります。データ量が50GB未満の場合、専用サーバへアップロード(FTP・HTTPS・Aspera)します。Asperaには、2つの方法があります。

a.速度(Mbps)/月(例:30 Mbps/月)

適用条件:大規模なデータの連続転送

b.ネットワークトラフィック+最小帯域幅(例:200GBのデータセット+5 Mbps/月)

適用条件:小規模或いは中規模なデータの断続転送

データ量が50GB以上の場合、USBメモリ・ハードディスクで納品します(非暗号化)が、

暗号化されたデータでの納品も可能です。

Linuxの場合:TrueCrypt/CryptSetupでの暗号化を推奨しています。

Windowsの場合:Western Digital社の暗号化されたハードディスクを推奨しています。

20130606016.jpg

 

4.バイオインフォマティクストレーニングとカウンセリングサービス

BGIでは、生物・物理・数学・医薬・コンピューティングなどの分野に跨る200人の専門チームが、各種バイオインフォマティクストレーニングとカウンセリングサービスを行っています。データ解析や報告書に関する質問からマンツーマンのトレーニングまで、基礎からサポートします。


ワークフロー

20130606017.jpg



技術パラメーター

 

1.ファイル入力フォーマット

2.ストレージ

a. シーケンサーからリアルタイムで直接データを保存

30PBの総ストレージ能力

b. 完全なデータとバックアップシステム

3.分析

a. 高い計算能力:400T flops超

b. 多仕様化の計算ノード:16GB – 1TB RAM



データのセキュリティ

20130606018.jpg

全面的なデータ管理システム・暗号化されたログイン認証とUSBキーで、ユーザーのデータは安全に守られています。