このポストは、11 月 14 日に投稿された Windows Azure Benchmarks Show Top Performance for Big Compute の翻訳です。

8,064 コアで 151.3 TFLOPS、実行効率 90.2% を記録

お客様の Big Compute (大規模計算処理) のニーズに高いコスト効率と信頼性でお応えするため、Windows Azureが強化されました。非常に強力でスケーラビリティに優れたインフラストラクチャ、新しいインスタンス構成、および最新の HPC Pack 2012 により、ご使用の Big Compute アプリケーションに最適なプラットフォームとしてご利用いただけるようになります。その証明として、マイクロソフトは LINPACK ベンチマークを実行し、Windows Azure が Big Compute アプリケーションで発揮する能力を検証しました。結果、8,064 コアで 151.3 TFLOPS、実行効率 90.2% という素晴らしいネットワーク パフォーマンスが記録され、この結果を申請したところ、世界のスーパーコンピューターの性能ランキング Top 500 (英語) に選出されました。

Big Compute のためのハードウェア

マイクロソフトでは、Big Compute への取り組みの一環として、お客様のハイ パフォーマンス コンピューティング (HPC) へのニーズに対応した設計のハードウェアを提供することを決定しました。今後、8 コア/RAM 60 GB と 16 コア/RAM 120 GB の 2 種類のハイ パフォーマンス構成を提供する予定です。どちらの構成でも、MPI アプリケーション向けの RDMA 対応 InfiniBand ネットワークが使用可能です。

このハイ パフォーマンス構成は仮想マシン上に構築されます。その仕様は次のとおりです。

  • 2.6 GHz Intel Sandybridge プロセッサ (デュアル プロセッサ)
  • DDR3 1600 MHz RAM
  • ストレージ/インターネット アクセス用 10 GigE ネットワーク
  • RDMA 対応 InfiniBand (IB) 40 Gbps ネットワーク

Windows Azure の InfiniBand ネットワークは、コンピューティング ノード間のリモート ダイレクト メモリ アクセス (RDMA) 通信をサポートしています。メッセージ パッシング インターフェイス (MPI) ライブラリを使用するアプリケーションで RDMA を使用すると、複数のコンピューターのメモリを 1 つのまとまりとして扱うことができます。RDMA ソリューションでは、クラウド環境でベア メタルに近い (すなわち物理マシンに匹敵する) パフォーマンスを実現しています。これは、Big Compute アプリケーションにとって非常に重要なことです。

HPC アプリケーションのほか、工学シミュレーションや天気予報での利用を目的とした計算集約型アプリケーションでは、複数のマシンにまたがるスケーリングが必須となります。RDMA 機能を備えた新しいハイ パフォーマンス構成は、このようなアプリケーションにとって理想的です。高速なプロセッサと待機時間の短いネットワークによって、これまでより大規模なモデルの実行が可能になり、シミュレーション計算の処理時間も短縮されます。

LINPACK ベンチマーク

こうした Big Compute ハードウェアのパフォーマンスを証明するため、LINPACK ベンチマーク (英語) を実行し、その結果を申請したところ、世界のスーパーコンピューターの性能ランキング Top 500 に認定されました。LINPACK ベンチマークはシステムの浮動小数点演算の性能を評価するもので、工学で一般的なタスクである、密な n × n 行列の線型方程式系 Ax = b の解を求めるプログラムを実行し、その時間を測定します。これにより、実用上の問題解決の所要時間に近似するパフォーマンスの数値が得られます。

今回のテストでは、8,064 コアで 151.3 TFLOPS、実行効率 90.2% という結果が得られました。実行効率とは、システムのパフォーマンスが最大理論値にどの程度近いかを示す数値であり、コンピューターのクロック周波数あたりの実行可能命令数に基づき計測されます。また、ネットワークの相互接続機能も、計算クラスターのパフォーマンスと効率に影響を及ぼす要因の 1 つです。このため、Windows Azure では、Big Compute 用に RDMA 対応の InfiniBand を採用しています。

次の画像は、LINPACK テストで 151.3 TFLOPS を記録したときの出力ファイルです。

この結果が、Hyper-V ベースの Windows Azure 環境でホスティングされている仮想マシン上で、Windows Server 2012 を実行して得られたという点にご注目ください。高効率の実装により、Windows Azure 上で実行されるハイ パフォーマ��ス アプリケーションで、オンプレミスの HPC 専用クラスターと同等のパフォーマンスを実現できるのです。

Windows Azure は、パブリック クラウド プロバイダーとして初めて、MPI アプリケーション向けの仮想化された RDMA 対応 InfiniBand ネットワーク機能を提供しています。待機時間の要件が厳しいコードを使用する場合にも、Windows Azure のクラスターなら、2.1 マイクロ秒で 4 バイトのパケットをコンピューター間で送信できます。また、InfiniBand はスループットも高いため、優れたスケーラビリティに加え、高速化とコスト抑制をアプリケーションで実現できます。

アプリケーションのパフォーマンス

次の表は、NAMD 分子動力学シミュレーション プログラム (英語) を、上記の Windows Azure の新しい構成で複数のコアにスケーリングしたときの結果を示したものです。このテストには 16 コアのインスタンスを使用しましたが、32 コア以上で実行した場合には、ネットワーク通信が必要になります。RDMA での NAMD の実行結果は非常に良好なもので、コア数の増加と共に解決時間が順調に短縮されました。

シミュレーションにおけるスケーリングの結果は、実行するアプリケーション、および計算対象のモデルや問題という両面の要因によって変化します。

マイクロソフトでは、現在、いくつかのパートナーと共同でハイ パフォーマンス ハードウェアのテストを進めており、2013 年にはその成果を皆様にお伝えできる予定です。

Microsoft HPC Pack 2012 による Windows Azure Big Compute サポート

Windows Azure では、2 年前から Big Compute のサポートを開始しました。Big Compute アプリケーションでは非常に大きな計算リソースが必要とされ、実行時間も通常は数時間から数日間にも及びます。Big Compute のタスクとしては、複雑な工学問題のモデリング、金融リスクの分析、病理研究、天候シミュレーション、メディアのトランスコード、大規模データ セットの解析などがあります。Big Compute を実行するお客様の間では、計算リソースの需要増大に対応するため、すべての負荷をオンプレミスの設備で実行するのではなく、柔軟性と経済性の高さを備えたクラウド環境を活用する動きが広まっています。

2010 年 12 月に、Microsoft HPC Pack で計算能力をオンプレミスの計算クラスターからクラウドに "バースト" (使用率のピーク時におけるリソース需要の急増に対応して、クラウドのリソースを即座に追加すること) する機能が導入されました。これにより、ピーク時の要求に Windows Azure で簡単に対応できるようになりました。HPC Pack はプロビジョニングとジョブのスケーリングにも対応しており、お客様からは、Windows Azure の高可用性クラウド コンピューティング リソースを活用して短期間で投資を回収できたという声をいただいています。

そして今回、マイクロソフトのコンピューティング クラスター ソリューションとしては 2006 年以降 4 回目のリリースとなる、Microsoft HPC Pack 2012 が発表されました。Microsoft HPC Pack 2012 では、専用サーバー、一時サーバー、デスクトップ コンピューター、および Windows Azure のハイブリッド展開環境を含む計算クラスターを管理できます。クラスターは、完全なオンプレミス環境、スケジュール設定や要求に応じてクラウドに拡張される環境、完全にクラウドで必要に応じてアクティブになる環境のいずれにも対応します。

新しいリリースは Windows Server 2012 をサポートします。さらに、オンプレミスのリソースへのアクセスに使用する Windows Azure VPN 統合機能を備えています。アクセスできるリソースには、ライセンス サーバーや、依存関係に基づくジョブの実効制御、メモリおよびコアに対するジョブのスケジューリング ポリシー、監視ツールなどの新しい機能、さらにデータ ステージングの管理を支援するユーティリティが含まれます。

Microsoft HPC Pack 2012 (英語) は、2012 年 12 月に公開予定です。

Windows Azure での Big Compute の現状

Windows Azure では、開発当初から大規模計算のサポートが考慮されていました。お客様やパートナー様が Microsoft HPC Pack、またはその他の自社アプリケーションを使用して、万単位のコアを有する Big Compute 環境を短期間で構築できます。こうした Windows Azure の機能を既に業務で活用しているお客様もいらっしゃいます。ここで、そのような大規模計算の実施例をご紹介しましょう。

ソルベンシー II 規制のリスク レポート

Milliman 社は、保険数理およびそれに関連する製品やサービスを提供する、世界最大手の企業です。同社の MG-ALFA アプリケーションは、保険および金融業界でリスク モデリングに広く使用されており、Microsoft HPC Pack と統合して、計算を HPC クラスターに分散させたり、Windows Azure に負荷をバーストさせたりすることが可能です。ソルベンシー II 規制に基づくリスク レポートの作成を求められている保険会社のニーズに応えるため、Milliman 社では Windows Azure で MG-ALFA をサービスとして提供 (英語) しています。保険会社はこれを利用することで、オンプレミス クラスターに対する資本投資や管理の手間なしで、複雑なリスク計算を実行できます。このソリューションは 1 年以上前に製品化されており、最大で 8,000 コアの Windows Azure 計算クラスターで実行されたという実績があります。

MG-ALFA は、高い信頼性を維持したまま数万コアの Windows Azure にスケーリングできます。新しいモデルのテストで、Milliman 社は 45,500 コアの Windows Azure 計算クラスターで 5,800 件のジョブを実行し、わずか 24 時間ほどで、100% の成功率ですべての処理を完了しました。このように大規模なリソースでアプリケーションを実行できるため、高速な処理が可能になると同時に、近似値や代替モデルを使用せず、高精度の結果を得ることができます。多くの企業では、四半期ごとに複雑で時間のかかる予測計算を実行する必要があり、十分な計算能力がなければ、結果が出るまで長時間待つか、実行するモデルのサイズを縮小するかのどちらかの妥協を強いられます。Windows Azure により、そのジレンマが解消されたのです。

全世界の保険費用を算出

Towers Watson 社は、プロフェッショナル サービスを提供するグローバル企業です。同社の金融モデリング ソフトウェア アプリケーション MoSes は、世界中の生命保険会社および年金会社で、新商品の開発や金融リスクの管理に広く使われています。MoSes は、Microsoft HPC Pack と統合することで、クラスター間でのプロジェクトの分散機能や、Windows Azure へのバースト機能を提供できます。先月、Towers Watson 社は Windows Azure を同社で優先クラウド プラットフォーム (英語) として採用することを発表しました。

Towers Watson 社との初期のパートナーシップ プロジェクトの 1 つに、Windows Azure の計算環境のスケーラビリティ テストとして全世界の保険費用をモデル化するというものがありました。テスト チームは、全人類 70 億人が生命保険に加入する場合のコストを、MoSes を使用して個別に計算しました。この計算は、リスク中立経済シナリオで、1,000 回繰り返し実行されました。実行時間を短縮するため、MoSes は HPC Pack を使用して、Windows Azure で構築された 50,000 コアの計算クラスターで並列分散処理を行いました。

10 万時間相当の計算がわずか数時間で完了し、Towers Watson 社はこの結果に感銘を受けました。保険会社では、金融モデル構築業務の頻度と複雑化が問題になっていますが、このテストにより、Windows Azure が保険業界にもたらす大きな可能性が明らかになりました。Windows Azure を使用することで、保険会社は金融モデル計算の精度、速度、正確性を高め、リスクと投資の管理を強化できるでしょう。

ゲノム解析の速度向上

クラウド コンピューティングは科学の展望を広げ、ヒトゲノムや病気の解析に役立っています。その例として、全ゲノム関連解析 (GWAS: Genome-Wide Association Study) が挙げられます。これは、ヒトの病気に関連する遺伝子マーカーを検出するものです。

マイクロソフト リサーチの David Heckerman とコンピューター サイエンス研究グループ (英語) は、FaST-LMM という新しいアルゴリズムを開発しました。これは、データ セットの分析により病気と遺伝子の関係を新たに発見するためのもので、これまでよりも数桁大きなデータ セットを扱えるほか、データの中からさらに細かい変調を発見することが可能です。

研究チームでは、アプリケーションのテストを実施するにあたり、Windows Azure に注目しました。Windows Azure の 27,000 コアの計算クラスターで Microsoft HPC Pack と FaST-LMM を連携させ、Wellcome Trust が所有するイギリス人被験者のデータを解析しました。このテストでは、63,524,915,020 組の遺伝子マーカーを解析し、双極性疾患、冠動脈疾患、高血圧、炎症性腸疾患 (クローン病)、リウマチ性関節炎、1 型および 2 型糖尿病の各疾患との関連を調査しました。

HPC Pack により 72 時間のうちに 100 万を超えるタスクのスケジュールが設定され、190 万時間相当の計算が実行されました。同じ計算を 1 台の 8 コア サーバーで実行すると、完了まで 25 年かかることになります。この調査の結果、ゲノムと上記の疾患の間に、予防と治療に画期的な変革をもたらす可能性のある新たな関係性が発見されました。

この結果は、同分野の研究者が自由にアクセスし、各自の研究結果の検証に利用できるようにする予定です。各研究者は、Windows Azure Marketplace 上に公開されたデータにアクセスして、個別の組み合わせと FaST-LMM アルゴリズムを無料で計算に使用できます。

Big Compute

非常に強力でスケーラブルなインフラストラクチャ、新しいインスタンス構成、および Microsoft HPC Pack 2012 の投入により、Windows Azure はお客様の Big Compute アプリケーションに最適なプラットフォームに変革しました。

Big Compute や Big Compute アプリケーションにご興味がおありでしたら、 bigcompute@microsoft.com までご連絡ください。

- Bill Hilf (Windows Azure 製品マーケティング ゼネラル マネージャー)