【日本語版】 今週発生した Windows Azure の故障
こんにちは!
フォーラム オペレーターの服部清次です。
皆さん、今朝の World Baseball Classic (WBC) アメリカ戦は観られましたか?
もちろん、僕は仕事中でしたので観ていませんが、、、なぜか日本が 9-4 で勝ったことを知っています。。。 (^^;)
明日の決勝戦は、今大会5度目の韓国戦!
また新たな名勝負を見せてほしいですね。
そして、ぜひ日本代表チームに WBC 2連覇を達成してほしいと思います!
さて、今日は、久々にアメリカの Windows Azure ブログに掲載されている Windows Azure 関連のニュースをお届けします。
こちらは、アメリカ現地時間の3月18日(水)に公開されたスレッドです。
* なお、日本語に翻訳するうえで表現のニュアンスを変えている箇所などがありますので、ご了承ください。
◆ 今週発生した Windows Azure の故障 (原題: ”The Windows Azure Malfunction This Weekend”)
まず最初に重要なことを言わなければなりません。 本当に申し訳ございませんでした。 Windows Azure の動作に不具合が生じた結果、Community Technology Preview (CTP) に参加してくださった多くの方々に、サービスの機能低下やダウンタイムといった問題が発生してしまいました。 なお、Windows Azure ストレージは影響を受けませんでした。
このスレッドの残りの部分では、不具合の内容とその影響、私たちが予定している修正について説明したいと思います。
故障の内容
3月13日(金)に行なわれた OS の定期アップグレードの最中に、ネットワークの問題により、Windows Azure 内の展開サービスの速度が低下し始めました。 これにより、多くのサーバーがタイムアウトとなり、機能を停止しました。
これらのサーバーが機能を停止した時点で、私たちは監査システムからアラートを受信しました。 同時に、ファブリック コントローラーは、影響を受けたアプリケーションを別のサーバーに移行することによって修復するという手順を自動的に開始しました。 ファブリック コントローラーは、大掛かりな修復手順を行なうにあたって非常に注意深く設計されているため、一度に少数のアプリケーションを修復し始めます。 この一連のプロセスに長い時間を要したため、私たちは並行してアップデートプロセスを続行することを決め、無事、すべてのアプリケーションを修復することができました。
影響
サーバーが停止した際、単一インスタンスのみを実行している全てのアプリケーションが停止しました。 インスタンスの停止により機能が低下したアプリケーションがありましたが、複数のインスタンスを実行している、ごく少数のアプリケーションも停止しました。
また、修復プロセスの継続中にファブリック コントローラーの作業がたまっていたため、多くのアプリケーションに関しまして、Web ポータルから管理タスクを実行する機能も利用できなかったようです。
将来的な防止策
私たちは、今回の経験から多くのことを学びました。 私たちはネットワークの問題に対処し、故障に対して素早く的確に対応できるように、修復アルゴリズムを改善/調整する予定です。
アップグレード中にも継続して利用するために、アプリケーションの所有者の皆さんには、各ロールの複数のインスタンスでアプリケーションを展開することをお勧めします。 私たちは、プロジェクト テンプレートやサンプルにおいて、2つをデフォルトとする予定です。 クォータ制限に対する2つ目のインスタンスは数えませんので、CTP に参加されている皆さんは、各アプリケーション ロールの2つのインスタンスを快適に実行することができます。