久々にクラウドサービスで大規模な障害ニュースが
AWS、東京リージョン23日午後の大規模障害について詳細を報告。

AWSとはAmazon Web Services、Amazon.comにより提供されているクラウドコンピューティングサービス(ウェブサービス)である。

この中でも東京リージョンと言う、国内で運用サービスしているに影響が
このニュースを受けて気になった事を

利用メーカーがAWS利用をどこまで公開しているか定かでは無いですが
システムサービス側から確認する事で、どのくらいの規模の会社やサービスが
AWSを利用しているかと言う事が明らかになった。

AWS 東京リージョンで発生した大規模障害についてまとめてみた

国内の錚々たる企業やサービスが連ねる
さすが世界最大のクラウドサービスメーカーで有ると言える。
逆に一極化による大規模化と言う面は否めない
当然、利益も莫大であろうが、障害での機会損失(被害額、保険料)も莫大と予想できる。

ファイルセーフはファイルセーフにあらず

もう一つ気になるキーワードは
ファイルセーフはファイルセーフにあらず
システムの運用を経験した方なら「ファイルセーフ」と言う言葉は知っているでしょう。

ファイルセーフとはなんらかの装置・システムにおいて、誤操作・誤動作による障害が発生した場合、常に安全側に制御すること。またはそうなるような設計手法で信頼性設計のひとつ。これは装置やシステムが『必ず故障する』ということを前提にしたものである。


コンピュータやシステムは絶対では無いと言う事を前提に設計します。
故障やトラブルを前提に考え、出来るだけ最小工数で復旧したり
故障する可能性有る部分を助長化して安全性を担保する考え方です。

さすがに世界のAmazon社のクラウドシステム、しかも世界規模のユーザー数
絶対の安心と安定感を売りにしていた会社の屋台骨部分が揺らいだトラブルです。

規模は違いますが、私自身も同様のトラブルの経験があります。

今から20年位前(前職時)に社内24時間稼働の共有サーバーの運用担当をしており、現場の情報共有や指導票のサービスを行っていました。
当時は今ほど性能も良くない割に高額なサーバーを使っており、故障はある程度許容しながら
トラブル時のバックアップ等に気を使って運用していました。

利用ユーザーも増えて来た中、予算をかけてサーバーの助長化を進め
当時高額であったHDDのRAID化の予算を取り導入。

RAIDは、複数台のハードディスクを組み合わせることで仮想的な1台のハードディスクとして運用し冗長性を向上させる技術。

これで、一安心。
一番の故障原因のトラブルも助長化しこれで夜も安心して寝られる・・
と思ってしばらく運用する中

「HDDトラブルが発生!!」
高額な費用をかけファイルセーフ対応(助長化)もしたのに

原因はHDDを接続してたコネクター部分が壊れて、データのやり取りが出来ていなかったのが原因でした。
しかも数百円位の接続コネクターの熱暴走(故障)

結局、トラブルなんてこんなものです。

助長化やファイルセーフに高額な予算をかけても、シンプルな一つのトラブルで
大規模に影響する時代です。

トラブルに絶対は有りません、経験を重ねながら影響や対策を最小限に
抑える事に 知恵を重ねて行くしかありません。

今回のトラブルを見て、担当者の心中を察したニュースでした。