本日、おおいに世間を騒がせたAWS東京リージョンの大規模障害。
当Blogはたまたま稼働を継続しましたが、PayPayなど決済系、ユニクロなど大手小売店のサイトをはじめ、ゲームなど、相当な範囲で長時間にわたってサービスが停止したようです。
この障害の一連の報道で初めて知ったのは、ユーザアカウントによってAZ (Availability Zone)の表示名(ap-northeast-1a,b,c,d)と実際の物理AZが違うらしいとのことです。私のアカウントのWebサーバーはap-northeast-1aですが、違うユーザはap-northeast-1aでも実体は異なっている可能性があるということです。
aは一番使われやすいAZなので、b,c,dを使った方が負荷が小さいのかなと思ったこともありましたが、ちゃんとAWSのほうで平準化しているので関係ないのですね。勉強になりました。
こんなイメージ
実際のAZ | 私 | 誰か |
---|---|---|
apne1-az1 | 1a | 1c |
apne1-az2 | 1c | 1d |
apne1-az3 | 1b | 1b |
apne1-az4(障害) | 1d(障害) | 1a(障害) |
ただ、調べてみたら(VPC-サブネットから調べられます)、私の1aのAZは障害を受けたとされる apne1-az4 でした。apne1-az4でも障害が発生したサーバーは一部だったのでしょうかね。
あと、たまたま復旧後にアクセスしたら、AWS東京リージョンt3,t3aスポットインスタンスが復活していることに気づきました!実は先日発見してAWSについ数日前に直接問い合わせていたのですが、約3週間にわたって使えなくなっていたものをすごいタイミングで対応していただけたようです。t3aはもともと7月末の1週間程度しか使えなかったものなので使えないのが当たり前で、どうやら誰も気づいていなかったぽいですね。
まさかt3,t3aスポットインスタンスの復旧ミスで特定AZが死んでしまったのではないかと一瞬頭をよぎりましたが、当然そんなはずはなく、どうやら冷却装置の故障だったようです。