障害の概要
原因について
2月28日に定期性預金の取引に関わるデータ移行作業45万件、その他月末の取引25万件の更新処理が重なり、システムに負担がかかった。その結果3月1日15時にかけて、一部のATM、サービスが正常に利用できない事象が発生した。
障害の範囲
- 2月28日にはみずほダイレクト、ATMによる定期性預金等の取引ができなくなる ※1
- 定期性預金の取引不能の累計件数が463件(解消済み) ※1
- ATMを利用した一部の顧客について、ATMから通帳、キャッシュカードが排出されない ※2
- ATMトラブルが発生した顧客に対し、速やかな対応ができず不十分な結果となった。 ※2
※大きく分けて2件の障害が発生
対応状況
- 28日中には定期性預金のトラブルに関しては28日中に対応済み
- ATMは3月1日15時時点で全ATMが正常稼働
- みずほダイレクトは3月1日0時に復旧
- 通帳、キャッシュカードの返却は対応中である
- 他行とのATM手数料はみずほが負担することで順次対応中である
所感について
開発当時にまとめサイト等でIT業界のサクラダファミリアと呼ばれたことが記憶に新しい。
頭取の記者会見を見ながら感じたこととしては、技術者視点から見ると「他人事ではない」という恐怖で、銀行ではないものの同じように「膨大な負荷がかかったため、リアルタイム性が必要なシステムが応答不能になる」は経験したことがあり、戦慄しかない。
記者会見に臨まれた方々は当然として、復旧にかかわった技術者の心境は推して知るべしですね、帰れない休めない。。。
また世の中完全無欠のシステムではなく、システムに障害はつきものなので、障害が発生したこと自体は驚くことではないですが、やはり通帳、キャッシュカードがATMから取り出せない現象は強烈ですね。ITに詳しくなくない人に対しては特にそうだと思います。
記者会見で他のメインバンクと比べられるのは見てる側でもツライ。
気になる点として
月末は定期処理が発生している中で、データ移行45万件の移行処理をなぜ重ねたのかというのがピンときませんでした。負荷の見積もりの甘さにつながる箇所ではあるのですが、特別な処理をする場合は多少手厚く準備をするものではないのかな、という印象です。
負荷の見積もりは難しい
想定不足といえばそれまでなんですが、やはり「どれぐらいの負荷に耐えられるか」を算出するのは難しい。
どんなにそれらしい論理的な負荷テストを行っても、障害が出れば叩かれるのがシステム障害。
もし続報が出るようなら注視したいですね。