ファーストサーバのデータ消失事故について。
ネットで「大規模障害の概要と原因について(中間報告)」を読みました。
ここには、おそるべきことが書かれてあります。
原因1「更新プログラムの不具合」
脆弱性対策のためのメンテナンスは、その都度、更新プログラムを作成して行うが、今回、「ファイル削除コマンドを停止させるための記述洩れ」と「メンテナンスの対象となるサーバ群を指定するための記述洩れ」が発生していたという。
「発生」などと自然災害のように表現していますが、これは、あきらかに初歩的なミスでしょう。
劣悪な条件で雇用されたアンちゃんみたいなのが、寝不足か二日酔いで、いつものやっつけ仕事で書いたプログラムに違いないと想像してしまいます。
しかも、毎度手慣れた作業なので、誰も、それをチェックしなかったと。
原因2「メンテナンス時の検証手順の不備」
事前の動作確認の手順は、「あくまでも当該サーバ群を確認すれば足りる」とされていたため、対象サーバ以外に影響が及んだことを確認しなかった。
つまり、確認しないまま、本番に移行したので、関係ないサーバまで巻き込んで、大量のデータを消失させたと。
原因3「メンテナンス仕様の不備」
バックアップ領域にも「同時に更新プログラムを適用」させてしまった。
つまり、バックアップ領域もろともデータを消失させたと。
それで対策(「暫定対策」と称してありますが)としては
1 ダブルチェックを欠かさず細心の注意を払って作業する。
2 対象外サーバの確認作業を追加する。
3 通常のバックアップ以外ではバックアップ領域に修正を加えられないように仕様を修正する。
覆水盆に返らず。
クラウドだけに雲のごとく消えたわけですね。