わたしの経験では、バックアップの定期復元テストは有用だった。本記事で経験した内容を紹介する。
背景
とあるウェブサービスで、データベースを吹っ飛ばし、6重のバックアップが全滅していた話を聞いてぞっとしたから。
問題とその対策
- ファイルサーバーへのバックアップが、一部ダウンロードされていなかった
- バッチファイルの待機時間が長くて、別のタスクで実施された再起動で中断していた。待機時間を短く変更
- ファイルサーバーで、古いファイルが自動削除されていなかった
- バッチファイルを修正
- 設定に追加したサイトのバックアップが、ファイルサーバーにダウンロードされていなかった
- サーバー側のバックアップファイル作成時間がバッチファイル実行時間より遅かった。順序を一致させた
- ローカルでバッチ処理するパソコン乗り換えで、一部処理されないサイトが発生
- ダウンロード管理表を使って、タスクを正しい時間に実行されるよう修正
- 復元作業手順書に書かれていない処理が分からず復元失敗
- 手順書を現状に即した内容で修正
- 復元先を間違えて、復元失敗
- 手順の中で、復元先を間違わないよう、日本語でディレクトリが分かるようにツールを変更
波及効果
- 管理者がだれでも短時間で復元できるようになった
- 手順書の強化に寄与できた