サーバーダウン

サーバーのディスクが故障した。
サーバー、一から作り直しです。

今年の8月12日から、サーバーが度々落ちるようになった。
頻度は波があり、最初の内は時々なので気にせずほっといたのだが、多い時には日に数回という時もあったりして、困っていた。
症状としては、HDDへの書き込みが出来なくなった後に、panic・一般保護違反・リブート・ハング等が発生している状態だ。

色々問題を切り分けたのだが、どうしても原因追及までに至らない。
8月12日に調整したPT2でも無いし、
ソフトミラーをかけているHDDでも無いし、
RAIDソフトの問題でも無いし、
LVMの問題でもないし、
ケーブル等の接触不良でもないし、
アップデートしたパッケージでも無いし、
ましてやカーネルでも無いし。
でも、DISKに数10~100GBのテスト書き込みをすると、障害は発生するし。
なんじゃ、こりゃ?

と思っていたら、11月6日の夜、ファイルシステムを認識しなくなって、起動しなくなった、、、。

折角ミラーしてたのに、どちらのディスクもファイルシステムを認識しない。
これまでバックアップは部分的にちょろちょろ取っていたのだが、復旧の為には最新のファイルを手に入れたい。
そう、完全なバックアップは取っていなかった。
オペミスで無くす・壊す恐れのあるファイルは、同じサーバー内の別のディレクトリにコピーを取って、バックアップとしていた。
HDDはミラーしてるからハード故障には耐えられるだろう、という期待の下に。
結局、この考えは甘かったという事だ。

試行錯誤して、最後にはtestdiskというツールのおかげでファイルはほぼ全て回収。
復旧作業中も障害は度々発生していたのだが、あわてて買ったCPU・マザーボード・メモリを使い始めてからは、一度も発生しなくなった。
ハード故障で、そんな症状が出るのか、、、。
愕然としながら、OSから入れ直して復旧中←今ここ。

なんだかんだで手間がかかるなぁ。

コメントをどうぞ

メールアドレスが公開されることはありません。

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <img localsrc="" alt="">