気まぐれSE日記

地方でエンジニアしてます

ここ最近、NECのサーバばかりがとらぶっててウツです

今日は、というか昨日某所のNECサーバのRaid1が吹っ飛んだので急遽その対応に行ってきました。
その場所というのが、長野市なんです。上越からだと近いからまだ良いんですけどね。


RaidカードはMegaRaid UltraSCSI 320タイプのもので型番は知らんです。
このサーバは前から微妙に不調だったらしく、再起動をかけたらなんとRaidカードがエラー吐いて
起動しなくなったとのこと。エラーの内容は、Raid設定自体が吹っ飛んでいたと言うことのようです。

根本的な原因はDisk1とDisk2でRaid1のミラーリングしているのですが、

1.ある時にDisk1が中途半端にぶっ壊れかけたらしく、Disk1のファイルが破損した状態になった。
2.で、OSが固まったりして動作が不安定になったのでサーバを再起動。
3.このとき、おそらくDisk1がエラーLED点灯で、Disk2の片側だけで動いていたと考えられる。
4.また、ある時に定期メンテで再起動。
5.この時点で、なぜかDIsk1が正常状態になって稼働してしまったらしい。
6.Disk1→DIsk2に自動的に同期したと推測。つまり壊れている方のDisk内容と同期したらしい。
7.次の再起動でRaid設定もアボーン。Disk2の内容もファイル破損状態でアボーン。
(もちろん生き残っていて欲しい側のDisk2だけで起動を試みましたが、起動に必要な特定のファイルが見つからないというエラーが出てOS起動せず終了)
8.わけわかんね状態!


普通は、3の状態でRaid異常に気づくのでディスク交換して助かるんだと思います。それを多分見過ごしたんでしょうね。でもこんなので壊れるのって信じられないです。



こういった現象は、ほかのサーバでも前にあったような気がします...。そのときはRaid5で、1台だけDiskが壊れたので交換したんですがなぜか結局元通りに復元されず、しばらくしたらOSがぶっ壊れて起動しなくなりました。そしてOS入れ直しになる羽目になりました。このときもMegaRaidカードだったんですがね...。いったいなんのためのRaidカードなのかと思います。Raid5で復旧できないなんて考えられんかった。



しかしまあ、最近NECのサーバばかりがトラブルになってしまい妙ですね。NECタイマーかな。