HDDのアクセスエラーによるハングアップ
某所のハングするサーバの原因ですが、少しわかりました。
やっぱり、HDDの不良セクタによるアクセスエラーが原因でOSがハングしました。
サーバの電源を入れるとfsckが走るわけでもなく、エラーもなく普通に起動するのですが、1日〜2日起動して放置すると必ずHDDのエラー出してハングしてしまいます。
状況は、画面上は、hdaへのアクセスエラーと読めないセクタが表示されて
ハングし、ログインできない状況。このログは、定期的に出続けててますが、基本的にシステムは止まった状態になり、ネットワークやキーボードからのアクセスは全く受け付けない状態です。なるほど、これじゃあ遠隔でアクセスできないわけね...。
また、画面上に出るエラーがシスログに出力されないのは、既にHDDへアクセス不能になっているからだと思われます。
不思議なのは、Linux起動時にfsckが走らないのが気になります。
あと、前兆のようなものがログに載ってないというのも。
不思議だなぁ...。
根本的には、HDDに読めないセクタが勝手に出来るのがわからんです。
UPSもついてるし、apcupsd とかで自動電源断になっているはずなのになあ。
一応保証期間ぎりぎりだけど、HDDの無償交換できるか交渉してみます。