気まぐれSE日記

地方でエンジニアしてます

HDDのアクセスエラーによるハングアップ

某所のハングするサーバの原因ですが、少しわかりました。
やっぱり、HDDの不良セクタによるアクセスエラーが原因でOSがハングしました。


サーバの電源を入れるとfsckが走るわけでもなく、エラーもなく普通に起動するのですが、1日〜2日起動して放置すると必ずHDDのエラー出してハングしてしまいます。

状況は、画面上は、hdaへのアクセスエラーと読めないセクタが表示されて
ハングし、ログインできない状況。このログは、定期的に出続けててますが、基本的にシステムは止まった状態になり、ネットワークやキーボードからのアクセスは全く受け付けない状態です。なるほど、これじゃあ遠隔でアクセスできないわけね...。

また、画面上に出るエラーがシスログに出力されないのは、既にHDDへアクセス不能になっているからだと思われます。


不思議なのは、Linux起動時にfsckが走らないのが気になります。
あと、前兆のようなものがログに載ってないというのも。
不思議だなぁ...。


根本的には、HDDに読めないセクタが勝手に出来るのがわからんです。
UPSもついてるし、apcupsd とかで自動電源断になっているはずなのになあ。


一応保証期間ぎりぎりだけど、HDDの無償交換できるか交渉してみます。