気まぐれSE日記

地方でエンジニアしてます

HDD死亡

2005年末に構築したてのSMTPサーバが死にました。

構成は、こんな感じ。
型番 : NEC Express5800/i110Ra-1h (N8100-1119)
※1Uハーフラックマウントタイプです。

CPU :Intel Pentium M 1.73GHz
メモリ:2.0GB
HDD :SATA 80GB (Maxtor 6L080M0/ ドライバは ata_piix)
NICIntel PRO/1000 PCI Express (ドライバ e1000 v6.3.9)
OS :TurboLinux 10 Server 最新パッチ済。


ご臨終寸前時のログはこんな感じです。

Jan 26 13:13:12 smtp kernel: ide: failed opcode was: unknown
Jan 26 13:13:12 smtp kernel: hda: status timeout: status=0xd0 { Busy }
Jan 26 13:13:12 smtp kernel:
Jan 26 13:13:12 smtp kernel: ide: failed opcode was: unknown
Jan 26 13:13:12 smtp kernel: hda: no DRQ after issuing WRITE
Jan 26 13:13:15 smtp kernel: ide0: reset: success
Jan 26 13:13:47 smtp kernel: hda: status timeout: status=0xd0 { Busy }
Jan 26 13:15:30 smtp kernel: hda: lost interrupt
Jan 26 13:15:31 smtp kernel: hda: task_out_intr: status=0x50 { DriveReady SeekComplete }

この後、至る処のファイルが見えなくなって死亡。
再起動しても起動せず。

うわーんッ手感じです。


数日前から、イヤーなログは出ていたらしいんですが、
今日の午後になって、pingtelnetが応答せず。
「メール出せねぇよコラッ!!」てやばいことになりました。
幸い代替HDDがあったので5分で復旧しましたが...
どうも、OSとディスクの相性悪い気がする。


稼働させて、一ヶ月ももたないのは正直、困るです。

これと同じ構成のサーバでMaxtorのディスクの奴が
結構あるから一気に壊れるなんて事があったら
逃亡したい。

それとも、OSまるごとNortonGhostでディスクコピーしたのが
マズカッタのかなぁ。

Linuxは突如壊れ出すみたいでよくわからんです。




今回の死亡事件とは関係無いかもしれないけど
一つ気になるのが、他にも全く同じ構成のサーバでdmesgすると
こんなログが出ます。

Losing some ticks... checking if CPU frequency changed.
〜省略 20行ほど同じ内容〜
Losing some ticks... checking if CPU frequency changed.
Losing too many ticks!
TSC cannot be used as a timesource.
Possible reasons for this are:
You're running with Speedstep,
You don't have DMA enabled for your hard disk (see hdparm),
Incorrect TSC synchronization on an SMP system (see dmesg).
Falling back to a sane timesource now.

これの意味がよくわからないです。

たしかに、CPUがPentiumMでSpeedStepだから
CPUの周波数が変わったって言うところはわかるのですが
これとHDDのDMAが無効なのとかSMPだの、よくワカランです。


だからどうしろって言うんでしょうね?