«前の日記(Wed, 06 Oct 2010 (平成22年)) 最新 次の日記(Fri, 08 Oct 2010 (平成22年))» 編集 RSS with tsukkomi RSS without tsukkomi

実験的「実験的日記」


Thu, 07 Oct 2010 (平成22年) [長年日記]

_ ログ監視

RAID のエラーは月曜日の夜から出てたことがわかってるのでもっときちんと監視しておけばと思って調べてみたら、どっちも Vista 以降でないと使えないのか。うちの事務所のサーバはまだ Server 2003 なのだけど、こういうのが標準でパッとできないのに Server を名乗る OS なんて……

これを使ってテキストファイルを作ってメールで投げる、が早いのかな。

_ RAID 再構築への道

Dell から委託された会社のエンジニアの人が到着。これまで四、五人の人に来てもらったことがあるけど、だいたい予想の範囲内の第一印象。「え、この人が!」と驚くくらいの人に一度は会ってみたいな。

前回の雷被害の修理とは違って、ハードディスクを一本交換するだけだからか、普段の設置場所に置いたままでも大丈夫とのことなので全然整理されてなくて恥ずかしいサーバ部屋(と言ってもボクと他に数人がいつも使ってる部屋)でそのまま作業をしてもらった。

まず「Dell SAS RAID Storage Manager という Windows から RAID の状態を見られるツールが実はあるのですけどインストールしますか ?」と言われ、この障害を発見するのにけっこう苦労した(全員が退社するまで待ってからサーバを再起動してユーティリティを動かして……)のを思い出したのでインストールすることに。インストール後、シャットダウンして、ディスク交換、そして、再起動、RAID カードの BIOS 設定ユーティリティでディスクアレイを設定しなおして再構築が始まっていることを確認したら、そのまま Windows を起動。これで RAID Storage Manager を起動して、再構築が順調に進んでいることが確認できればそれでおしまい、だったのだけど、やっぱりそう簡単にはいかなかった。

Windows にログオンした直後に "Controller ID: 0 Background Initialization detected uncorrectable multiple medium errors:(PD 1:0 Location 0xa8fb78X 0)."(Xのところは 5 から b までの数字)というエラーポップアップが順々に七個出てきて、最後に "Controller ID: 0 Rebuild failed due to target drive error: PD0:0 ." が出てしまい、もしかしたら生きてたほうのディスクにも何か障害 or 前兆が出ているのかもしれないと言われて、ちょっと顔が青くなった。ただし夕方時点でのサーバのバックアップデータはあるので、顔が青くなったのはバックアップから書き戻す作業はこっちでやらないといけないけどそれが何時までかかるのかという理由でしかないのは以前よりは進歩したと言える。エンジニアの人もこっちがひとまずトラブルへの備えはきちんとしていることはわかっているので内心ものすごく焦ってたりということはたぶんなかったと思う。バックアップなんてなかったり、あっても同じ物理ディスクにバックアップを取ってたり(ドライブレターが違うので別のディスクだと考える人はやっぱりいるらしい)という所に行って、期待とエンジニアにできることの限界のギャップをどう説明したものか悩むことも少なからずあるそうだ。ボクならそんな場所には頼まれても行きたくない。

さて、サポートセンターと連絡を何度か取っていたエンジニアの人がもう一度起動しなおしてみましょう、と言いながら再起動してみると……、まったく同じエラーがまた発生。うわぁ、これは今晩も徹夜コースなのかと覚悟を決めたところ、彼曰く「再構築は問題なく進んでいるように見えるんですよね」。

たしかに RAID カードの BIOS 画面では RESYNCING と表示されてたし、設定ユーティリティで状態を確認してもおかしなところは見られない。ではもう一度だけ Windows を起動しなおしてみましょう、と祈るような気持ちで再起動、ログオンしてみるとなぜか今度はエラーポップアップが出ない。RAID Storage Manager で進捗状況を確認すると順調に再構築が進んでいるので、そのままじりじりカウントアップしていく数字を二人で眺めながら、雑談したりしてた。

話をした中で意外だったのは「このクラスのタワー型サーバでここまでしっかり保証を付けていらっしゃるところはほとんど見ないです」との言葉。だって、障害対応を自分で青い顔をしながら徹夜してするくらいだったら(実際に何度かした訳だし)、そして、稼働しているシステムと保存してあるデータがうちの会社にとってどれだけの価値かを考えたら、五年契約で二十万くらいの出費は安いものだよね。それともう一つ、「うちの会社は hp のメンテナンスも請けているのですけど、どちらのお客様も一度故障を経験するとそのメーカーの製品は壊れやすいと言って別のメーカーに乗り換えてしまわれるんです。修理している側から見ればそんなに故障率に差があるとは思えないのですけれども」とも言ってた。たしかに中身のパーツはたいてい一緒(特にハードディスクなんて)なんだから差なんかそうあるわけないよね。

そんな話をしている間も再構築は順調に進んでいるので、十五分くらいして作業は終了ということになった。たいした作業はしてないのに一時間半以上経過してた。

そして、現在「再構成 69%」まで順調に来たところ。再構築完了後に OS 再起動してみるかどうかをすごく悩んでる……

目次

«前の日記(Wed, 06 Oct 2010 (平成22年)) 最新 次の日記(Fri, 08 Oct 2010 (平成22年))» 編集