TOP(サイトマップ)

ハード障害

(はじめに)
はじめに
Solarisって・・・
SunのセミナーとSDC
Solaris 10概要
資格(SCSA,SCNA)
Solarisフォーラム
管理人に連絡

(Solaris基本)

Solarisのインストール
システムの起動と停止
ファイルシステム
オートマウントとマウント
パッケージとパッチ
ユーザの追加と削除
ファイル権限(セキュリティ)
バックアップとリストア
CDE環境
プロセス管理/監視

(ネットワーク管理)

OSIを理解してみる
TCP/IPの設定
(TCP/IP入門)
DNSの設定
NISの設定
NFSの設定(WebNFS,CacheFS)
(NIS、NIS+、DNS違い)
DHCPの設定
1つのNICで複数IP設定

(IO関連)

インタフェース概要
SAFの管理
プリンタ管理概要
プリンタコマンド
SunSolve Online
SCSI情報(KEY,ASC,ASCQ)

(ソフトウェア関連)

Bash
Apache
Solstice DiskSuite
(SDS OSミラー回復)
Veritas VxVM

(OBPについて)

PROM(OBP)の概要
OBPでのキーボード操作
一般的なOBPコマンド
SolarisでOBPの設定
OBPに関するFAQ


(トラブル時の対応)

基本情報
エラーメッセージ
(主要メッセージ一覧)
性能関連コマンド
トレースコマンド
クラッシュダンプ
SunSolve Online

(その他)

小技集
UNIXコマンド
(manマニュアル)
システムチューニング
ネットワークチューニング
UltraSPARC T1について

(FAQ)

rootのPASSが不明
ハングアップかな?
ハードトラブル
OSが起動しない(b)
swap領域の拡張方法

(リンク)

Sun関連リンク
その他リンク
アバウトなJava入門
Perlメモ(逆引き用)

ハード障害(DISK,CPU,MEMORY...)の調査


増設I/O(DISKやDATなど)が認識しないことがある。Solaris 8以降であればdevfsadmコマンドを実行してみよう。それで認識しないのであれば、boot -rで起動します。これでNGならばSCSI IDがダブっているか、物理的に接続されてない可能性が高いです。

次は、パニックなどでシステムがおちたときに以下のキーワードが出力されることがある。lこの場合、大抵CPU/Memory/SystemBoardなどのハード障害が要因である可能性が高い。

(Single-Bit Correctable L2 Cache Events)
・UCU - Uncorrectable L2 Cache ECC error for instruction fetch or data access other than block load.
・CPU - Uncorrectable L2 Cache ECC error for copyout (snoop request).
・WDU - Uncorrectable L2 Cache ECC error for writeback (victimization).
・EDU - Uncorrectable L2 Cache ECC error for store merge or block load. For UltraSPARC III Cu systems, an uncorrectable L2 Cache ECC error detected during a software or hardware prefetch access also generates EDU.

(UCC Event With ME Bit Set)
・UCU - Uncorrectable L2 Cache ECC error for instruction fetch or data access other than block load.
・CPU - Uncorrectable L2 Cache ECC error for copyout (snoop request).
・WDU - Uncorrectable L2 Cache ECC error for writeback (victimization).
・EDU - Uncorrectable L2 Cache ECC error for store merge or block load. For UltraSPARC III Cu systems, an uncorrectable L2 Cache ECC error detected during a software or hardware prefetch access also generates EDU.

(type Solaris panic string)
・ETP - Ecache Tag Parity Error
・WP - [Ecache]Writeback Data Parity Error
・EDP - Ecache SRAM Data Parity Error
・CP - [Ecache]Copyout Data Parity Error
・UE - CP UE Error: Ecache Copyout on CPUnn

*補足
* [AFT0] - Tag for log messages that are associated with corrected ECC errors.
* This includes both corrected ECC memory and ecache faults.
*
* [AFT1] - Tag for log messages that are not ECC corrected (i.e. everything
* else except CE errors) with a priority of 1 (highest). This tag
* is also used for panic messages that result from an async fault.
*
* [AFT2] - These are lower priority diagnostic messages for uncorrected ECC
* [AFT3] or parity errors. For example, AFT2 is used for the actual dump
* of the E-$ data and tags.

ハードウェアのチェックとして、iostat -Eコマンドを見てみるのもよい。Errorsのカウントがあればハードウェアの疑いもしたほうがよい

# iostat -E
sd0      Soft Errors: 0 Hard Errors: 0 Transport Errors: 0
Vendor: MATSHITA Product: CD-ROM CR-172    Revision: SN19 Serial No: [
Size: 0.58GB <582258688 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0
Illegal Request: 0 Predictive Failure Analysis: 0

また、SunのサーバはPOST(Power-On-Self-Test)で、ある程度ハードのトラブルを検出することができます。方法としては、OBPで

 ok setenv diag-level max
 ok setenv auto-boot? false
 ok setenv diag-switch? true


と設定して、サーバの電源をOFFして、ONします。見慣れない文字が出力されてきたらPOSTが実行していると思ってください。メモリなどのエラーであればUncoretable Errorとか出力されます。POSTが終了したら、

 ok show-post-results

というコマンドで結果を見ることができます。POSTが正常終了したら、設定を元に戻します。

 ok setenv diag-level min
 ok setenv auto-boot? true
 ok setenv diag-switch? false


DISK障害のとき・・・

DISKが故障してくると、下記のようなメッセージが出はじめます。
scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci9004,53@c/sd@0,0 (sd1):
SCSI transport failed: reason 'timeout': retrying command
Solarisの場合、SCSIのタイマ値はデフォルトで60秒、リトライは3回します。つまり180秒間無応答の場合は、DISKなどの処理をあきらめます。
デフォルト値は、/usr/include/sys/scsi/targetsのヘッダファイルに記載があります。

ちなみに値を変更する場合は、/etc/systemファイルで書き換えることでリトライ数とタイムアウト値を変更することができます。DISKのデータを取りたい場合など暫定的に値を変更してバックアップするのも手ですが、DISKは壊れる寸前の場合は、設定を変えても無駄です。

/etc/system
:
sd:sd_retry_count=3
sd:sd_io_time=60
:

Google
WWW を検索 Solarisでいきましょか?」内を検索




Copyright (C) 2008 Solarisでいきましょか? All rights reserved