障害監視とは?
ネットワークにおける障害監視とは、エンドユーザーの利用状況に影響が出たネットワークやシステムの不具合をリアルタイムに把握できるようにすることを言います。
障害監視の方法としては、以下を確認することが有効です。
- ネットワークから監視対象機器へPingコマンドを実行して応答があるか
- 機器のネットワークの応答時間が正常な範囲内に収まっているか
- サーバー内でサービスやシステムプロセスが正常に起動しているか
- 装置のCPUやメモリー等のリソースを監視し、値が正常な範囲内に収まっているか
- Webサービスの場合、サービスのURLにアクセスしてページが表示可能か
障害は発生後に短時間で特定して解消する方が、ビジネスに与える影響を最小限にできるため望ましいというのは言うまでもありません。
ポイントは支障が出る前に把握すること
ネットワーク障害が発生すると、管理部門は支障が生じているエンドユーザーから問い合わせやクレームを受け取ります。その問い合わせで障害を把握しているようでは、ネットワークやシステムを安定運用できているとは言えません。
ポイントは、ユーザーに支障が出る前に障害を把握することです。ITインフラに関する前述の項目をリアルタイムに監視し、しきい値を超えたら管理者に通知が届く環境が不可欠です。
そのため、多くの管理者が障害監視をツールで実現しています。ManageEngineが提供するOpManagerもシステムの安定運用を目的に障害監視を簡単に実現するツールのひとつです。機器3台までの死活監視やパフォーマンス監視、ログ監視をずっと無料で簡単に実現できる評価版も提供しています。
無料で使えます[機能・監視数 無制限]
ここからは、OpManagerで実現できる障害監視機能について紹介します。OpManagerは、アラート発生時に、メールを使用して担当者に通知したり、外部プログラムや設定したシステムコマンドを実行する、障害通知機能を備えています。
- アラートの色分け、履歴の参照
- 重大な障害を見逃さない、繰り返し通知機能
- SNMPトラップと企業MIBのサポート
- Syslog送信/SNMPトラップ送信
- しきい値に応じたアラート設定
- Windowsイベントログ監視
- Syslog監視
- ジョブ管理機能
アラートの色分け、履歴の参照
OpManagerは、優れたアラート処理機能を提供します。ネットワーク上で発生した全てのアラートから、不要なアラートをフィルリングして、重要なアラートだけを管理者に通知します。ユーザーインタフェース上でも、管理者が一目でステータスを把握できるように、重要度に応じて各アラート色分け表示します。また、管理者はアラートに関係する履歴の表示、手動によるアラートのクリア、削除ができます。
アイコン | ステータス | 意味 |
---|---|---|
重大(Critical) | デバイスへのポーリングに連続5回未応答 | |
警告(Trouble) | デバイスへのポーリングに連続3回未応答 | |
注意(Attention) | デバイスへのポーリングに1回未応答 | |
サービスダウン (Service Down) | サービスやインターフェスなどがダウンしている状態 | |
クリア(Clear) | デバイスへのポーリングに応答有り(通常状態) | |
非管理、メンテナンス中 | メンテナンス中など、監視をしていない状態 |
重大な障害を見逃さない、繰り返し通知機能
管理者がアラートを確認するまで、障害発生から指定した間隔で繰り返し管理者に通知します。繰り返し通知の他、障害発生から指定した時間が経過してから通知をするオプションも選択できます。 重要なアラートを見逃すことなく、確実にサーバー障害やネットワーク障害に対処する支援をします。
SNMPトラップと企業MIBのサポート
今日ネットワーク機器では、障害発生時にSNMPトラップを送信する機能が実装されています。優れた障害監視システムはSNMPトラップをサポートし、重要な情報を管理者に通知します。 OpManagerではSNMPトラップを標準でサポートしています。さらに企業MIBのトラップを追加することができます。OpManagerでは、受信したSNMPトラップに含まれるVarbindのマッチングもフィルタとして設定できます。異なるベンダーの装置を所有している場合でも、ベンダー特有のMIB情報を入手することにより、装置の重要なイベントを監視できます。
Syslog送信/SNMPトラップ送信
ネットワーク機器には、障害発生時にSNMPトラップを送信する機能が実装されています。企業MIBのトラップを追加することができます。SNMPトラップ送信は、SyslogやSNMPトラップを上位の監視マネージャーやアプリケーションへの送信する機能です。日立製作所社のJP1、ヒューレット・パッカード社の Network Node Manager やOperations Software、IBM社のTivoli Netcoolなどのシステム監視ツールとOpManagerを併用している場合、監視工数の削減に役立てることができます。
しきい値に応じたアラート設定
OpManagerは、様々なアラート処理をサポートしており、装置やサービスの停止時に管理者に通知します。加えて、装置やサービスの応答時間がある値を超えた場合にもアラート通知できます。管理者は応答時間やパフォーマンス監視項目にしきい値を設定し、そのしきい値条件の違反時にアラート通知します。
- アラートに段階別のしきい値を設定(注意、警告、重大)
- リアーム値(しきい値違反を解除する値)を指定
- アラート内容の確認
- メンテナンス設定
- エスカレーションルールの定義
Windowsイベントログ監視
- 標準およびカスタムのWindowsイベントログを監視
- イベントを無視する設定も可能
Syslog監視
- Syslogを監視
- 重要度に応じてアラートを発生
ジョブ管理機能(ITワークフロー)
ネットワークの運用管理におけるルーチンワークを、自動的に実行する機能です。ネットワーク障害の一次対応や、周期作業の自動化に活躍します。装置、Windowsサービス、プロセス、HTTP、FTP、ファイル、フォルダー、VMwareサーバーなどに対するタスク設定に対応しています。