障害検知とは?
ネットワークにおける障害検知とは、ネットワークやシステムの不具合を検知することを言います。また、ネットワークにおける異常検知とは、安定して運用できているネットワークやシステム、サービスの状態とは異なる状態が発生したことを検知することを指します。
ネットワークの障害や異常を検知する方法としては、以下を確認することが有効です。
- ネットワークから監視対象機器へPingコマンドを実行して、応答があるか
- 機器のネットワークの応答時間が正常な範囲内に収まっているか
- サーバー内でサービスやシステムプロセスが正常に起動しているか
- 装置のCPUやメモリー等のリソースを監視し、値が正常な範囲内に収まっているか
- Webサービスの場合、サービスのURLにアクセスしてページが表示可能か
異常や障害は発生後に短時間で特定して解消する方が、ビジネスに与える影響を最小限にできるため望ましいとされます。
障害検知・異常検知を実現するためのポイント
情シス担当者やサーバー管理者がシステムの異常を知るきっかけとして、システムの利用者やエンドユーザーからの
「アクセスできない」「サービスが遅い」
という声を受けて異常を知り、調査を開始するケースがあります。しかし、問題が発生してから調査を開始すると、調査すべき範囲が大きく広がり、短時間での障害復帰の難易度が高まります。つまり、エンドユーザーから通報を受ける前に管理者が検知できている方が望ましいということは言うまでもありません。また、夜間や休日に発生した障害への対応など、情シス担当者やサーバー・システム管理者の負荷は非常に高いと言えます。
異常検知・障害検知のツールを使用してシステムを構成する重要な要素を監視することで、管理者は、エンドユーザーから通報を受ける前に自動的に問題の発生を把握し、影響が大きくなる前にいち早く対処することが大切です。
障害の迅速な検知を実現する監視ツール
発生した障害をいち早く検知することを実現させるために、多くの管理者が異常や障害の検知を監視ツールで迅速化しています。ManageEngineが提供するOpManagerも監視ツールのひとつです。OpManagerは、ネットワークやサーバーを定常的に監視するため、システム内で発生した異常状態や障害の発生個所や発生日時を、即時検知することが可能です。OpManagerで検知した異常状態や障害は、「アラート」として一覧表示され、障害が解決されるまで表示され続けます。
10分で障害検知を構築!無料で使えます[機能・監視数 無制限]
また、アラートの発生と同時にメールや音声等で管理者に通知することや、スクリプトやコマンドを実行して対応を自動化することが可能です。OpManagerで、柔軟なネットワークやサーバー障害管理を実現できます。
OpManagerで実現可能な異常検知・障害検知は以下の通りです。
3段階の障害状態の定義
OpManagerでは、応答時間やパフォーマンス監視項目にしきい値を設定可能です。そのしきい値条件の違反時にアラートを発生させて、管理者にお知らせします。しきい値の条件は3段階設定可能です。緊急度に応じたしきい値を設定し、各段階の対応プロセスを定義することで、重大な障害の発生予防につながります。
障害機器を一目で把握できる可視化機能
アラート一覧
確認済みのアラートに確認済みを意味するマーク(チェック)をつけることで、新しいアラートと認識済みのアラートを区別して管理できます。また、確認済みのアラートでは確認を行った管理者の名前が表示されます。
アイコン | ステータス | 意味 |
---|---|---|
重大(Critical) | デバイスへのポーリングに連続5回未応答 | |
警告(Trouble) | デバイスへのポーリングに連続3回未応答 | |
注意(Attention) | デバイスへのポーリングに1回未応答 | |
サービスダウン (Service Down) | サービスやインターフェスなどがダウンしている状態 | |
クリア(Clear) | デバイスへのポーリングに応答有り(通常状態) | |
非管理、メンテナンス中 | メンテナンス中など、監視をしていない状態 |
ポップアップ通知
障害のアラートを画面右下にポップアップで表示し、迅速な障害対応を促します。
メンテナンス設定
管理者は、一時的に装置を管理対象からはずすことができます。定期メンテナンスやアップデートで装置を停止する場合に役立ちます。 設定した時間が経過すると、装置のステータスは管理状態に戻り、障害発生時にはアラートを表示します。
メールや音声による通知・プログラム実行による対応自動化
OpManagerは、アラートの発生を管理者に通知できます。メールによる通知の他、外部プログラムの実行や音声による通知も可能です。利用環境に合わせて、アラートの通知方法を使い分けることが可能です。
アラート発生時に実行可能な通知機能・自動化機能は以下の通りです。
- メール通知
障害発生時に、指定したメールアドレスにアラートの内容を送信します。 - チャット(Slack)通知
障害発生時に、情報をSlackのチャンネルやユーザーに通知できます。 - システムコマンド実行・プログラム実行
障害発生と同時にサーバー上でコマンド実行やプログラム実行ができます。
「警子ちゃん(アイエスエイ社)」との連携の詳細はPDF資料(別のウィンドウで開く)をご参照ください。 - 画面上での音声再生(Webアラート)
障害発生時に音声(ビープ音)で通知できます。 - Syslog送信・トラップ送信
他のネットワーク管理製品へアラートをSyslog・トラップとして送信します。 - ヘルプデスクソフトウェアへのチケットログ作成
エスカレーションルール
アラートには、エスカレーションルールを設定できます。 たとえば、現在~1時間以上解決できていないアラートの一覧を作成し、必要に応じて定期配信することも可能です。
設定方法(動画)
監視アラートに伴いメール通知を実行する設定を紹介します。