インシデント

インシデントとは何か?

インシデントとは、ITサービスに対する計画外の中断、またはそのサービス品質の低下として定義されます。ITILフレームワークでは、インシデントをサービスが期待通りに機能していない、またはパフォーマンスが低下している事象として説明しており、ユーザーが通常の業務活動を遂行する能力に影響を与えます。

主要な特性:

特性	説明
計画外	通常の運用を妨げる予定外の事象
サービスへの影響	業務に影響を与える中断または品質低下
検知方法	ユーザー報告、技術スタッフ、自動監視
予防重視	SLA違反前に報告可能で影響を最小化

一般的なインシデントの例:

カテゴリ	例
インフラストラクチャ	サーバー停止、データベースクラッシュ、ストレージ障害
ネットワーク	WAN/LAN障害、VPN障害、接続問題
アプリケーション	ソフトウェアクラッシュ、エラーメッセージ、パフォーマンス低下
ハードウェア	プリンター故障、ワークステーション故障、デバイス不具合
セキュリティ	マルウェア感染、不正アクセス、データ侵害

インシデント vs. 問題 vs. サービスリクエスト

これらの違いを理解することは、効率的なリソース配分、SLAコンプライアンス、ユーザー満足度にとって不可欠です。

比較マトリックス

側面	インシデント	問題	サービスリクエスト
定義	計画外のサービス中断または品質低下	インシデントの根本原因	標準的な変更またはアクセスの正式な要求
性質	何かが壊れている、または機能していない	根本原因、しばしば隠れている	ユーザーがリソースまたは情報を必要としている
緊急性	即座の対応が必要	緊急でない場合あり、分析が必要	標準的なタイムラインに従う
焦点	迅速な復旧	根本原因分析と恒久的な修正	サービスカタログに従った実行
SLA指標	応答時間と解決時間	恒久的な解決までの時間	実行時間
例	サーバークラッシュ、ネットワーク停止	繰り返し停止を引き起こす故障ルーター	パスワードリセット、ソフトウェアインストール
関与スタッフ	サービスデスク、運用	問題管理、スペシャリスト	サービスデスク、実行チーム
文書化	解決策を含むインシデントチケット	分析を含む問題記録	承認を含むリクエストチケット

分類決定ツリー

計画外か?
    ↓
    はい → サービスが低下/中断しているか?
        ↓
        はい → インシデント
            ↓
            類似のインシデントが複数あるか?
                ↓
                はい → 問題記録を作成
    ↓
    いいえ → 標準的なリクエストか?
        ↓
        はい → サービスリクエスト

正確な分類が重要な理由

誤分類の影響:

問題	結果	解決策
サービスリクエストをインシデントとして扱う	サポートリソースの浪費、SLA未達	明確な分類基準とトレーニング
インシデントをサービスリクエストとして扱う	重要な問題の解決遅延	自動優先度評価
インシデントを問題として扱う	サービス復旧の遅延	まず迅速な復旧に焦点を当てる
問題をインシデントとして扱う	根本原因が対処されない	パターン認識と分析

インシデント管理ライフサイクル

完全なプロセスフロー

1. 検知とログ記録
    ↓
2. 分類とカテゴリ化
    ↓
3. 優先順位付け
    ↓
4. 初期診断
    ↓
5. エスカレーション(必要に応じて)
    ↓
6. 調査と解決
    ↓
7. 復旧と検証
    ↓
8. クローズ
    ↓
9. 文書化とレビュー

ステージ1: 検知とログ記録

検知方法:

方法	説明	応答時間	カバレッジ
ユーザー報告	サービスデスクチケット、電話、メール	数分から数時間	既知の問題
自動監視	システムアラート、パフォーマンスメトリクス	数秒から数分	インフラストラクチャ
プロアクティブ検知	予測分析、異常検知	影響前	新たな問題

ログ記録要件:

データ要素	目的	例
タイムスタンプ	応答時間の追跡	2025-12-18 14:23:15
報告者	更新の連絡先	jane.smith@company.com
影響を受けるサービス	範囲の特定	メールシステム
説明	問題の理解	「メールを送信できない、エラー550」
業務への影響	優先度の決定	200ユーザーが影響を受ける
症状	診断の支援	30秒後にタイムアウト

ステージ2: 分類と優先順位付け

優先度マトリックス:

影響 ↓ / 緊急度 →	高緊急度	中緊急度	低緊急度
重大な影響	優先度1 (P1)	優先度2 (P2)	優先度3 (P3)
高影響	優先度2 (P2)	優先度3 (P3)	優先度4 (P4)
中影響	優先度3 (P3)	優先度4 (P4)	優先度5 (P5)
低影響	優先度4 (P4)	優先度5 (P5)	優先度5 (P5)

影響評価:

レベル	ユーザーへの影響	業務への影響	例
重大	500人以上のユーザーまたはサービス全体	収益損失、コンプライアンス違反	基幹業務システムのダウン
高	100-500人のユーザーまたは主要機能	大幅な生産性損失	メールシステムの停止
中	10-100人のユーザーまたは回避策あり	中程度の不便	単一プリンターの故障
低	個別ユーザー、回避策不要	最小限の影響	ソフトウェアの表面的な問題

緊急度要因:

要因	高	中	低
期限	即座/重大	24時間以内	特定の期限なし
回避策	利用不可	複雑な回避策	簡単な回避策
ユーザータイプ	役員、外部顧客	管理職、主要スタッフ	一般スタッフ
時間的制約	ピーク営業時間	通常時間	営業時間外

ステージ3: 初期診断とトリアージ

診断ワークフロー:

インシデント受信
    ↓
ナレッジベース検索
    ↓
    ├─→ 既知の問題? → 解決策適用 → テスト → クローズ
    │
    └─→ 未知? → 基本的なトラブルシューティング実施
            ↓
            ├─→ 解決? → 文書化 → クローズ
            │
            └─→ 未解決? → スペシャリストにエスカレーション

第一線サポートのアクション:

アクション	目的	ツール
ナレッジベース検索	既存の解決策を見つける	ITSM、Wiki
基本的なトラブルシューティング	簡単な問題を解決	スクリプト、チェックリスト
情報収集	エスカレーションを支援	診断ツール
回避策の提供	一時的な救済	KB記事

ステージ4: エスカレーション

エスカレーションタイプ:

タイプ	トリガー	対象	タイムライン
機能的	専門スキルが必要	技術チーム	即座
階層的	SLA違反リスク	管理職	違反前
自動	P1/P2インシデント	オンコールエンジニア	5分未満
リクエストベース	ユーザーの要求	上位権限	必要に応じて

エスカレーション基準:

優先度	第一エスカレーション	第二エスカレーション	役員通知
P1	15分	30分	1時間
P2	1時間	4時間	8時間
P3	4時間	1日	N/A
P4	1日	3日	N/A

ステージ5: 調査と解決

解決アプローチ:

アプローチ	説明	使用ケース	時間
既知の解決策	文書化された修正を適用	繰り返し発生する問題	数分
回避策	一時的なバイパス	迅速な復旧が必要	1時間未満
標準的な修正	一般的な解決	典型的なインシデント	数時間
カスタム解決策	新規の解決	独自の問題	数時間から数日
緊急変更	インフラストラクチャの変更	重大な修正	迅速化

ステージ6: 復旧と検証

検証チェックリスト:

サービス機能が復旧
パフォーマンスが許容範囲内
ユーザーが解決を確認
二次的な問題が発生していない
監視が安定状態を示している
文書が更新されている

ステージ7: クローズと文書化

クローズ要件:

要件	目的	責任者
ユーザー確認	満足度の確保	サービスデスク
解決策の文書化	知識の獲得	解決者
時間記録	SLA追跡	全関係者
カテゴリ/原因の記録	トレンド分析	サービスデスク
フォローアップアクション	再発防止	問題管理

重大インシデント管理

定義と基準

重大インシデントの特性:

特性	説明
広範な影響	500人以上のユーザーまたは重要な業務機能に影響
収益への影響	直接的な財務損失またはコンプライアンスリスク
役員の関与	上級管理職の認識が必要
メディア/公衆の注目	評判への潜在的なダメージ
長期化	標準SLAを超える可能性が高い

重大インシデントプロセス

強化されたワークフロー:

重大インシデント宣言
    ↓
インシデント対応チーム編成
    ↓
コミュニケーション計画の確立
    ↓
↓ (並行活動) ↓
│                        │
調査                  コミュニケーション
│                        │
    ↓                    ↓
解決                  ステータス更新
    ↓                    ↓
検証                  最終通知
    ↓
インシデント後レビュー
    ↓
教訓の文書化

重大インシデントチームの役割

役割	責任	必要なスキル
インシデントマネージャー	調整、意思決定、コミュニケーション	リーダーシップ、ITSM知識
技術リード	調査、解決計画	深い技術的専門知識
コミュニケーションリード	ステークホルダー更新、メッセージング	コミュニケーション、ビジネス理解
ビジネスリエゾン	業務影響評価	ビジネス知識
サポートスペシャリスト	技術調査と修正	専門的な技術スキル

コミュニケーション計画

ステークホルダー更新頻度:

優先度	内部更新	顧客更新	役員更新
P1	30分ごと	1時間ごと	2時間ごと
P2	2時間ごと	4時間ごと	毎日

コミュニケーションテンプレート:

テンプレート	目的	主要要素
初期通知	インシデントの通知	問題、影響、予想時間
ステータス更新	進捗報告	実施したアクション、現在の状況、次のステップ
解決通知	クローズ確認	解決策、検証、フォローアップ

インシデント管理における自動化とAI

自動化のメリット

メリット	影響	測定
速度	60-80%高速な解決	MTTR削減
一貫性	標準化された処理	品質スコア
拡張性	24時間365日の対応能力	処理されたチケット量
コスト効率	人件費削減	チケットあたりのコスト
正確性	人的エラーの削減	エラー率

AI活用のユースケース

1. インテリジェントチケットルーティング

インシデント検知/報告
    ↓
AI分類
    - 自然言語処理
    - 履歴パターン分析
    - 重要度評価
    ↓
自動ルーティング
    - 適切なチーム
    - 適切な優先度
    - コンテキスト含む
    ↓
通知送信

技術:

自然言語処理(NLP)
機械学習分類
ルールベースのルーティングエンジン

2. チャットボット第一線サポート

機能:

機能	説明	成功率
意図認識	ユーザーの問題を理解	85-95%
ナレッジベース検索	関連記事を見つける	80-90%
ガイド付きトラブルシューティング	ステップバイステップの解決	60-70%
チケット作成	エスカレーション用に自動生成	95%以上
ステータス更新	リアルタイム情報提供	99%

対話例:

ユーザー: 「メールにアクセスできません」
ボット: 「メールアクセスのお手伝いをします。いくつか確認させてください:
      1. 他のシステムにはアクセスできますか? [はい/いいえ]
      2. どのようなエラーメッセージが表示されますか? [説明してください]」
    → 診断をガイド
    → 解決策を提供またはエスカレーション

3. 自動インシデント検知

検知方法:

方法	データソース	検知タイプ	応答時間
閾値監視	パフォーマンスメトリクス	制限超過	1分未満
異常検知	パターンのML分析	異常な動作	1-5分
ログ分析	システムログ	エラーパターン	リアルタイム
合成監視	シミュレートされたトランザクション	サービス可用性	継続的

4. 予測的インシデント管理

アプローチ:

履歴データ収集
    ↓
パターン分析(ML)
    ↓
リスク予測
    ↓
プロアクティブなアクション
    - 予防保守
    - リソース配分
    - 早期警告

メリット:

インシデントが発生する前に防止
平均故障間隔(MTBF)の削減
リソース計画の最適化
サービス可用性の向上

自動化成熟度モデル

レベル	説明	自動化率	特性
レベル1: 手動	すべて手動プロセス	0-10%	高労働力、遅い応答
レベル2: 支援	基本的な自動化サポート	10-30%	一部のルーティング、アラート
レベル3: 部分的	自動トリアージとルーティング	30-50%	チャットボット、自動ルーティング
レベル4: 広範	AI駆動の解決	50-70%	一般的な問題の自動解決
レベル5: 自律的	自己修復システム	70-90%	予測的かつプロアクティブ

ベストプラクティス

組織的ベストプラクティス

1. 明確なエスカレーションポリシー

要素	実装
基準	エスカレーションのタイミング(時間、複雑さ、影響)を文書化
経路	エスカレーション階層と連絡方法を定義
トレーニング	定期的な訓練とロールプレイング
権限	対応者にエスカレーション決定の権限を付与

2. ナレッジマネジメント

ナレッジベース構造:

ナレッジベース
├── 既知のエラー(問題解決策)
├── 回避策(一時的な修正)
├── 標準手順(ステップバイステップ)
├── トラブルシューティングガイド(診断)
└── FAQ(よくある質問)

品質基準:

正確でテスト済みの解決策
明確なステップバイステップの指示
定期的な更新と検証
ユーザーフレンドリーな言語
検索可能で適切にタグ付け

3. コミュニケーション基準

コミュニケーション原則:

原則	適用
適時性	定義された間隔で更新
明確性	専門用語を避け、具体的に
完全性	影響、アクション、タイムラインを含む
一貫性	テンプレートと基準を使用
アクセシビリティ	複数のチャネル(メール、SMS、ポータル)

技術的ベストプラクティス

4. 監視と検知

監視カバレッジ:

レイヤー	メトリクス	ツール
インフラストラクチャ	CPU、メモリ、ディスク、ネットワーク	Nagios、Zabbix、Datadog
アプリケーション	応答時間、エラー、可用性	New Relic、AppDynamics
ビジネス	トランザクション、SLAコンプライアンス	カスタムダッシュボード
セキュリティ	アクセス試行、脆弱性	SIEM、IDS/IPS

5. インシデント後レビュー

レビュープロセス:

インシデントクローズ
    ↓
レビューミーティング(48時間以内)
    ↓
分析:
    - タイムラインと対応
    - 根本原因
    - うまくいったこと
    - 改善できること
    ↓
アクションアイテム:
    - プロセス改善
    - トレーニングニーズ
    - ツール強化
    ↓
教訓を文書化して共有

レビュー質問:

カテゴリ	質問
検知	インシデントはどのように検知されたか?より早く検知できたか?
対応	エスカレーションは適時だったか?リソースは十分だったか?
コミュニケーション	ステークホルダーに適切に通知されたか?
解決	修正は効果的だったか?より速くできたか?
予防	再発を防ぐために何ができるか?

パフォーマンスメトリクスとKPI

主要メトリクス

メトリクス	定義	目標	重要性
MTTR	平均復旧/解決時間	4時間未満	サービス復旧速度
MTTD	平均検知時間	5分未満	検知効率
初回コンタクト解決率	初回で解決された割合	70%以上	サポート効果
SLAコンプライアンス	SLAを満たしたインシデントの割合	95%以上	サービス品質
エスカレーション率	エスカレーションが必要な割合	20-30%	プロセス効率
再オープン率	クローズ後に再オープンされた割合	5%未満	解決品質
インシデント量	期間あたりの総インシデント数	減少傾向	サービス安定性

レポートとダッシュボード

役員ダッシュボード要素:

要素	目的
重大インシデント	アクティブなP1/P2インシデント
SLAステータス	リスクのあるSLAと違反したSLA
トレンド	量、MTTR、カテゴリのトレンド
トップ問題	最も一般的なインシデントタイプ
チームパフォーマンス	チーム別の解決率

課題と解決策

一般的な課題

課題	影響	解決策
アラート疲労	重要な問題を見逃す	閾値の調整、アラートの統合
誤分類	リソースの浪費、SLA未達	トレーニング、決定ツリー、自動化
コミュニケーションギャップ	ステークホルダーの不満	テンプレート、定期更新、ツール
ナレッジサイロ	一貫性のない解決	集中化されたKB、文書化文化
ツールの乱立	統合の複雑さ	ITSMプラットフォームの統合
スタッフの燃え尽き	高い離職率、エラー	自動化、ワークロード管理

統合の課題

一般的な統合ポイント:

システム	統合目的	課題
監視ツール	自動チケット作成	アラート相関
CMDB	影響評価	データの正確性
コミュニケーション	通知	複数チャネル管理
ナレッジベース	解決策の取得	検索の関連性
変更管理	変更相関	プロセスの整合

業界標準とフレームワーク

ITILフレームワーク

ITILインシデント管理原則:

原則	説明
サービス復旧	根本原因ではなく迅速な復旧に焦点
SLAコンプライアンス	合意されたサービスレベルを満たす
継続的改善	インシデントから学ぶ
ユーザー重視	業務への影響を最小化

NISTガイドライン

NISTインシデント対応ライフサイクル:

1. 準備
2. 検知と分析
3. 封じ込め、根絶、復旧
4. インシデント後の活動

適用対象: セキュリティインシデント、サイバーセキュリティイベント

ISO 20000

要件:

文書化されたインシデント管理プロセス
優先度割り当て基準
SLAコンプライアンス追跡
継続的改善活動

実例

例1: Eコマースプラットフォームの停止

シナリオ: ピークショッピングシーズン中の決済ゲートウェイ障害

対応:

検知: 2分以内に自動監視アラート
分類: P1 - 重大(収益への影響)
チーム: 重大インシデントチーム編成
コミュニケーション: 顧客通知、ステータスページ更新
調査: サードパーティAPI障害を特定
回避策: バックアップ決済プロバイダーに切り替え
解決時間: 45分
インシデント後: 自動フェイルオーバーを実装

例2: メールシステムの劣化

シナリオ: 2,000人のユーザーに影響する遅いメール配信

対応:

検知: サービスデスクへのユーザー報告
分類: P2 - 高影響
診断: データベースパフォーマンス問題
解決: データベース最適化とインデックス再構築
コミュニケーション: 2時間ごとのステータス更新
解決時間: 6時間
フォローアップ: 予防保守をスケジュール

例3: セキュリティインシデント

シナリオ: ファイルサーバーでのランサムウェア検知

対応:

検知: セキュリティ監視アラート
分類: P1 - 重大(セキュリティ)
即座のアクション:
  1. 影響を受けたシステムのネットワーク隔離
  2. セキュリティチームの動員
  3. 役員への通知
調査: フィッシングメールベクターを特定
修復: マルウェア除去、バックアップからのシステム復旧
解決時間: 24時間
フォローアップ: セキュリティ意識向上トレーニング、メールフィルタリング強化

よくある質問

Q: インシデントと停止の違いは何ですか?

A: 停止はサービスが完全に利用できないインシデントの一種です。すべての停止はインシデントですが、すべてのインシデントが停止ではありません(例:パフォーマンス低下はインシデントですが停止ではありません)。

Q: インシデントはどのくらい迅速にログ記録すべきですか?

A: インシデントは検知後すぐに、重大な問題の場合は数分以内にログ記録すべきです。自動システムは即座にログ記録し、手動報告は15-30分以内にログ記録すべきです。

Q: 誰がインシデントを報告できますか?

A: 誰でも可能です—エンドユーザー、ITスタッフ、自動監視システム、外部パートナー。すべてのインシデントソースが有効です。

Q: 回避策は文書化すべきですか?

A: はい。回避策は恒久的な修正が実装されるまでの一時的な解決策としてナレッジベースに文書化すべきです。

Q: インシデント記録はどのくらいの期間保持すべきですか?

A: 通常、トレンド分析とコンプライアンスのために1-3年間ですが、要件は業界と規制によって異なります。

Q: SLAが違反された場合はどうなりますか?

A: 違反を文書化し、ステークホルダーに通知し、根本原因を分析し、是正措置を実施します。多くの組織はSLA違反に対するエスカレーションまたはクレジットポリシーを持っています。

インシデントとは何か?

インシデント vs. 問題 vs. サービスリクエスト

比較マトリックス

分類決定ツリー

正確な分類が重要な理由

インシデント管理ライフサイクル

完全なプロセスフロー

ステージ1: 検知とログ記録

ステージ2: 分類と優先順位付け

ステージ3: 初期診断とトリアージ

ステージ4: エスカレーション

ステージ5: 調査と解決

ステージ6: 復旧と検証

ステージ7: クローズと文書化

重大インシデント管理

定義と基準

重大インシデントプロセス

重大インシデントチームの役割

コミュニケーション計画

インシデント管理における自動化とAI

自動化のメリット

AI活用のユースケース

自動化成熟度モデル

ベストプラクティス

組織的ベストプラクティス

技術的ベストプラクティス

パフォーマンスメトリクスとKPI

主要メトリクス

レポートとダッシュボード

課題と解決策

一般的な課題

統合の課題

業界標準とフレームワーク

ITILフレームワーク

NISTガイドライン

ISO 20000

実例

例1: Eコマースプラットフォームの停止

例2: メールシステムの劣化

例3: セキュリティインシデント

よくある質問

参考文献

関連用語

ITSM(ITサービスマネジメント)

ITIL – Information Technology Infrastructure Library(ITインフラストラクチャライブラリ)

ゼロタッチ解決

AIエージェント

API統合

DevOps

クッキー設定

必要なクッキー

分析クッキー