AIデータ分析コラム【17】障害対応の自律化に向けた取り組み　～生成ＡＩに期待する自律運用～

近年、ICTシステムの運用や管理業務では、属人化解消、運用コスト削減し、品質向上のために、自動化や自律化の検討が進んでいます。将来的には、完全な自律化を実現し、障害や人的介入がゼロのシステムが求められます。特に、非定型業務である異常検知や障害対応は重要なポイントで、AIを活用した異常の早期発見や自律運用が期待されています。本コラムでは、異常検知AIの現状と、生成AIによるシステムの自律運用の未来について説明します。

ICTシステム異常検知の背景と従来課題

従来、ICTシステムの異常検知は、オペレータの経験や仕様に基づき、装置から収集したメトリクス毎に閾値などのルールを設定して行うため、想定外の異常は検知できず、大規模障害に繋がることがありました。多様な装置から収集される大量のメトリクスに、閾値などのルールを設定・維持するには、膨大な時間と手間を要します。また、複数のメトリクスに関連した複雑なルールは設定が困難でした。

閾値などのルールベースの手法以外に、異常データを用いる教師あり機械学習の手法も検討されてきましたが、運用前に異常データが揃っていることはなく、部分的に異常データを用意して教師あり機械学習のモデルを作成しても、発生頻度が極端に低いものや未知の異常には対応できませんでした。
そこで、正常データのみから異常を検知する教師なしアルゴリズムのアプローチが検討されてきました。AI異常予兆検知ソリューション@DeAnoSもこの1つです。

AI異常予兆検知ソリューション @DeAnoSとは

DeAnoS®は、ICTシステム等から収集される大量の監視メトリクスを平常状態として与え、それらからの乖離を異常として検知します。また、異常に寄与する監視メトリクスを異常の要因として推定します。当社では、DeAnoS®をベースに、運用に必要なデータ収集・蓄積機能、可視化機能、アラーム通知機能、管理画面のWebGUIを付加した@DeAnoS異常予兆検知ソリューションを提供しています。
当商品の詳細は以下をご参照下さい。

ソリューション：AI異常予兆検知ソリューション　＠DeAnoS | NTT-AT
コラム：【第４回】"いつもとここが違う"をAIが検知！ | NTT-AT

異常検知AIの運用の現状

@DeAnoSをはじめとする教師なし機械学習の多くは、平常状態からの乖離度合いを異常度として出力します。ただし、長期的に運用されるICTシステム等で、以下のようなパターンを網羅的に含めて、平常状態として監視メトリクスを与えることは難しく、異常検知の精度は100％にはなりません。
(A) イベントに伴う一時的な変化
(B) 工事による一時的な変化
(C) 長期的な傾向変化
(D) 学習時に含まれていなかった正常パターン（時間変動、季節変動など）
そのため、オペレータは以下の対応が必要です。なお、(A),(B),(C)はお客様の要件によって、異常として扱う場合もあります。

▪️異常検知結果の真偽判断：異常を検知した場合、(A)～(D)の異常ではないパターンか、真に異常かを切り分ける必要がある。
▪️モデルの最新化：(A)～(D)の異常ではないパターンの場合、必要に応じて学習モデルを更新する必要がある。

@DeAnoSで検知した異常の真偽判断の基本的なフローは以下になります。　
(1) 異常度の閾値で検知
(2) 要因推定機能で、異常度に寄与したメトリクスを確認（通常、2つ以上のメトリクスが見つかる）
(3) 要因メトリクスの元データを確認し、ドメイン知識や工事情報を元に総合的に判断

例として、複数装置間のネットワークトラフィックの流れを分析している場合、以下のように判断します。

▪️ネットワークトラフィックの流入流出量のバランスが崩れていたら異常の可能性がある
▪️一時的にネットワークトラフィックの流入流出量が増加している場合は、イベントの可能性がある
▪️継続してネットワークトラフィックの流入流出量が増加または減少している場合は、設定変更や利用傾向変化の可能性がある
▪️異常に見えた場合でも、工事期間と重なっており、工事完了後に異常度が下がっている場合は、工事要因の可能性がある

異常可能性が高い場合は異常要因箇所の状態やログを詳細分析して具体的な事象を把握し、異常が確定したらオペレータの経験や運用マニュアル、過去のナレッジに基づき、対応策を策定、実施します。
見つけた異常の扱いは、ルール化できるものはルールベースに追加し、ルール化できないものはナレッジに追加し、引き続きDeAnoSで監視し、再発したときはナレッジから判断します。
このように、異常検知AIを用いることで、未知の異常発見の可能性は上がりましたが、効果的に運用するためには、異常検知結果の真偽判断と、学習モデルの最新化、ナレッジの蓄積が欠かせません。

生成AIを用いたシステム運用支援の未来

近年、生成AIの発展が目覚ましく、様々なシーンで利用され、システム運用も大きく変わり始めています。前に述べた通り、システム運用の現場では、異常検知AIや様々なツールが導入されオペレータの負荷になっていますが、生成AIがこれらのツールの運用を支援し、異常の発見、原因究明、解決策の提案をサポートすることが期待されています。

生成AIは言語能力の向上だけでなく、生成AI連携機能も併せて発展しており、RAGと呼ばれる外部ファイルやデータベースを生成AIが参照する機能や、予め登録した任意のツール（Web検索や数式演算など）を生成AI経由で実行する機能があり、これらのアウトプットを反映して生成AIが回答することができるようになってきています。

生成AIを用いたシステム運用支援では、以下が期待されています。現在多くの製品が(a)(b)の商材をリリースしており、(c)にも取り組んでいる状況です。
(a) 運用ドキュメント、マニュアル、ナレッジの検索サポート
(b) 異常検知AIなどの運用ツールの使い方や設定のサポート
(c) 異常の原因究明、解決策の提案サポート

生成AI連携のツール機能は、生成AIが与えられた指示（たとえば発見した障害の自動復旧）を達成するために必要なツールを呼び出して、最終的な回答に至るまでツール実行を繰り返します。生成AIに指示する内容や文章の書き方によって、挙動をコントロールすることができます。現状は、生成AIが100%正しい回答ができるわけではなく、既存の運用スキームの中で生成AIにどこまで担当させるか検討することが重要です。
将来的には、生成AIを活用した自律運用システムは、以下のような特長を持つでしょう。

▪️成長するナレッジと生成AIを用いた障害原因・対処方法の提案により、システム運用担当の属人化解消、ミス削減、運用品質向上・均質化を実現
▪️AIを用いた異常・予兆の自動検知により、早期に障害対応に着手でき、ダウンタイムや影響範囲の極小化などで障害対応のコストや稼働を軽減
▪️ナレッジの蓄積・共有のリアルタイム化、生成AIによる表記ゆれ解消、環境に合わせた進化（最適化）などによるナレッジの利活用促進でシステム運用を高度化

自律運用システムの実現には、生成AI技術だけでなく、セキュリティやプライバシーなどの懸念も解決する必要があります。一方で、生成AIを活用した自律運用は、ICTシステムの運用効率や品質を飛躍的に向上させる可能性を秘めています。

執筆者

飯塚　貴士（いいづかたかし）

NTTアドバンステクノロジ株式会社
デジタルAI事業本部　アドバンスデータアナリシスビジネスユニット

サーバ・ネットワークインフラの構築、各種データ分析業務に携わり、近年は異常検知ソリューションの開発・導入に携わる。
現職では、AIを活用したデータ分析のビジネス展開に従事。

お問い合わせ

AIデータ分析コラム

このコラムは、NTT-ATのデータサイエンティストが、独自の視点で、AIデータ分析の技術、市場、時事解説等を記事にしたものです。

本コラムの著作権は執筆担当者名の表示の有無にかかわらず当社に帰属しております。

お問い合わせ

AIデータ分析コラム【17】障害対応の自律化に向けた取り組み　～生成ＡＩに期待する自律運用～

ICTシステム異常検知の背景と従来課題

AI異常予兆検知ソリューション @DeAnoSとは

異常検知AIの運用の現状

生成AIを用いたシステム運用支援の未来

関連する商材

ナレッジ駆動型システム運用自動化ソリューション

執筆者

お問い合わせ

AIデータ分析コラム

Column 関連コラム

AIデータ分析コラム【17】障害対応の自律化に向けた取り組み ～生成ＡＩに期待する自律運用～

ICTシステム異常検知の背景と従来課題

AI異常予兆検知ソリューション @DeAnoSとは

異常検知AIの運用の現状

生成AIを用いたシステム運用支援の未来

関連する商材

ナレッジ駆動型システム運用自動化ソリューション

執筆者

お問い合わせ

AIデータ分析コラム

Column 関連コラム

AIデータ分析コラム【17】障害対応の自律化に向けた取り組み　～生成ＡＩに期待する自律運用～