データインサイダー

AIOpsとは?

AIOps とは、ビッグデータに人工知能や機械学習を適用して IT 業務を自動化、改善する、IT の運用手法を指します。AI を利用することで、大量のネットワークデータやマシンデータを自動的に分析し、パターンを検出して、既存の問題の原因を特定したり、将来の問題を予測して予防に役立てたりできます。

「AIOps」という言葉は、2016 年にガートナー社によって提唱されました。ガートナー社は、『AIOps プラットフォームのマーケットガイド』の中で、AIOps プラットフォームを、「ビッグデータと人工知能 (AI) または機械学習機能を組み合わせて、可用性やパフォーマンスの監視、イベントの相関付けと分析、IT サービスの管理と自動化といった IT 運用のさまざまなプロセスやタスクを改善または部分的に刷新するようなソフトウェアシステム」と説明しています。

AIOps の基本

運用管理で人工知能をどのように使用するか?

AIOps の目的は、AI の特徴である処理の速さと正確さを IT 運用に取り入れることです。ネットワークの拡大と複雑化が進む今日、IT 運用管理は一段と難しいものになってきています。従来の運用管理ツールや手法ではもはや、多様化した複雑なネットワーク内のさまざまなソースから発生する未曾有の量のデータに対応できません。AIOps は、以下の機能によってこの課題を解消します。

  • 複数のソースからデータを取り込む:あらゆるものがつながる今日の複雑な IT 環境で生成されるデータの量、速度、多様性は、従来のアプローチ、ツール、ソリューションで想定されていたものではありません。これらの目的は、データを統合、集約して、平均化することであり、データの再現性は考慮されません。一方、AIOps プラットフォームでは、環境内のあらゆるタイプの大規模データセットを取り込むと同時に包括的な分析のためにデータの再現性を維持することが重視されています。
  • データ分析を簡素化する:AIOps プラットフォームの大きな特徴の 1 つは、速度も量も異なるあらゆる形式のデータを収集できることです。収集したデータは自動的に分析され、将来の問題の予測と予防、および既存の問題の原因究明に役立てられます。
aiops-vision

Using machine learning and big data, an AI platform helps IT deliver greater business value.

AIOps プラットフォームとは?

ガートナー社によると、AIOps プラットフォームとは、ビッグデータと機械学習を組み合わせて、生成されるデータをスケーラブルに取り込み、分析することにより、IT 運用を支援するシステムを指します。AIOps プラットフォームでは、複数のデータソース、データ収集方法、分析技法、表示方法を同時に使用できます。

ガートナー社は、2018 年版の『AIOps プラットフォームのマーケットガイド』の中で、「AIOps プラットフォームは、監視ツールに AIOps 機能を組み込んだよりも多くの重要機能を提供する」と述べています。真の AIOps プラットフォームは、「ビッグデータと機械学習機能を組み合わせて、IT 環境で生成されるかつてない量、多様性、速度のデータをスケーラブルに取り込み、分析することにより、あらゆる主要な IT 運用業務を支援できる」システムだと説明しています。

AIOps プラットフォームには、保存されたデータの分析と、データの取り込み時点でのリアルタイム分析の両方の機能が求められます。

ガートナー社の定義による AIOps プラットフォームの主要機能は以下のとおりです。

  • ソースやベンダーを問わず複数のソースからデータを取り込む
  • 取り込み時点でリアルタイム分析を実行する
  • 保存されたデータの履歴分析を実行する
  • 機械学習を活用する
  • インサイトと分析に基づいてアクションまたは次のステップを開始する
AIOps の用途

AIOps の主なユースケース

ガートナー社によると、AIOps の主なユースケースには以下の 5 つがあります。それぞれについて以下で詳しく説明します。

  1. ビッグデータ管理 (量、多様性、変化、速度)
  2. パフォーマンス分析
  3. 異常検出
  4. イベントの相関付けと分析
  5. IT サービス管理
Application of AI powered by Machine Learning
  1. パフォーマンス分析:AIOps の主なユースケースの 1 つがパフォーマンス分析です。AI と機械学習を活用して、大量のイベントデータをすばやく収集、分析し、問題の根本原因を特定します。IT 部門の主要業務の 1 つであるパフォーマンス分析は、今日、データの増加と多様化によって複雑さを増しています。そのため、従来の手法では、たとえ機械学習テクノロジー内蔵のツールを使っても、データの分析が困難になりつつあります。AIOps は、より高度な AI 技法を取り入れて大規模データセットを分析することで、データの増加と複雑化の問題に対応します。将来起こりうる問題を予測し、根本原因分析をすばやく実行できるため、問題を未然に防ぐことも可能です。
  2. 異常検知:IT の異常検知(「外れ値検知」とも呼ばれます) では、データの中から、問題があることを示唆する異常値、つまり、データセット内で履歴データと比較して突出しているイベントやアクティビティを特定します。これらの異常値は、異常イベントとも呼ばれます。
       
    異常検知は、アルゴリズムに基づいて行われます。トレンド分析アルゴリズムでは、単一の KPI について、現在と過去を比較して動作が監視されます。スコアが異常なほど高くなると、アラートが生成されます。凝集分析アルゴリズムでは、動作が類似する一連の KPI が監視され、1 つ以上がほかと異なる動作をすると、アラートが生成されます。
       
    AIOps では、より迅速で効果的な異常検知が可能です。対象の KPI の動作が識別された後、その実際の値と機械学習モデルの予測値との差が異常に大きくなっていないかが自動的に監視されます。
  3. イベントの相関付けと分析:イベントの相関付けと分析では、関連する複数の警告によって生成される大量のイベントを解析して、その基となる原因を究明し、修復方法を特定します。従来の IT ツールでは警告が大量に発生するだけで、問題に関するインサイトは得られません。

    AIOps では、AI アルゴリズムにより、類似性に基づいて重要なイベントが自動的に分類されます。これによって、イベントを常時管理する負担を減らし、不要で煩わしいイベントトラフィックやノイズを削減できます。AIOps では、イベントの受信時に AI によって関連イベントがまとめられ、主要なイベントグループを中心にルールベースのアクション (重複イベントの統合、アラートの抑制、重要イベントの解決など) が実行されます。
  4. IT サービス管理:IT サービス管理 (ITSM) は、社内 IT サービスの設計、構築、提供、サポート、管理に関するすべての作業を包括する用語です。IT サービスを社内のエンドユーザーに提供するためのポリシー、プロセス、手順の設定も ITSM に含まれます。

    ほかの IT ユースケースと同じように、ITSM でも AIOps を利用するメリットがあります。AI でデータを分析してすばやく問題を特定し、解決につなげることで、IT 部門の作業効率と効果を向上させることができるのです。ITSM のユースケースでは、IT サービスデスクからデバイスまで、さまざまな監視データを分析対象にできます。

    ITSM に AIOps を取り入れると、以下のメリットがあります。
    • マルチクラウド環境でインフラストラクチャのパフォーマンスを管理する
    • 容量計画で予測精度を上げる
    • 容量を自動的に調整してストレージリソースを最大限に活用する
    • 履歴データと予測に基づいてリソースの利用率を向上させる
    • IT サービスに関する問題を特定、予測、予防する
    • ネットワークに接続されたデバイスを管理する
  5. 自動化:従来のツールでは、インシデントを理解し、対応、解決するために複数のソースの情報を手動でまとめなければならないことがよくあります。AIOps では、データが複数のソースから自動的に収集されて相関付けられるため、迅速さと正確さを大幅に向上させることができるという大きなメリットがあります。社内の以下の IT 運用作業で、この AIOps による自動化機能を活用できます。
    • サーバー、OS、ネットワーク:複数のサーバーのすべてのログ、メトリクス、設定データ、メッセージ、トラップを収集して、検索、相関付け、アラート生成、レポート作成に使用できます。
    • コンテナ:コンテナデータを収集、検索し、ほかのインフラストラクチャのデータと相関付けして、サービスのコンテキスト、監視、レポートの精度を向上させることができます。
    • クラウド監視:クラウドインフラストラクチャのパフォーマンス、使用率、可用性を監視できます。
    • 仮想環境の監視:仮想スタックを可視化したり、イベントの相関付けを高速化したり、仮想コンポーネントと物理コンポーネントでトランザクションを横断的に検索したりできます。
    • ストレージ監視:ストレージシステムの状況を、関連するアプリケーションのパフォーマンス、サーバーの応答時間、仮想化のオーバーヘッドと関連付けて把握できます。

AIOps のビジネス面での主なメリットとは

AIOps で IT 運用業務を自動化し、AI を活用してシステムのパフォーマンスを向上させることで、企業はビジネス面で大きなメリットを得ることができます。たとえば、以下のメリットがあります。

key business benefits of AIOps

IT基盤とアプリケーションのパフォーマンス改善により、AIOpsは、ビジネスの成功を評価するKPIを高めます。

  • システム停止を回避して、顧客満足度を向上させる
  • サイロ化したデータソースを統合して、分析とインサイトの精度を向上させる
  • 根本原因分析と修復を高速化して、時間、コスト、リソースを節約する
  • サービス提供の応答時間を短縮し、応答の一貫性を高めて、品質を向上させる
  • 冗長で対応に時間のかかるエラーを自動で検出および修復して、担当者の仕事満足度を高め、IT チームがより付加価値の高い作業 (分析や最適化など) に集中できるようにする
  • IT 部門のリーダーが業務部門のリーダーとコラボレーションする時間を増やして、IT 部門の戦略的価値を証明する

IT 運用に関する課題の多くはすべての業界に共通であり、AIOps はその解消に役立ちます。もちろん、医療、小売、製造、金融サービスなど、業界によって特に直面しやすい課題や重要性の高い課題もあります。

医療 IT (HIT) での AIOps の用途とは:

AIOps で IT 運用業務を自動化し、AI を活用してシステムのパフォーマンスを向上させることで、企業はビジネス面で大きなメリットを得ることができます。たとえば、以下のメリットがあります。

  • HIPAA (医療保険の相互運用性と説明責任に関する法律) に従って、電子保存された個人医療情報 (ePHI) を保護する
  • 医療従事者によるモバイルネットワークの利用や個人デバイスの持ち込み (BYOD) のリスクを低減する
  • 医療機関を標的とするランサムウェア攻撃を防ぐ
  • 内部と外部のビッグデータを研究や診断に利用できるようになる

小売業向け IT での AIOps の用途とは:

  • 実店舗のモバイル POS やモバイル決済
  • 実店舗、モバイルショップ、オンラインショップを含むすべての小売チャネルおよび小売プラットフォームのデータを同期する
  • 顧客データと個人情報を保護しながら、それらを利用してカスタマーエクスペリエンスをパーソナライズする
  • 事業の成長や変化に応じて新しいテクノロジーを簡単に追加できるようにインフラストラクチャの柔軟性を保つ
  • 小売業界が一般に直面する経済的な圧力に対応して、運用効果を維持しながらコストを削減する
  • 店舗で増加し続けるネットワーク接続デバイスを保守する
  • 新しいスマートテクノロジー (スマートホームデバイスなど)、AR/VR (拡張現実/仮想現実) ツール、レジなし決済ツール (顧客がスマートフォンアプリでバーコードをスキャンして支払いを完了するためのツール) を導入する

製造業向け IT での AIOps の用途とは:

  • サプライチェーン、プラントオペレーション、製品/サービスライフサイクル管理の統合によって生まれた多種多様なデータソースのデータ収集と分析を自動化する
  • リアルタイム監視によって工場内のすべての機械を追跡して、製造サイクルタイム、機械および生産工程ごとの歩留まり率、設備稼働率、サプライヤーの品質レベルなどのデータを統合する
  • 履歴データと AI の予測分析を組み合わせて生産の低下を防ぐことで、収益源を確保し、顧客満足度を向上させる
  • マシンデータを活用して予測的メンテナンスを実現し、機械が故障する前に保守する
  • データを有効活用して、より効率的なサプライチェーン管理システムを構築する

金融サービス向け IT での AIOps の用途とは:

  • 巧妙化するセキュリティ侵害やサイバー犯罪を防ぐ
  • 顧客データを活用してマーケティングを促進し、成長機会を創出する
  • 顧客の履歴データを分析して、収益成長予測の精度を向上させる
  • データセキュリティと規制コンプライアンスを確保する
  • 複数の大規模データセットを統合するためのフレームワークを提供して、ブロックチェーンなどの最新テクノロジーに対応できるようになる
  • モバイルバンキングやデジタルバンキングのカスタマーエクスペリエンスに対する消費者の期待に対応する
  • ネットワークの速度とパフォーマンスを向上させる

自社に最適な AIOps ツールや製品を選ぶには?

AIOps 製品の選定で注意したいのは、従来の各種 IT 運用ツールをまとめて基本的な AI 機能を付け加えたものを「AIOps プラットフォーム」と呼んでいるベンダーがあることです。真の AIOps プラットフォームは、単なるツールの寄せ集めではありません。プラットフォームの選択が導入の成功を左右するため、この点はよく理解しておくことが重要です。ガートナー社は選定について、「データの取り込み、保存、アクセス機能をその他の AIOps コンポーネントとは別に実装できるベンダーを優先する」ことを推奨しています。

また、機能一覧以外に、成功事例や AIOps のユースケースを調べることも大切です。候補の AIOps プラットフォームが自社のニーズに合っているかどうかを確認する最も簡単な方法は、自社と似たビジネス課題を抱える企業の AIOps 成功事例を確かめることです。ベンダーの Web サイトで成功事例を探したり、そのベンダーを推薦する顧客に問い合わせたりしてみましょう。AIOps ツールやプラットフォームのメリットを強調していても、その実例を紹介していないベンダーは、避けた方が無難です。

導入方法

AIOps を使い始めるには?

AIOps を使い始める最善の方法は、段階的に導入することです。IT ドメインをデータソースごとに再編して、スモールスタートで着手するのがベストプラクティスです。各種のソースから取り込まれる大規模で持続的なデータセットの処理方法を学んで、IT 運用チームに、AIOps でのビッグデータの扱いに慣れてもらいましょう。履歴データのデータセットから始めて、新しいデータソースを徐々に追加しながら、適用範囲を広げていくことをお勧めします。

まずはデータの取り込みに重点を置く:AIOps を活用するには、マシンデータやメトリクスのような非構造化データから、情報補強のためのリレーショナルデータまで、あらゆるタイプのデータにアクセスする必要があります。異なるタイプのデータを取り込むことで、サイロを横断した包括的な視点を確立し、状況やデータタイプに応じた有意義な対応を取ることができるようになります。

取り込みと分析をすばやく効果的に行うには、いきなりすべてのデータを対象にしないことです。まずは、過去の未加工 (Raw) のマシンデータやメトリクスデータを取り込み、分析して、基本を理解し、クラスタリングアルゴリズムとクラスター分析を用いて、トレンドやパターンを特定してみましょう。リアルタイム検出を実現したいならば、Raw データがデータタイプとして最適です。その後、ストリーミングデータを分析対象に加えて機械学習による AI を取り入れれば、検出したパターンとどのように適合するかを調べ、自動化を実現して、最終的には予測分析につなげることができます。

できるだけ多くのタイプのデータを取り込んで分析する:AIOps の導入当初は、履歴データが非常に役立ちます。システムの過去の状態を分析し、理解すれば、現在の状態と相関付けて状況を把握できます。

それを実現するには、履歴データとストリーミングデータを広範囲に取り込み、これらのデータへのアクセスを可能にする必要があります。ログ、メトリクス、テキスト、ワイヤー、ソーシャルメディアなど、どのタイプのデータを取り込むかは、解決したい課題によります。たとえば、インフラストラクチャの容量を監視したい場合は、そのメトリクスデータを取り込み、カスタマーエクスペリエンスを向上させたい場合は、アプリケーションログを取り込みます。

AIOps プラットフォームの多くはもともと、単一のデータソースをターゲットにしていました。データタイプを 1 つに限定すると、IT 管理者とアルゴリズムのどちらが分析するにしても、システムの動作について得られるインサイトも限定されます。そのため、AIOps プラットフォームを選定するときは、複数のソースからデータを取り込んで分析できるかどうかを確認することをお勧めします。

すべてを一度にやろうとしない:まずは、優先度が最も高い課題について、その根本原因を見つけることに集中しましょう。その後、データの監視を開始します。それからが AI の出番です。さらにそこでも、段階を踏むことが重要です。

  • 最初に、優れたインサイトを生む大量データを整備するために効果的な基盤と、パターンを検出する監視機能の両方を備えた AIOps プラットフォームを導入します。
  • 次に、検出したパターンに基づいてインシデントをどの程度予測できるか、IT チームがどのくらいプロアクティブに対応して、MTTR(平均修復時間)を短縮するだけでなく業務に影響を与えるインシデントの数を抑えることができるかを探ります。
  • 最後に、機械学習を取り入れて根本原因分析を行い、予測環境を整備して、主要なビジネスサービスやカスタマーエクスペリエンスに影響を与えるインシデントとその影響を特定し未然に防ぐ体制を確立します。
結論:導入するなら今

IT やネットワークの担当者であれば、データは企業にとって最も重要な資産であり、ビッグデータは世界を一変させるほどの可能性を持つという言葉を何度も聞いているでしょう。AI は革新的なテクノロジーであり、すでに普及段階にあります。また、AIOps は、AI やビッグデータに対する大きな期待を現実のものにするための具体的な方法を提供します。セキュリティの強化から、業務の効率化、生産性向上まで、AIOps は、IT 運用を成長、発展させ、将来の課題に対応できる体制を整えて、IT 部門の役割を事業拡大の戦略的促進要因として定着させるための実践的な手段を目の前に提示しているのです。