公開日:2022年10月1日
アノマリ検出は、一連のデータから異常なポイントやパターンを探し出すプロセスです。確立されたベースライン(事前定義された一定の許容範囲)から逸脱するものはすべて異常とみなされます。異常は、セキュリティ侵害、ハードウェアやソフトウェアの問題、顧客ニーズの変化、迅速な対応を要するさまざまな問題の兆候である可能性があるため、このような異常の検出は、今や必須のプラクティスと言えます。
異常は必ずしも悪い兆候であるとは限りません。ソーシャルメディアの有名なインフルエンサーがある企業の商品を紹介したことで売上が急増した場合、この異常な急増は好ましい兆候と言えるでしょう。とはいえ、企業がこのような売上の急増に対する準備ができているかどうかが問題です。また、さらに重要なのは、良し悪しにかかわらず異常な動作を認識し、それに適切に対応するためのシステムを整備する必要があることです。これには、セキュリティ上の欠陥にパッチを適用したり、故障した部品を交換したり、売上の増加に対応するために追加のサーバーを導入したりといったことが挙げられます。アノマリ検出、特に教師なしアノマリ検出(事前の知識なしに、これまで見過ごされていた稀なイベントを特定する)は、サイバーセキュリティでの重要性が高まっています。これには、ネットワークで攻撃者を常時監視するゼロトラスト手法の台頭も影響しています。
アノマリ検出プロセスの中心となるのは、メトリクスまたはデータセットに統計ツールやその他の手法を適用することです。また、データセットが大規模かつ複雑になるにつれ、アノマリ検出に役立つ機械学習もますます重要になっています。
この記事では、さまざまな種類の異常とそれらを検出するメリットについて説明し、アノマリ検出のプロセスを詳しく見ていきます。
異常とは、広義には、通常とは異なるイベント、行動、観測結果、異常な動作、アイテムなどを意味します。類似の用語に、外れ値、例外、スパイク、逸脱などもありますが、いずれも問題の発生を示唆する事象を表しています。
コンピューティングにおいて、異常はデータと密接に関係しています。どのような種類のデータセットであっても、異常は想定外のアクティビティの形で現れます。あるeコマースビジネスの平均的な売上請求額が通常は10ドルなのに、突然10,000ドルの注文を受け取った場合、これは異常と言えます。そのビジネスで、通常は1分間に1件の売上しかないのに、突然何千件もの注文を一度に受け取った場合も異常だと判断できます。どちらの場合も、予想されたパターンから外れたイベントであるため、セキュリティとITの専門家が目を光らせ、不正なトランザクションではないことを確認する必要があります。
また、異常には、ネットワーク遅延の急増、Webトラフィックパターンの変化、サーバーのCPUの温度上昇なども含まれます。これらの事象はすべて、検出された時点でさらに調査が必要です。
アノマリ検出には、基本的に統計処理を使用します。ビッグデータを処理し、データセットの平均値や標準偏差など、さまざまな統計値を算出します。データの特性によっては、特に季節的変動があるようなデータの場合は、曲線のグラフが適している場合があります。たとえば、Webサイトの1時間ごとのトラフィックの典型的なパターンでは、トラフィックは毎日朝方に増加し、夜には減少します。これらは多くの場合、外れ値の検出を容易にするために正規化されます。このような情報をより的確に理解するために、データを論理グループに分け、分類して処理を行う、他のアノマリ検出手法もあります。たとえば、毎日正午から午後1時までのトラフィックのみを考慮するようにデータを編成したり、1時間単位ではなく、24時間ごとにトラフィックを計算するように編成したりすることができます。
ここから先は、データを解釈するために、アノマリ検出アルゴリズム(データサイエンスなどと組み合わせたもの)が役立つでしょう。また、この情報を可視化する方法には、履歴データがどのように分布しているかを示すヒストグラムや、判定ツリー、ニューラルネットワークを表すチャートなどがあります。
アノマリ検出は、ビジネス環境の分析から技術的な問題の解決、セキュリティ侵害や不正行為のインスタンスの検出まで、さまざまな用途に使用されています。
ここでは、アノマリ検出のユースケースをいくつかご紹介します。
アノマリ検出は製造現場で機械の故障を発見するために使用されます
どのようなデータセットにも異常は表れます。一般的には、問題が今まさに起ころうとしている、あるいはすでに起こっているといったような深刻な結果をもたらしかねない状況が明らかになります。たとえば、サーバーやアプリケーションが応答せずにその応答時間がますます長くなったり、着信Webトラフィックが突然急増してDDoS攻撃の可能性が示されたり、クレジットカードの請求額が通常の販売額よりも高くなったりしている場合などです。
時系列データ(一定期間にわたって連続的に収集されるデータ)を確認すると、異常には大きく分けて、グローバル(またはポイント)異常、コンテキスト異常、集合的異常の3種類があります。
異常を検出するためにさまざまなアノマリ検出システムが使用されていますが、適切な方法は、分析対象のデータセットのサイズ、種類、複雑さによって大きく異なります。
アノマリ検出において最も一般的なのは、前述の基本的な統計手法です。データセットに対して数理解析を使用して、数ある統計値の中からその平均値と標準偏差を特定し、何を異常なデータポイントとみなすかをデータサイエンティストやアルゴリズムが判断します(平均値から2以上の標準偏差があるものなど)。時系列データは、曲線のグラフやローリング平均で表すのに適しています。
このようなアノマリ検出は、比較的単純なデータセットでは有効ですが、データセットが大規模であったり、変動の速度が速かったりする場合は、AI(人工知能)や機械学習などのより高度な技術が必要となることがよくあります。機械学習の手法の1つに、データの密度が高いグループを探し、そのグループから離れすぎている外れ値を特定するものがあります。また、クラスタリングと呼ばれる手法では、複雑なデータセットの類似点を探し、新しいデータの特性がフィールドの特性に適合しない場合、外れ値とみなします。さらに別の手法である局所外れ値因子アルゴリズムは、教師なしアノマリ検出を使用して、特定のデータポイントの近傍に対する偏差の局所密度を計算します。
多くの場合、サーバーファームを破壊する地震や企業に対するDDoS攻撃などの異常は制御できません。こうした異常は避けられないとしても、少なくとも適切な災害復旧計画により軽減することができ、その計画の詳細はデータセットの特性(回避したい異常)に応じて異なります。たとえば、Webサーバーの応答時間の急増に起因する異常を回避するには、トラフィックが増加し始めたときに追加のサーバーを起動させる緊急対応策を策定する必要があります。クレジットカード詐欺に関連した異常を回避するには、高額購入が行われた際に追加確認を行う計画を策定します。現在、一般に提供されている多くのソフトウェアパッケージには、このような緊急対応策が用意されています。
データの破損、重複、削除などの異常が懸念される場合(データベースなど)、正規化によって異常を回避できます。正規化とは、データベースのテーブルの冗長性を低下させ、論理制約を作成してデータの整合性を促すようデータベースを構造化するプロセスです。
ゼロトラストとは、企業ネットワークにおけるセキュリティの導入および管理方法を刷新したセキュリティモデル(ネットワークアーキテクチャとも呼ばれる)です。従来のセキュリティは、ゲートキーパーの役割を担ってきました。ネットワークの境界で認証情報を確認し、正規のユーザーにアクセスを許可します。
ゼロトラストの概念は、2010年にForrester社のアナリストであったJohn Kindervag氏によって提唱されました。ゼロトラストは認証に成功したトラフィックであっても、本質的には信頼できないという考え方に基づいています。クラウドベースのネットワーク、IoTデバイス、モバイル技術の普及に伴い、ネットワークを効果的に管理できる単一のエントリポイントがなくなり、ネットワーク境界という概念がより捉えにくくなっていることから、この考え方の重要性が高まっています。そのため、ゼロトラストでは、企業がユーザー、デバイス、トラフィックをリアルタイムで常に監視し、その中に悪質なものがないことを確認する必要があります。
John Kindervag氏は、どのようなトラフィックであっても、本質的には信頼できないというゼロトラストの概念を提唱しました
アノマリ検出は、ゼロトラストセキュリティを実現するための重要な技術の1つです。ゼロトラストは、ユーザー名やパスワードといった従来のシステムを信頼せず、侵害は発生するもの、あるいはすでに進行しているという前提で、それを検出して被害の発生を未然に防ごうとするものです。ゼロトラスト環境では、システムによって悪質なアクティビティを示す可能性のある異常が常にスキャンされており、継続的な監視機能がシステムに組み込まれています。アノマリ検出の機能がなければ、ゼロトラストの実装は不可能です。
アノマリ検出は、使用環境に応じて、数多くの実質的なメリットをもたらします。特に重要なメリットには以下のものがあります。
さまざまなツールを使えばあらゆる種類のデータセットでアノマリ検出を行えますが、多くのツールは特定の種類の異常に特化しています。販売分析ツールには、マーケティングを改善するために購入パターンの外れ値を探すロジックが含まれている一方で、セキュリティ分析ツールはゼロトラストアーキテクチャの実現を目的に構築されています。
アノマリ検出の目的にかかわらず、重要な第一歩は、必要なツールを実装するために企業と企業データの準備が整っているかどうかを確認することです。このプロセスの開始に役立つチュートリアルはたくさんあります。まず、可能な限りデータを統合する必要があります。企業内にデータセットが分散していると、有意義なインサイトを得るのが難しく、特にリアルタイムの分析が困難になります。
とはいえ、基本的にこのような作業を行うために設計された統計ツールと機械学習システムを使えばアノマリ検出は実行できます。クラウドやオンプレミスのさまざまなソフトウェアパッケージは、トレーニングデータを分析して正常な動作を表すモデルを構築し、新しいデータが生成されるとそれをテストして異常かどうかを判断することで、異常を検出するように設計されています。外れ値が検出されると、通常はダッシュボードに表示され、異常動作の種類とその重大度が示されます。
アノマリ検出は一般に、独立した技術ではありません。基本的な機能が、この種の高度な分析を行うさまざまなソフトウェアツールに組み込まれています。ただし、単体のアノマリ検出ツールも存在します。ビジネスデータに対してデータマイニング、データ回帰、データ可視化を実行するソフトウェアは、少なくとも部分的にはアノマリ検出ツールと言えるでしょう。目的がセールスやマーケティングに関連する場合でも、セキュリティやシステムの信頼性に関連する場合でも、アノマリ検出は、より優れたビジネス上の意思決定を行えるようにするための重要なツールなのです。
ガートナー社のSIEM部門のマジッククアドラント
ガートナー社の最新のマジッククアドラントでSIEM市場の動向を掴みましょう。
Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。
Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は850を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキスト(把握したい要素) に基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。
日本支社を2012年2月に開設し、東京の丸の内・大手町、大阪および名古屋にオフィスを構えており、すでに多くの日本企業にもご利用いただいています。
© 2005 - 2024 Splunk Inc. 無断複写・転載を禁じます。
© 2005 - 2024 Splunk Inc. 無断複写・転載を禁じます。