SURGeは常に連携してセキュリティに取り組んでいます。この記事の執筆者および協力者は、Tamara Chacon、Vandita Anand、Audra Streetmanです。
次々と現れるAI用語についていけないと感じていませんか?それはあなただけではありません。AIはもはや一過性のトレンドではありません。スマートフォンのホーム画面にも、ニュースの見出しにも「AI」の2文字が溢れ、さらにその影響は脅威モデリングにも及んでいます。この分野においてもAIの浸透は進んでおり、先週パッチを適用したばかりの脆弱性リストに新たなリストが加わる、そのペースを上回る速さでAIも進化を続けています。
AIを取り巻く現状を理解しようとなると、まるで1万ピースのジグソーパズルを机の上にぶちまけたような気分になります。しかも、箱には見本となる絵もなく、「生成AI」、「プロンプトインジェクション」、「LLM」などの言葉が書かれたピースが四方八方に散らばっているといった感じでしょうか。散らばったピースをじっと眺めても、どこから手を付ければよいかすらわかりません。これはモデル?ツール?流行りもの?それともただのハルシネーション?
私たちがこのブログシリーズを立ち上げたのは、まさにそのためです。情報を整理し、バズワードの濫用を避けながら、関連するツールやコンセプトを理解できるように皆様をご案内します。博士号も降霊術も必要ありません。重要な概念を簡潔に説明し、時間をかけて取り組む価値のある厳選されたリソースを共有することで、パズルのピースを埋めるお手伝いをいたします。
ベテランの技術者にとっても、AIについて知ったかぶりをすることにうんざりしている人にとっても、このブログはAIの世界に踏み込む際の実用的な初級者向けガイドとなるでしょう(もちろん、サイバーセキュリティの話題も盛り込んでいます)。
このブログ記事で頻繁に見かけることになる用語をいくつかご紹介します。よく理解できなくても心配しないでください。最後に、用語集の完全版と、AIについてより深く学ぶためのリソースをご紹介します。
AIシステムは、最初から今のように有用で柔軟性があったわけではありません。融通の利かないルールベースのプログラムから始まり、数十年かけて、統計的機械学習、生成モデル、そして現在では複数ステップのタスクを調整するように設計されたエージェントシステムへと、明確な段階を経て進化してきました。
AI (人工知能)は新たな現象のように思われるかもしれませんが、そのアイデアが生まれたのは1950年代に遡ります。初期の、アラン・チューリング、ジョン・マッカーシー、マービン・ミンスキーをはじめとする先駆者たちは、明示的なルールを記述して簡単なゲームをしたり数学の問題を解いたりできる実験的な記号プログラムを作成しました。1960年代から70年代にかけては、多数のif-thenルールを使って、医療診断やトラブルシューティングなど、特定の領域の問題を解く「エキスパートシステム」が登場しました。エキスパートシステムは特定の状況ではうまく機能しましたが、不安定で応用が難しいことが明らかになりました。その後、楽観主義的な期待が薄れ、出資も減り、勢いが鈍化して、いわゆる「AIの冬の時代」(1970年代後半、1980年代後半~1990年代前半)に入りました。
1980年代には初期の機械学習手法が導入され、2010年代までには大規模なデータセットと並列処理を取り入れることでディープラーニングが進歩し、画像認識、言語処理、ロボット工学が飛躍的に発展しました。
今日では、生成AIと、最新のエージェント型AIの登場により、予測、コンテンツ生成、さらには、連携による複数ステップのワークフロー実行を目的としたシステムの開発が進み、かつてないスピードでAIが進化しています。
今日のAIの急速な進化は、1つの大きな発見によるものではなく、いくつかの要因が重なった結果です。まず、新しいアルゴリズムにより、モデルが大規模になるほど精度が向上することが分かってきました。また、新しいトレーニング手法が開発され、すべてのデータを手作業でラベル付けしなくても、膨大な量の生データから直接学習できるようになりました。
同時に、ハードウェアの処理速度が向上するとともに価格が手頃になり、巨大なモデルのトレーニングと実行が可能になりました。そして、これらのモデルを中心に、AIによる検索に適したデータベース、複数ステップのタスクを処理するためのフレームワーク、回答の正確性と安全性をチェックするシステムなど、新しいツールが成熟してきました。
このようにさまざまな要因で急速に進化したため、理論上の技術だったAIが突然、日常に浸透したように感じるのです。
AIの目標は、データからの学習、予測、問題解決、新たな出力の生成など、主に人間の知能の領域とされてきたタスクを実行できるコンピューターシステムを設計することです。AIモデルは、人間のように「考える」のではなく、データから統計的なパターンを学習し、そのパターンを新たな入力に適用します。
AIは、当初は単純なルールベースのシステムでしたが、現在では、トレーニングによってパターンを認識し、新しいデータに適応し、複数ステップのプロセスを調整するモデルへと進化しています。このブログ記事では、AIの主要なアプローチおよび機能として、リアクティブAI、限定的記憶型AI、機械学習、生成AI、エージェント型AIを取り上げ、それぞれが前段階の技術の強みをどのように活かして進化してきたかについて解説します。
また、LLM (大規模言語モデル)の概要と、LLMが今日のAIブームの中心となっている理由、生成AIとそれ以前のアプローチとの違い、日常生活やサイバーセキュリティにおいてAIがすでに活躍している領域(スパムのフィルタリング、業務の支援、ワークフローの自動化など)についてもご説明します。
リアクティブ(反応型)AIは、最も単純な形態の「古風なAI」です。過去の情報を学習、適応、記憶することはなく、決められたルールまたはヒューリスティック(基本的なif-thenロジック)を適用するだけで、同じ入力に対して常に同じ出力を生成します。
たとえば、「メールに『無料』という単語が含まれている場合はスパムとしてマークする」といったルールを定義します。
それだけです。予測可能かつ説明可能で、監査も容易ですが、まったく融通が利きません。リアクティブAIは、初期のスパムフィルター、ルールベースのカスタマーサービスボット、決まった戦略がある古典的なゲームでの対戦などに使われます。メリットは、単純で反復的なタスクにおいて信頼できることです。一方、デメリットは、柔軟性がまったくなく、新しい状況に適応したり対処したりすることができない点です。
リアクティブAIから一歩前進したのが限定的記憶型AIです。このAIは、最新のデータから学習し、それを判断に適用します。ただし、情報を長期的に保持することはできません。推論時(トレーニングではなく出力生成時)には、ほとんどのモデルが有限の「コンテキストウィンドウ」内で動作します。そのため、1回で処理できるのは、最近の限られた量の入力だけです。
たとえば、自動運転車の操縦では、センサーからの最新データが入力として使われますが、コンテキストが終了すると、そのデータは記憶されずに破棄されます。同様に、LLM (大規模言語モデル)では、現在のプロンプトと会話の履歴が入力として使われますが、検索システムやベクトルデータベースなどの外部ツールと統合されていない限り、セッション間で情報は保持されません。
リアクティブAIと限定的記憶型AIという分類方法は説明で一般的に使われますが、研究文献では異なる方法で分類されることがあります。また、生成AIは短期的なコンテキストに依存するため、通常は限定的記憶型AIに分類されますが、そこから飛躍的な進歩を遂げているため、以下で別途ご説明します。
機械学習は、明示的に記述したルールだけに頼るのではなく、データからの学習も取り入れたAIシステムを構築するアプローチです。機械学習モデルは、大規模なデータセットを分析して、パターンを見つけ出し、予測を行います。そのため、学習するデータが多いほど精度が向上します。
主なアプローチ
機械学習の一般的な技法
今日のサイバーセキュリティでの用途
機械学習は、スパム検出から、不正行為の監視、ネットワークのアノマリ検出、顔認識や音声認識などの生態認証まで、幅広いセキュリティシステムを支えています。また、新しいコンテンツを作成する生成AIモデルを含む、多くのAIシステムの基盤にもなっています。
生成AI
生成AIは、AIの中でも特に注目されている分野の1つです。単にルールやラベルに基づいて判断するのではなく、トレーニング中に学習したパターンを入力(プロンプト)と組み合わせて、テキスト、画像、音楽、コードなどの新しい出力を生成します。やり取りに関する長期記憶は保持されません。モデルの構築基盤となった膨大なトレーニングデータと、短期的なコンテキストウィンドウ(現在のプロンプトと会話の履歴)が情報として使われます。
たとえば、次のように使用できます。
このモデルは、事前に用意された回答をデータベースから引き出すのではなく、確率に基づいて単語(画像の場合はピクセル、音楽の場合は音)の並びを予測します。結果に変化を出すために、ランダム性(LLM用語では「temperature (温度)」)も多少加えられます。この仕組みを支えるのが、ディープラーニングを使って膨大なデータセットを学習した、LLMなどの大規模な「基盤モデル」です。
イメージしやすいように、前述の巨大なパズルを再び例に取りましょう。箱には絵がなく、ピースはあちこちに散らばっています。生成AIモデルは、まず、ピースがどこに収まるかを大まかに推測し、ピース同士が合わなかったらそのたびに学習して、少しずつパターンを見つけていきます。時間が経つにつれて、驚くほど正確にピースを配置し、これまで見たことのない組み合わせさえも発見できるようになります。
エージェント型AI
エージェント型AIは、応答が単一ステップにとどまりません。タスクの実行時に、ユーザーがすべての手順を詳しく指示しなくても、ツールや外部データソースを使って一連のアクションを自律的に計画、調整、実行します。
エージェントは、単一のプロンプトに回答するだけでなく、以下のような操作を実行できます。
たとえば、エージェントシステムにフライトの予約を指示すると、ただ予約を取るのではなく、ユーザーのスケジュールをチェックし、各社の料金を比較し、計画が変更になった場合は予約を変更することもできます。
エージェントループ
多くのエージェントフレームワークは以下のサイクルに従います。
たとえばサイバーセキュリティ業務に当てはめると、エージェントは、ログを調査し、異常にフラグを立て、関連する脅威インテリジェンスを取得し、修復計画を作成します。
ガードレールが重要な理由
エージェント型システムは、モデルとの単純で直接的なやり取りよりも複雑です。そのため、信頼性、透明性、目標との整合性を保つために、ガードレール(ルール、安全性チェック、監督)の整備とオブザーバビリティ(監視、評価)の確保が不可欠です。
エージェントのアプローチは、複数ステップにまたがるワークフローの自動化、顧客向けサービス、調査の支援などでよく使われます。そのメリットは効率の向上です。エージェントは、時間を節約し、複数ステップで構成される動的な問題にも対応できます。一方で、このような自律的な動作に対しては、監視を強化する必要があります。エージェントの能力が向上し、データのアクセス範囲が広がるにつれて、オブザーバビリティを確保し、エージェントの出力を定期的に検証することがより重要になります。
AIの学習に一歩足を踏み入れると、利用できるリソースの量の多さに圧倒されるかもしれません。AIについて無理なく学ぶには、小さなことから始めましょう。まずは、AIの基礎を教えてくれる無料のオンラインコースを1つ選び、自分の興味に合ったブログやポッドキャストと照らし合わせながら学びます。的を絞ることにより、情報過多による混乱を防いで、基礎をしっかりと築くことができます。
数学やプログラミングに詳しくなくても心配ありません。最初は、数式やコードを四苦八苦しながら読み解くよりも、核となる概念を理解することの方がはるかに重要です。その後、インタラクティブラボやAIプレイグラウンドを活用して実践的な練習に取り組みましょう。こうした体験は、単に文書を読んだりビデオを見たりするよりもずっと効果的です。AIは急速に進化しています。学習においては、特定のツールやテクノロジーの使い方を覚えるよりも、学習自体のスキル、つまり適応力、探求心、好奇心を身に付ける方が役立ちます。
このブログシリーズの次回の記事では、サイバーセキュリティの領域でAIがどのように利用されているかについて、私たちが行った実際の調査を中心に詳しく見ていきます。また、Foundation AIモデルの使い方の基本もご紹介します。学習の次のステップとして、より実践的で身近な内容になる予定です。
| 用語 | 定義 | 例 |
|---|---|---|
| LLM (大規模言語モデル) | 膨大な量のテキストでトレーニングされ、単語の並びを予測したり自然な文章を生成したりする、極めて大規模なAIモデル。強化版のオートコンプリートのようなものです。 | ChatGPT、Claude、Gemini |
| 生成AI | 学習した内容に基づいて、テキスト、画像、音楽、コードなど、新しいコンテンツを作成するAI。 | 物語を書かせる、ドラゴンの絵を描かせる |
| RAG (検索拡張生成) | AIでの検索時に、最初にデータベースから正確な情報を取得してから、その情報を使って回答を生成する手法。これにより、ハルシネーション(幻覚)の問題を軽減できます。 | 組織のナレッジベースをチェックしてから返答するチャットボット |
| エージェント型AI (エージェント) | 人間の介入を最小限に抑えて、自律的に計画、判断、ツールの使用ができるAI。 | メールの内容を読み取って、会議を自動でスケジュールするAI |
| MCP (Model Context Protocol) | 独自にコードを記述することなく、AIからSlack、Google Drive、データベースなどのツールに簡単に接続するための標準プロトコル。 | 1つのプロトコルですべてのデータソースをAIとつなげる |
| プロンプト | AIに与える指示。直接的なリクエストであるユーザープロンプトと、ニュアンスや挙動を調整するための隠れたルールであるシステムプロンプトに分けられます。 | ユーザープロンプト:「Wi-Fi接続を保護するための方法を3つ挙げてください」、システムプロンプト:「全体的に初心者にわかりやすいように説明してください」 |
| プロンプトエンジニアリング | AIからより優れた回答を得るために効果的なプロンプトを作成するスキル。 | 「宇宙を舞台にした、意外な結末のミステリーを、200語で書いてください」 |
| ガードレール | AIが有害な回答や不適切な回答を生成するのを防ぐための安全対策。 | AIによる医療診断をブロックする |
| トレーニングとファインチューニング | トレーニング=AIをゼロから構築すること、ファインチューニング=既存のAIに対して特定分野に特化した学習を行うこと。 | トレーニング:AIに動物を認識させる、ファインチューニング:猫の品種を識別できるようにする |
| バイアス | トレーニングデータのパターンが原因でAIの出力に偏りが生じること。 | 写真ツールで、データセットに偏りがあるために、人物の肌の色調が明るめに補正される |
| ハルシネーション(幻覚) | AIが虚偽や捏造した情報を真実であるかのように提供すること。 | AIが「本物っぽい」偽の本のタイトルをでっち上げる |
AIとサイバーセキュリティのスキルを強化したい人を対象に、初級者向けからセキュリティプロフェッショナル向けまで、定評のある無料/有料の学習コースがオンラインで幅広く提供されています。多くのコースではハンズオンラボが提供され、中には勤務先のトレーニングポータルを通じて無料で受講できるコースがある場合もあります。
無料コースとラボ(初級~中級)
有料オプション(中級~上級)
アドバイス: Coursera、edX、Udemyなどのプラットフォームでは、多くの場合、コースを無料で「聴講」できます(コンテンツは視聴できますが認定は取れません)。これは、実際に受講する前に内容を確認するのに最適な方法です。無料の入門コースとテーマを絞った有料コースを組み合わせることで、出費を抑えながら、知識を広く深く学ぶことができます。
AIの急速な進化、特にサイバーセキュリティへの影響について常に最新の動向をチェックしたい場合は、以下のリソースをブックマークしておくことをお勧めします。実用的なガイダンス、調査に基づく知見、実際の応用例が組み合わされており、ほとんどのリソースが頻繁に更新されます。