導入事例

理化学研究所計算科学研究機構、アップタイムとセキュリティを向上 - 不正アクセス対策事例

概要

理化学研究所 (理研) は、日本で唯一の自然科学の総合研究所です。理研の計算科学研究機構 (AICS) では、世界最速級のコンピューターシステム「京」を含む複雑なインフラを利用しています。同機構は、重要な科学研究を支援するコンピューターシステムの運用とセキュリティを向上させるためのソリューションを必要としていました。Splunk Enterprise を展開して以来、理研は次のようなメリットを得られるようになりました。

  • 大規模ログ、イベントデータの管理を強化
  • システムの可視性とアップタイムを向上
  • セキュリティ関連の問題に関するリアルタイムのインサイト
Splunk 製品群
Splunk ソリューションエリア
課題
    • 大量の内部ログ、イベントデータが可視化されていない
    • セキュリティ関連の攻撃と不正アクセスに対してインサイトを提供するソリューションが必要である
    • ジョブスケジューリングを改善する必要がある 
ビジネスへの影響
    • 3 システムすべてで可視性とアップタイムが向上
    • 大規模ログ イベント データの管理が効率化
    • セキュリティ関連の問題に関するリアルタイムのインサイトを獲得
    • ジョブスケジューリングを最適化    
データソース
    • システム可用性のログ
    • スーパーコンピューター「京」のログ
    • ネットワーク機器のログ
    • HPCI サーバーのログ
    • データベースログ
    • サードパーティーベンダーからのデータ    

Splunk が選ばれる理由

2003 年以来、理研は文部科学省所轄の独立行政法人となっており、物理学、工学、化学、生物学、医科学などに及ぶ広い分野で研究を進めています。理研の計算科学研究機構 (AICS) では、コンピューターシミュレーションにより、科学的に未来を見通す「予測の科学」の確立を目指しています。この使命を果たす上で鍵を握るのが、スーパーコンピューター「京」の活用です。「京」は、世界で最も高速なコンピューターシステムの上位 500 位に名を連ねており、生命科学、気象、防災を含む 130 ものプロジェクトで利用されています。

理研の AICS では、3 つの異なるシステム、つまりスーパーコンピューター「京」、ネットワークシステム、ハイパフォーマンス コンピューティング インフラ (HPCI) サーバー グループから大量のマシンデータが生成されます。サイトの安定性と可用性を維持しながらこれら 3 システムを運用・管理するには、運用面とセキュリティ面で大きな課題がありました。これらのシステムはデータを大量に生み出すため、AICS は異種システムのログを迅速かつ効率的に分析できる Splunk Enterprise を選びました。    

大量のデータを完全に可視化

理研の AICS は、「京」、ネットワークシステム、HPCI サーバーグループの 3 システムに Splunk ソフトウェアを展開し、直ちにログ、イベントデータの収集、抽出、分析を始めました。今では、内部ログに加え、外部からの攻撃や不正アクセスをカバーするセキュリティ関連のログ、ネットワーク機器からのログ、サーバーの負荷および温度管理、「京」のジョブ運用ステータスのログを Splunk ソフトウェアで管理しています。

上級技師の黒川 原佳博士は語ります。「ログの流れが急増しても、Splunk にはアラートを提供する仕組みがあり、問題の迅速な解決にとても役立ちます。また、ネットワーク運用を担当している外部ベンダーが行っている作業を監視し、正しく実施されているかを確認できます。GUI ではなく CUI を使用する必要に迫られた場合にも、REST API を利用して対応できます」    

「Splunk Enterprise により、RDB の運用が容易になります。また、ログを高速検索できるため、非常に便利です。さっと調査を行いたい場合に役立ちます。「京」は大規模なシステムなので何が起こるのか予測できませんが、Splunk を導入することで、応答が迅速化し、セキュリティ面で安心感が得られます」



理化学研究所計算科学研究機構 運用技術部門部門長 庄司文由博士

セキュリティ面と運用面の課題に対応

Splunk の導入により、理研は高速検索を行い、セキュリティ面と運用面の課題に迅速に対応できるようになりました。理研では、ログデータを使用してサーバーシステムのネットワーク障害を追跡・分析し、プロアクティブに問題を調査して対応することで、3 つのシステムすべてでアップタイムを改善しています。それに加え、Splunk ダッシュボードを使用してシステムの状態を可視化し、ジョブスケジューリングを最適化しています。