クラウドサービスの活用が進むなか、クラウドをどう監視するか、が新たな課題となっています。クラウドは、インフラの運用負荷を軽減できるメリットがあるとはいえ、監視をしなくてよいわけではありません。オンプレミス環境での監視とはどう違うのか、クラウド監視を成功させるためのポイントなどを基本から解説します。
クラウド監視とは、企業が利用するクラウドサービス(IaaS・PaaSなど)について、稼働状況などを監視することを指します。サービスが適切に稼働しているか(障害が発生していないか)、パフォーマンスが低下していないか、そのほかの異常が発生していないか、などを監視し、安定利用を目指します。また、障害が起きてから検知するだけではなく、障害の発生前に対処できるよう事前に状況を予測すること、対応の自動化によりエンドユーザに影響をおよぼす前に問題を解決すること、なども含まれます。そして、IT運用管理(ITOM)や、SIEM(セキュリティ情報・イベント管理)、SOAR(セキュリティのオーケストレーションと自動化によるレスポンス)、運用インテリジェンス(OI)など、様々な分野と役割が重なります。
複数のクラウドを利用する企業も増えており、利用するクラウド全体をどう監視するか、も大きなポイントです。全体を統合して監視することで、サービスごとの可用性を向上するだけではなく、ビジネスとしてのパフォーマンス・収益性などを含めた視点から運用改善につなげることもできます。
オンプレミス環境に対しておこなってきた従来のIT監視を、クラウドに対しておこなうのがクラウド監視、と言えるでしょう。ただし、オンプレミス環境では、ハードウェアやネットワークなどのインフラから、OS・アプリケーションまで、すべてのレイヤーについてユーザ企業自身で監視する必要があるのに対し、クラウドでは、インフラを監視する必要はなく、オンプレミス環境と比べて監視する範囲が狭くなります。
また、監視ツール(エージェント)のインストールや、監視する項目などの制約が一切ないオンプレミス環境に対し、クラウドでは、サービス事業者によって「監視ツールを独自にインストールできない」などの制約があります。また、専用の監視ツール・サービスが用意されているといったケースもあります。
クラウドのメリットの1つとして、運用負荷の軽減があり、クラウド事業者に運用を任せられる点は大きな魅力とされています。しかし、「クラウドならば、監視が不要」というわけではありません。
一般的にクラウドサービスでは、クラウド事業者が責任を持って運用する領域が定められており、その領域以外は、ユーザ企業側で運用することになります。IaaSであれば、OSより上の領域、PaaSならばアプリケーションより上の領域は、ユーザ企業側で監視をおこない、トラブル発生時には、ユーザ企業自身で対処する必要があります。
障害やパフォーマンスの低下などのトラブルに気づくまでに時間がかかってしまうと、ビジネス停止・売上機会の損失などにつながりかねません。障害を迅速に発見し、対処するためにも、クラウド監視は不可欠です。また、最近ではクラウド環境もサイバー攻撃のターゲットとなるため、セキュリティ対策の一環としても監視は重要と言えます。
もう1つは、稼働状況やパフォーマンスを継続的に監視することで、「必要以上のスペックを割り当てていないか」を可視化できるようになります。クラウドでは、一般的にスペックによって料金が変わるため、利用状況にあわせてリソースをダウンサイジングすることで、コストの最適化も実現できます。
クラウド監視で、対象とする基本的な項目を下記にまとめました。
クラウドで稼働するサーバーやアプリケーションなどが、稼働しているかどうかを監視します。外部からサーバーにアクセスし、応答の有無で判断する、アプリケーションのプロセスが実行されていることを確認する(プロセス監視)などの方法があり、サーバー・システムのダウンによるトラブルを迅速に検出します。
CPUやメモリ、ストレージなど、リソースの使用状況を監視します。サーバーが稼働していても、負荷の集中などによりパフォーマンスの低下につながる可能性があるため、例えば、「CPU使用率が一定を超えたら、アラートを出してリソースを追加する」などの対処をおこないます。サーバー以外にも、マネージドサービス(サーバーレス関数やRDBサービスなど)のリソースを監視することも重要です。
サーバーが稼働していても、アプリケーションが正常に動作しないケースに備え、稼働状況の監視とあわせて、アプリケーションに異常がないか、を監視します。例えば外形監視によるユーザーアクセスのシミュレーションや、APM(Application Performance Monitoring)によるアプリケーショントランザクションの分析が考えられます。また、サイバー攻撃による異常な動作・イベントがないか、などを検知する仕組みも必要です。
クラウドの利用が進むことで、システムごとに稼働する環境が異なるなどIT環境は複雑化し、トラブル発生のスピーディな検出・対処は、より難しくなっています。効率的な監視を実現するために、下記のポイントを踏まえて検討しましょう。
専用の監視ツールが用意されているクラウドもありますが、クラウドごとに異なるツールで監視するのでは手間がかかります。自社で利用するクラウドを一元的に監視できるツールの活用をお勧めします。リアルタイムに監視できること。また、規模が拡大しても対応できることも重要なポイントです。
クラウド監視にあたっては、いかにセキュリティのリスクを検出し、被害を防げるか、も重要なポイントです。できるだけ早期にサイバー攻撃を発見し、迅速に対応するためにも、セキュリティの観点も踏まえて監視をおこない、異常検知時の対処フローまで検討しておきましょう。
“異常”を適切に発見するには、まず通常時の状態を把握しなければ、始まりません。例えば、パフォーマンスを監視する際も、全体ではどこがボトルネックになるのか、パフォーマンスの低下が起きたときに、どこをチェックすべきか、どの程度の遅延まで許容するのかなど、考慮しておくべき点は多岐にわたります。パフォーマンスが低下した際の対処として、リソースの追加は有効な方法ではありますが、コストの観点から諦めざるを得ないケースもあります。その場合、「どの程度のパフォーマンス低下までを検知するか」を含めて、判断基準を明確にしておくことが重要です。
クラウドの活用が進み、重要なシステムがクラウド上で稼働するケースも増えています。ビジネス・業務を止めずに、安定して利用するため、クラウド環境にあわせた監視の仕組みは不可欠です。また、近年は複数のクラウドを、用途にあわせて使い分けるマルチクラウドのニーズも高まっており、クラウド全体をどう監視するのか、も大きな課題となっています。単にトラブルの発見・対処だけはでなく、目的や予算にあわせたリソースの最適化にも有効です。
Splunkは、複数のクラウドの情報を収集、監視し、必要な情報をダッシュボードで可視化します。また、AIを活用したリアルタイム分析により、問題を早期に検出し、システムのダウンタイムを最小化して、安定した運用を実現します。
膨大なログを一元管理し、効率的に分析するために必要なのが、ログ管理システムです。ログ管理システムのダッシュボードやレポートを活用することで、客観的な情報(ログ)に基づき、迅速に意思決定できるようになります。さらに、高度な脅威の検出の機能を持つものもあり、リアルタイムにログを監視し、不審な挙動を検出することで、セキュリティリスクの低減にもつながります。
ここでは、ログ管理システムの主な機能3つについて解説します。
ログ管理の基本となるのが、様々なログを取得(収集)し、一元的に保存する機能です。各種サーバーやアプリケーション、ネットワーク機器、セキュリティ製品など、社内に散在するログを1カ所に集めることで、効率的な管理と活用が可能になります。
継続的に出力されるログを、抜け漏れなく収集すること。また、集めたログが不正に改ざんできないこと、などログの正確性・信頼性を担保する仕組みも必要です。
収集したログを監視することで、事前に指定したキーワードなどが出力された際に、アラートを通知できるようになります。システムやアプリケーションのエラーログや、通常とは異なる操作などを通知することで、トラブルや障害、不具合、セキュリティのインシデントなどをいち早く発見し、スピーディな対処を可能にします。また、複数のログを横断して、不審な挙動がないか、を確認するなどセキュリティ対策として、より高度な監視が可能なログ管理システムもあります。
ログを活用する際に、もう1つ重要なのが、分析機能です。膨大なログから必要な情報を検索、抽出、加工、統計処理するほか、必要な情報をまとめたダッシュボードやグラフで可視化。さらに、昨今では機械学習も組み込まれ異常の発生状況などの全体の傾向やパターンの分析などにも対応します。
企業のIT環境が複雑さを増すとともに、サイバー攻撃は高度化・巧妙化し続け、セキュリティ対策の観点からも、「社内で不審な挙動がないか」をリアルタイムに監視する必要があるとされています。社内の状況を把握するためにもログ管理は不可欠であり、膨大なログを管理するログ管理システムも、もはや企業にとって必須と言えるでしょう。
Splunkは、統合データプラットフォームとして、多様なイベント、ログの収集、検索、可視化、分析など、必要な機能を揃えている上、機械学習機能も用いた分析ルールにより、高度な脅威の検知を実現します。また、インシデントを防止し、迅速な回復を強力にサポートします。
Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。
Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は1,020を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキストに基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。