今日、ネットワーク管理とパフォーマンス監視はかつてないほど難しくなっています。海外拠点の設置、在宅勤務の導入、管理および監視対象のデバイスの増加などにより、ネットワークが複雑化しているためです。
どのようなネットワークでも、問題が発生する可能性はいたるところにあると言ってよいでしょう。一見ささいな問題がネットワークの停止を引き起こし、生産性が低下したり、顧客ニーズへの対応が遅れたりすることもあります。
最近のレポートによれば、1分間のダウンタイムが企業にもたらすコストは9,000ドルに上ると推定されています。ネットワークの停止は、収益に打撃を与え、生産性を損ない、ITチームや組織全体の評判を傷つけます。
そこで注目されるのが、ネットワークオペレーションセンター(NOC)です。
この記事では、NOCがパフォーマンスとセキュリティに果たしている役割、ベストプラクティス、セキュリティオペレーションセンター(SOC)との違いなど、NOCについて深く掘り下げます。
ネットワークオペレーションセンター(NOC)とは、ITチームがネットワークのパフォーマンスと健全性を常時監視する集中管理施設のことです。NOCは、ネットワークの中断や障害に対する防御の第一線を担います。NOCが特に重点を置いているのはダウンタイムの回避であり、避けられないインシデントや停電が発生しても顧客や社内のエンドユーザーに一切影響が及ばないように対応します。
NOC(「ノック」と読みます)を通じてネットワーク全体の状況を把握できるため、異常を検知して問題の防止策を講じたり、発生した問題に迅速に対処したりすることが可能です。NOCでは、インフラと機器(配線からサーバーまで)、ワイヤレスシステム、データベース、ファイアウォール、各種の関連ネットワークデバイス(IoTデバイスやスマートフォンなど)、遠隔通信、ダッシュボード、レポートを監視します。また、以下を監視する管理サービスで、優れたカスタマーエクスペリエンスの実現に大きな役割を果たしています。
NOCは、社内(多くの場合はデータセンター内)に設置されることも、ネットワークとインフラの監視と管理を専門とする企業にアウトソーシングされることもあります。いずれにしても、NOCスタッフは、問題を特定し、その解決方法をすばやく判断する責任を負っています。
NOCの目的を簡単に言えば、ネットワークの最適なパフォーマンスと可用性を維持すること、そして稼働の継続性を確保することです。NOCは、以下を含む多くの重要業務を担っています。
これらすべてを実現するため、NOCは多くの場合、インシデント管理において階層型のアプローチを取っています。すべてのNOC技術者は、特定の問題を解決するスキルと経験に基づいて、レベル1、2、3のように分類されます。問題を発見した技術者は、アラートのタイプと重要度に基づいて問題のカテゴリーを判断し、その他の条件を識別して、チケットを作成します。特定のレベルに割り当てられた技術者がその問題を十分な時間内に解決できなかった場合は、チケットが上のレベルの技術者に回され、問題が完全に解決するまでエスカレーションされます。
この階層型のアプローチは、NOCの一般的な運用方法の1つに過ぎませんが、NOCを成功に導くための推奨事項がいくつかありますので、ご紹介しましょう。
(インシデント重大度の詳細と、チームがインシデント対応の目標を定める方法については、こちらをご覧ください。)
NOCのベストプラクティスは、トレーニングを最優先し、役割を明確に定義して、コミュニケーションの手順と手段を明確に定めることです。
NOCスタッフは、特にネットワークパフォーマンスとITインフラの監視、管理、これらに固有の問題の解決方法について、高いレベルの専門知識を身に付ける必要があります。あらゆるイベントの対処法や手順に関する充実したトレーニングを頻繁に実施して、テクノロジーの進化や自社のIT環境の変化に常に対応できるようにします。ネットワークパフォーマンスの問題に関するトレーニングが最も重要ですが、セキュリティの問題に関するSOCとの共同対応手順も見落とさないようにしましょう。
手順で重要なのがエスカレーションです。問題が手に負えないときに上のレベルのスタッフに速やかにエスカレーションするための判断のタイミングと方法をしっかりと理解してもらうことが大切です。
最近では、階層のないフラットな組織構造が注目されています。変化が激しくすばやい対応が求められるネットワーク監視の分野においても、レベルまたはロールベースの階層をかたくなに守るのではなく、各スタッフに一定の権限を持たせることは理にかなっています。しかし、各スタッフが問題にすばやく対応してネットワーク障害を防ぐための知識と権限を持っていたとしても、エスカレーション階層と、NOC全体を監督するシフト監督者はやはり必要です。
NOC技術者には、それぞれの任務とインサイト提供の大半を各自の裁量に委ねるべきで、仕事についてあまり細かく管理すべきではありません。一方でリーダーが、スキルに基づいて各技術者にタスクを割り当てる、タスクの優先順位を判断する、レポートを作成する、インシデントが適切に解消されたことを確認する、必要に応じてイベント発生を組織全体に通知するといった業務を担う必要があります。
技術者側も、自分は何をすべきか、自分のスキルレベルはどのくらいか、インシデントのエスカレーションまたは対応時に誰に報告すべきかを把握しておく必要があります。
NOC内のコミュニケーションやSOCなどの外部チームとのコミュニケーションを常に保つことは容易ではないかもしれません。定例ミーティングを数回開くだけでは、十分なコミュニケーションは築けません。スタッフに情報をいつどのように共有すべきかを教え、それを継続して実践してもらうには、教える側の努力とスタッフの協力が必要です。NOCの団結のためには、共同作業や連携を行う機会を定期的に設けることが欠かせません。
明確なガイドラインと手順を設定してください。以下の点について明示的なポリシーを策定すれば、円滑な対応が可能になります。
手順が明確に定められていれば、チーム内で認識を共有し、一貫した対応をして、スタッフの責任感を強めることができます。
もちろん、適切な人材を配置して適切なプロセスを設定することを前提としても、実際の作業では適切なツールが欠かせません。
どのツールを導入すべきかは、基本的に自社のビジネスニーズによりますが、NOCには少なくとも以下の機能を持つツールが必要です。
ネットワーク全体を完全に可視化し、必要に応じて詳細を掘り下げて問題を調査でき、時間とともにインシデント対応能力が向上するようなツールを選択することをお勧めします。
NOCがネットワークのパフォーマンスと可用性の管理に特化しているのに対して、SOC(セキュリティオペレーションセンター)ではセキュリティの専用ツールと専任スタッフが社内のセキュリティの状況を24時間365日監視し、問題を検出、分析しています。
NOC技術者の任務はネットワークの速度や可用性を低下させる可能性のある問題を監視すること、SOC技術者の任務はサイバーセキュリティの脅威を防ぎ、攻撃に対処することです。SOCはさらに、顧客データや知的財産を保護する任務も担います。NOCが対応するネットワークイベントは自然発生的でよく起こりがちなものであるのに対して、SOCが対応するセキュリティイベントは社内ネットワークを標的にした外部からの脅威がほとんどです。
NOCとSOCのどちらも、社内で問題を特定、調査、解決するという重要な役割を担い、業務に影響が及ばないように問題をすばやく解決すべく尽力しています。また、両者ともインシデント対応に階層型のアプローチを採用している点も似ています。しかし、扱う問題はまったく異なります。そのため、スタッフに求められるスキル、知識、取り組み方も異なります。NOC技術者はネットワークやアプリケーションの監視と管理に関して、SOCアナリストは特にセキュリティに関して、深い知識が求められます。
こうした違いがあっても、SOCとNOCは、重大なインシデントでは協力して対応し、危機を乗り切る必要があるため、完全に切り離すべきではありません。
しかし驚くべきことに、SANSの調査では、約3分の1の企業が、NOCとSOC間の接触はほぼない、またはまったくないと回答し、20%の企業が、両チームが協力するのは緊急時のみと回答しています。専門家は、NOCとSOCの連携を深めることを推奨しています。日常業務は基本的に別々に行うとしても、NOCとSOCの両チームがネットワーク監視データを収集および共有できるように、まずはオペレーション手順を設定し、一部の対策を自動化して、専用ツールを導入するとよいでしょう。
NOCとSOCを別々に設置するのが難しい場合は、NOCでセキュリティの問題を監視して対応することもできますが、その体制は理想的とは言えません。
たしかに、セキュリティの脅威はネットワークパフォーマンスにも影響するので、NOCで検出することが可能であり、実際に検出されます。そして、スタッフに十分な知識があれば、それらの脅威に効果的に対応することもできます。ただし、この点が問題です。スタッフはセキュリティの脅威を識別する必要があり、それに対応するためのスキルも求められます。しかし、ネットワークパフォーマンスとセキュリティの両方について高いスキルを持つ技術者はそう簡単には確保できません。
さらに、NOCでセキュリティにも対応するのであれば、スキルに加えてセキュリティの問題を解決するための適切なツールも必要になります。たとえば、ネットワーク上のすべての活動を単一のシステムで可視化するSIEM(セキュリティ情報/イベント管理)システムは必須です。SIEMシステムでは、ネットワーク上のさまざまなソースからデータが収集され、解析、分類されて、リアルタイムで対応できるように分析結果が即座に示されます。つまり、SIEMは、通常のSOCチームが行う作業の大部分を自動化するツールです。インシデントを特定すると同時に誤検知を抑えることができるため、ある程度のスキルを持つスタッフがいればNOCでも比較的簡単にセキュリティを監視できます。
いずれにしても、NOCはITにおいて最も重要な役割を果たすチームの1つであり、可用性とパフォーマンス、そしてときにはセキュリティを維持するために欠かせない存在です。
このブログはこちらの英語ブログの翻訳です。
この記事について誤りがある場合やご提案がございましたら、ssg-blogs@splunk.comまでメールでお知らせください。
この記事は必ずしもSplunkの姿勢、戦略、見解を代弁するものではなく、いただいたご連絡に必ず返信をさせていただくものではございません。
Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。
Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は1,020を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキストに基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。