これまでレスポンスの速度まで見ることができませんでしたが、“Splunk Synthetic Monitoring”によってパフォーマンスから各システムの評価がよりきめ細かに見えるようになりました
約30ある情報系システム基盤をハイブリッドクラウド環境へ移行していく中で、複雑化するシステムの障害ポイントが可視化しにくいという課題があり、ユーザー視点に立ったパフォーマンス監視を行う仕組みが必要とされていた。
現行システムに手を入れることなく、外部からの問い合わせで発覚するインシデントを開発チームでいち早く検知することができるようになった。すぐに使い始められ、URLを追加するだけで死活監視が開始できることに加え、Webサイトの表示パフォーマンス計測によりユーザー体験の改善が可能になった。
東京証券取引所グループと大阪証券取引所が2013年1月に経営統合して誕生した日本取引所グループ(JPX)。同グループ傘下の東京証券取引所(東証)は、金融商品取引法に基づく金融商品取引所の免許を受け、金融商品市場を運営する事業会社です。その事業領域は、株券等有価証券の売買やデリバティブ商品の取引を行う市場施設の提供、あるいは相場の公表や売買等の公正性の確保に関する業務などに及びます。
JPXでは、取引所の根幹となる売買や決済を行う基幹系システムに加え、約30の情報系システムを有しています。たとえば、上場会社の決算発表等の情報開示を担うシステムや、上場会社や証券会社などの取引参加者からの届出、申請、通知などを扱うシステムです。それらの基盤は、クラウドをはじめとする新たなテクノロジーを活用すべく、ハイブリッドクラウド環境への移行が進められていますが、クラウドやAPIなどを活用するWebシステムの監視の強化に課題を感じていました。
ハイブリッドクラウド環境で基盤が複雑化することで、障害ポイントが可視化しにくいといった課題や、システムを利用するユーザー視点に立ったパフォーマンス監視を行いたいものの、複雑化するシステム基盤に従来の手法のみで対応するには限界があるといった課題です。そこで、同社は、「サービスの提供状況の把握(クラウドサービスの死活監視)」「パフォーマンス状況把握」「API稼働状況の把握」の3点を目的に、各システムにアクセスして統合的に定点観測する仕組みとして外形監視ソリューション「Splunk Synthetic Monitoring」を導入し、運用を開始しました。
JPXの中でシステム開発を担うのが IT開発部で、開発を手がける情報系システムは約30にのぼります。同部 情報システム担当アプリケーション統括課長の岡田 暁光 氏は、「システムのリプレースや更改、小規模な追加開発を担当しており、この3年間、システムやアプリケーション基盤のクラウドへの移行を進めているところだ」と話します。
開発するシステムの運用監視設計は、これまで様々な仕組みを利用して行ってきたものの、ハイブリッド、マルチクラウド環境が進む中で「基盤が複雑化し、全体像が把握しにくくなり、障害ポイントが可視化しにくい課題があった」ということです。
そこで、CPU使用率やメモリ使用といった計算機スペックの監視だけでなく、システムを利用するユーザーの視点に立って「快適性などパフォーマンスの部分まで監視していく仕組みを必要としていた」と岡田氏は述べました。
また、ユーザー体験の監視の重要性について、同部 情報システム担当の落合虎之介氏は、「約30の情報系システムは、社内向けのものもあれば、社外向けのものもある」と説明します。たとえば、上場会社の決算発表等の情報開示を担う「TDnet」というシステムは世界中の投資家が利用しますし、取引参加者からの届出、申請、通知などを扱う「Target」というシステムは、上場会社や証券会社などが利用します。
これまでは、社外向けシステムに遅延などの問題があったときに、自分たちでスピーディに検知することが難しく、特に、実際のユーザーの目線でアクセスして快適かどうか、期待されたパフォーマンスが発揮できているかをモニタリングし、問題があればすぐに改善できる仕組みが必要だった──、落合氏はそのように課題を述べました。
同社は、かねてより売買システムなどの基幹系システムにSplunk製品を利用しており、上述した課題解決のために「Splunk Synthetic Monitoring」の提案を受けました。岡田氏は、「2021年9月頃、IT 運用全体を高度化、自動化するソリューションの一つとして、Splunk Synthetic Monitoringの提案を受けた」と話します。
「Splunk Synthetic Monitoring」は、SaaS形式で提供されるソリューションで、対象となるWebサービスの死活監視や、ユーザーが利用する操作のレスポンスなどのパフォーマンス状況把握、対象システムが利用するAPIの稼働状況の監視を行うものです。岡田氏は「SaaS形式ということで現行システムに手を入れることなくスピーディに、スモールスタートできるという点を評価し、PoCという形でテスト運用を行い、有用性を確認して本番移行することにした」と振り返ります。
採用に至った決め手として、実際に運用を検証した落合氏は「コンソール画面上で各種設定やシナリオを構築したが、操作感のよさ、カスタマイズ性の高さに好印象を抱いた」と説明します。操作感のよさは「プログラミングの知識がなくとも、GUIベースでシナリオ構築、設定が容易にできる」点です。また、カスタマイズ性の高さは、「監視対象のシステム特性に応じて、リクエストを送る拠点や、レスポンス速度のしきい値などの設定項目を細かく指定できる」点で「ある程度、IT 運用できる人なら誰でも対応が可能だと感じた」ということです。
また、岡田氏は、SaaS形式で提供されるソリューションの優位性として、「あるシステムでは、外形監視のために定期的に稼働するジョブをスクラッチで開発する必要があった」と話します。その点、Splunkは、「クラウドサービスの死活監視やブラウザーのパフォーマンス監視、API監視という主要機能がすぐに利用でき、複数の環境にまたがったシステムをスピーディに、リーズナブルに統合監視する仕組みとしては最適だった」ということです。
PoCを経て、2021年12月から本番利用を開始しました。
SaaSによって導入までのハードルが低く、設定だけですぐに利用できます。また、フロントエンドの監視に必要な機能が全て揃っていると感じました
新たにSplunkの監視対象としたシステムは、上述した「TDnet」や「Target」など8システムで、落合氏によれば「導入間もない現在はスモールスタートと位置付け、問題があったときに対応する体制で、私と岡田をはじめ4 名ほどのメンバーで適宜モニタリングを行っている」そうです。
よく利用する機能としては「たとえば、クラウドの死活監視については、単なる死活監視だけでなく、何秒を超えたらアラートを通知するなど、応答時間やパフォーマンス計測まで細かく設定している」(落合氏)ということです。
「Splunk Synthetic Monitoring」の導入効果について、落合氏は「外部からの問い合わせで把握するインシデントをいち早く検知することができる」点を挙げます。「システムの方では特に不具合がないものの、ユーザーから見た挙動がおかしいという場合に、外形監視によって開発チームで迅速に検知できるようになりました」(落合氏)。
特に、パブリッククラウドの不具合はタイムリーに把握することが難しく、かといって張り付きで監視することにも限界があります。「Splunk Synthetic Monitoring」は、障害ポイントが社外にあるSaaSなどのインフラで効果を発揮しています。
また、岡田氏は「簡単に使い始めることができる」点や、「URLを追加するだけで死活監視だけでなく、Webサイトの表示パフォーマンスも計測、測定して何かあったときに通知して、検知することができる」点に加え、「ユーザー体験の領域の改善につながる」点を挙げてくれました。
フロントエンドから、ユーザーの見た目のパフォーマンスに関するデータを収集して健全性を把握し、改善につなげる効果が出始めているということです。特に、正常性の確認という点では「たとえば、パブリッククラウドで障害が発生したというニュースが出たときに、利用しているリージョンによって障害が出るか出ないかがわからないことがある」そうですが、「コンソール画面から異常が出ていないことをすぐに確認し、問題の切り分けをすぐに行うことができている」ということです。
今後は、フロントエンドの監視に加え、バックエンドのインフラやその上で稼働するアプリケーション全体の運用効率を高めるSplunk IT Service Intelligence(ITSI)、Splunk Observability Cloudというプラットフォームの提案も受けているそうです。
岡田氏は、今後の展望として「対象システムの拡大と利用範囲の拡大」というポイントを挙げました。ハイブリッドクラウドやマルチクラウド環境は今後も増えていくことが考えられます。「情報系システムは使いやすさが大事になってくるため、対象システムを横に拡大していくことに加え、機能面でも、たとえば死活監視をシナリオベースでもう少し深く監視していくなど、縦方向にも深度を広げていきたいです」(岡田氏)。
また、落合氏は、現状、IT開発部でモニタリングしている体制を発展させ、各システム開発者に利用範囲を広げていくことや、IT 運用部門との協業を進め、インシデント対応のプロセスに組み込むことで組織的に対応していくことも検討したいと述べました。
2022年4月にはJPX総研という新しい子会社が事業を開始します。従来の「取引所」の枠組みにとらわれない情報配信や、M&A、高度人材活用などを通じた柔軟性・機動性に富んだ事業展開を行うことで新たなカルチャーの醸成を図っていくことになります。JPXグループ全体のITビジネスを戦略的に高度化していくことに今後もSplunkに貢献してもらいたい──、岡田氏はこのように締めくくってくれました。