ダッシュボードが次々と作られるなど、メンバーのSplunkに対する熱量が高かった。自分たちで手を動かして、変化に応じてカスタマイズしていくという時にはこの熱量が重要だと感じた
スマホ決済サービス「au PAY」の残高管理システムにおいて、アラーム監視やトラフィック解析ツールは用いていたものの、対向システムの処理状況や正常応答率などは個別にログ解析が必要で、可視化するまでに多くの時間を必要としていた。オブザーバビリティ向上を実現できる環境整備が必要に。
Splunk Enterpriseを活用することで、複数のダッシュボードからリアルタイムで必要な情報を可視化することを実現。ログの詳細分析や傾向予測が可能になるなど、au PAYのレジリエンス向上に大きく貢献、従来の監視ツールに加えた第三の目に。定常業務の効率化に貢献し、リードタイムは9割以上削減することに成功。
大手通信事業者として社会基盤に欠かせない安定した通信インフラを提供しているKDDI株式会社。豊かなコミュニケーション社会の発展に貢献することを企業理念とし、社会の情報基盤を支えるインフラ企業として社会課題の解決に取り組んでいます。現在は、2030年に向けて掲げたKDDIグループのありたい姿としてのKDDI VISION 2030「『つなぐチカラ』を進化させ、誰もが思いを実現できる社会をつくる。」を実現するべく、5G通信を核とした注力領域の事業拡大を目指すサテライトグロース戦略を推進。グループ各社と連携を取りながら、①キャッシュレスサービス「au PAY」を中心とした金融、②業界ごとの多様なニーズに応じたビジネスプラットフォームを提供することで新たな付加価値を創造するDX、③メタバースをはじめ多様化が進む消費・体験行動に革新をもたらすLX(Life Transformation)、④auでんきやカーボンニュートラル関連事業の強化を図るエネルギー、⑤地域社会が抱える課題に向き合う地域共創の5つの注力領域の事業を進化させ、グループの企業価値最大化に向けた活動を展開しています。
そんな同社が注力する金融事業の1つとして提供しているスマートフォン決済サービス「au PAY」は、“お客さまが利用するお財布”として24時間365日安定して稼働し続けることが使命となっており、2022年には新たに性能向上および可用性向上を目指してシステム更改を実施しました。その中でオブザーバビリティ向上に重要な役割を果たしているのが、従来の監視ツールに加えた第三の目としての役割を果たしているSplunk Enterpriseです。
スマートフォン決済サービス「au PAY」は、2014年に開始したau WALLETからスタートしたもので、2024年には10周年を迎えるなど、実績を積み重ねてきました。そして現在、キャッシュレス決済の急速な普及に伴って重要な社会インフラとして欠かせないものとなっており、2023年11月段階で会員数は約3,370万人、626万カ所のポイント・決済加盟店で利用可能なサービスに成長しています。このau PAYを支えるシステム群には、au PAY アプリをはじめとしたUI/UX領域の仕組みとともに、SoE領域やSoR領域に多数のシステムが存在しています。SoR領域のシステムとして重要な基盤となっているのが、チャージによる加算や決済などによる減算の状況を判断しながら顧客ごとの残高を管理する残高管理システムです。「残高管理システムは、チャージや決済・残高照会などのメイン機能に加えて、お客さまの本人確認やコンビニATMとの連携など、au PAYにおいて重要なシステムです。この残高管理システムの安定稼働に向けて、いつでも状態が適切に把握できるオブザーバビリティの向上は非常に重要です」と説明するのは技術統括本部 情報システム本部 基幹システム1部 鈴木 萌那氏です。
従来はアラーム監視やトラフィック解析用にツールを導入してGUI上で把握できていましたが、対向システムの処理状況や正常応答率といったものは個別にログ解析が必要で、多くの時間を要して初めて可視化できる状況でした。「短期間のキャンペーンを実施した場合、当然決済の利用件数が増えます。新人の頃にこれを実際に数で見てみようとすると、各商用サーバーに対してCLIにてアクセスして情報を取得、ExcelやPowerPointに報告書としてまとめるだけで1日仕事となってしまうケースが多かったのです」と同部 高垣 湧成氏は当時を振り返ります。また、商用サーバーに直接アクセスする必要があり、そのリスクに関しても懸念があったのです。
自分が知りたい情報を表現できるダッシュボードの作りやすさが何よりも大きい。他のメンバーが作ったものを見て自分なりにアレンジするなど、スキルアップにもつなげやすい
そんな折、性能や可用性を向上させるべくシステム更改がプロジェクト化され、新たにオブザーバビリティ向上に役立つ環境づくりを目指すことに。そこで注目したのが、Splunk Enterpriseでした。「社内の他の部署で活用した事例があり、ダッシュボード上で自分が見たい形に柔軟に作り込める点を評価したのです」と鈴木氏。高垣氏も「せっかく導入するのであれば、自分たちでカスタマイズできる、“手の内化”できるものが求められていました。開発パートナーとともに、自分たちで理解してしっかり内部で扱っていけるものを目指したのです」。
同本部 DXシステム1部 副部長 齊藤 健氏が感じたのは、Splunkに対するメンバーの熱量の高さです。「インターネット上に情報が豊富で、Splunkの公式サイトからも情報を得やすい。導入当初のサポートがしっかりしているなど、我々にとって入れやすい環境がありました。また、1時間ほどで見栄えのいいダッシュボードが次々と出来上がるなど、メンバーがSplunkに抱く熱量が高かったのです。自分たちで手を動かしていくためには、この熱量が重要だと感じました」と齊藤氏。
結果として、au PAYの重要なシステムの1つである残高管理システムのオブザーバビリティ向上のために、Splunk Enterpriseが採用されることになったのです。
SPLを3行程度書けば分析したいデータが出せるなど、工数削減に加えて本質をすぐに引き出すことができる手軽さが大きい
現在は、社内クラウド上のメインサイトとDisaster RecoveryサイトそれぞれにSplunk Enterpriseが設置されており、残高管理システムから吐き出されるログを集約しています。「全ての処理がこの残高管理システムに集約し、30ほどある対向システムと接続しています。この残高管理システム内にマイクロサービス的にApache Tomcatを常駐させ、目的に応じてログを取得しています」と齊藤氏は説明します。ダッシュボード自体は70種類ほどが作成されており、Apache Tomcatの健全性を見るものから対向システム観点での動き、キャンペーン期間の集計、日次月次のレポート用、取引店舗ごとの利用動向、バッチの稼働状況といった各種ダッシュボードを運用しています。
同社の運用で特徴的なのは、ログ収集の方法です。各サーバーに常駐するApache Tomcatから目的別にログを整形したうえで出力し、ログを集約する中間サーバーにて個人を特定できる情報やデバッグメッセージなど不要な情報を削除し、1分おきにUniversal ForwarderにてSplunkに取り込んでいます。「全てのデータを取り込むと1日あたり数十GBの容量になってしまいます。ログを削減、整形することで1日あたり数百MBほどの転送量で済み、ライセンスの節約にもつながっています」と鈴木氏は説明します。また、Splunkが持つMachine Learning Toolkit(MLTK)を利用し、普段のアクセス傾向をモデルとして定義し、普段と違う動きを検知してトラブルの予兆検知を行っています。さらに、キャンペーンに関する需要予測も実装しており、主要な加盟店では8割以上の精度で予測できるようになっている状況です。
今回Splunk Enterpriseを導入したことで、ログの可視化による詳細分析や傾向予測などが可能になるなど、au PAYのレジリエンス向上に大きく貢献。まさに従来の監視ツールに加えた第三の目として高く評価しています。「異常発生時には色分けして表示することはもちろん、au PAYにおける重要なKPIを瞬時に判断できるよう数字でパッと見えるようにするなど、色々工夫しながらダッシュボードが作れるのは何より」と高垣氏は評価します。また各種集計のダッシュボード化によって、定常業務の効率化に貢献し、リードタイムは9割以上削減することに成功しています。また、運用部隊と開発部隊が一緒になってスキルアップに繋がるような架け橋として、Splunk Enterpriseが役立っている面も1つの効果に挙げています。
Splunk Enterpriseの効果は、きちんとデータで答えてくれることだと高垣氏は力説します。「きちんと数字で考え、ストーリー立てて事象が語れるエンジニアになろうというテーマを掲げており、まさにデータで答えてくれるという意味でSplunkの存在は大きい。しかも、SPLを数行書くだけで本当に知りたい情報にたどり着くことができる。工数削減はもちろん、本質を即座に手軽に引き出せることが魅力なのではないか」。また攻めの情シスとしての役割も意識しており、そこにSplunkが貢献する部分は少なくないと言います。「ビジネス部門に対して技術側が抽象的な話をしても受け取ってもらえません。そこで武器になるのが、我々が保有している膨大なデータです。このデータをビジネス部門により分かりやすく、効果的に伝えることが重要になってきます。Splunkを導入したことで、よりシンプルに、かつリアルタイムに情報提供できる環境が整備できたことは大きい」と齊藤氏。
Splunkの魅力はダッシュボードの作りやすさだと鈴木氏は力説します。「自分が知りたい情報をシンプルに表現できることは大きなポイントです。別のメンバーが作成したダッシュボードから中身をみて自分なりにアレンジするといったこともスキルアップに役立つため、とても重宝しています」。高垣氏が評価するのは、テキストならなんでも投入できる点です。「Splunkはテキストならなんでも投入できることが非常に強力です。カスタマイズも実施しやすく、SPL自体を習熟するハードルは非常に低い。すぐに必要な情報に辿り着けることが大きな魅力です」と評価します。
齊藤氏が考えるSplunkの魅力は、組織として挑戦する風土を醸成することに役立っていることだと言います。「特にSplunkを通じて社外との交流が増え、それを社内に持って帰ってくることでかなり刺激になっています。小さな成功体験を積み重ね、都度達成感を得ることでメンバーのモチベーションも高まります。Splunkが、その好循環を生むきっかけの一つになっています」と高く評価します。
現状は中間サーバーにて整形して送っているデータですが、いずれは生ログとしての解像度の高い情報をリアルタイムに把握することにも挑戦してみたいと高垣氏は意欲的です。「ログとログの統合がSplunkはうまくやってくれるため、何かあったときもクリックで追いかけていくことも可能。運用管理の側面からぜひトライしたい」。ログを整形している都合上、トラフィック1件ずつの情報までは現時点では見ることができないため、必要に応じて別のツールを使っていますが、いずれはSplunkにアラーム監視やトラフィック解析ツールの役割も持たせていきたいという思惑もあると言います。
また攻めの情シスを目指して、ビジネス貢献の観点からも積極的にデータ活用を進めていきたいと語ります。「様々なBIツールがありますが、やはりSplunkの強みはリアルタイムにデータが確認できること。現在は主にシステム監視を目的に利用しているためビジネス部門と共有しているダッシュボードはありませんが、今後は徐々に連携を取りながら、ビジネス貢献できる情シスとしての挑戦を続けていきたい」と鈴木氏。齊藤氏は「AIとSplunkを組み合わせることで、新しいことに挑戦できる環境も整えられるはず。ただし利用シーンを作ることが大変なため、Splunkと一緒にディスカッションしながらやっていきたい」と今後について語っていただきました。