AppDynamicsに初めて触れたとき、何の設定もなしに関数レベルのパフォーマンスまで表示されることに驚きました
ERPのアプリケーションでの稼働率99%を確保するためには、パフォーマンス劣化といった問題への迅速な対処、お客様からクレームが上がる前に対応する必要がある。
パフォーマンス劣化の原因をピンポイントで特定することで解決時間を劇的に短縮。SRE部門の生産性向上はもちろん、問題に対してプロアクティブに対処できるようになったことで製品の信頼性をさらに向上。
大手企業向けのERP製品「HUEシリーズ」を提供するワークスアプリケーションズでは、サービスのさらなる安定稼働と品質向上を目的としてアプリケーションパフォーマンス管理(APM)にAppDynamicsを導入しています。これにより、これまで時間がかかっていたサービスのパフォーマンス劣化の原因特定が容易になり、問題解決までの時間を大幅に縮小したほか、SaaSだからこそ必要とされるプロアクティブな可視化が可能になりました。
ERP(Enterprise Resources Planning)およびグループウェアなど、企業の生産性向上を支援するサービスを展開するワークスアプリケーションズ。同社の主力製品である「HUE(ヒュー)」は、クラウド基盤を活用した国産ERPのパイオニアともいえる製品として、企業から寄せられるさまざまな要望を標準機能に取り込みながら、多くの企業の業務に適合できるアドオン不要なERPとして進化を続けています。
「サービス開始以来、HUEは『ノーカスタマイズ』『無償バージョンアップ』『高い機能網羅性』という3つのコンセプトをもとにアプリケーションのデリバリから保守運用まで一気通貫でお客様に提供しています」と語るのは、同製品の開発・販売・サポートを担うワークスアプリケーションズ・エンタープライズの代表取締役 社長執行役員 宮原雅彦氏です。
このHUEの安定運用を担う上で重要な存在が同社のSRE (Site Reliability Engineering)部門です。同部門は、HUEのインフラの運用保守をはじめ、アプリケーションの特性を踏まえたサービスの品質向上を目指して創設されました。HUEは法改正や最新技術に対応した新機能を追加して顧客に提供していく中で、予期せぬ不具合や、障害、パフォーマンスの劣化が発生することもあります。SRE部門といえども、未知の問題に関する豊富な知見があるわけではないため、常に迅速解決ができるとは限りません。同社 AC SRE Dept. マネージャーの白岩 勇人氏はこう語ります。
「例えば、新機能デリバリ後にパフォーマンスが劣化したとお客様から連絡があったとします。その原因を特定するためにはお客様にHUEの利用状況をヒアリングすることから始めなければなりませんでした。そこからOracleのStatspackやJavaのスレッドダンプ、DBへのクエリなど、さまざまな方法で情報を収集し、中身をくまなく確認した上で遅延の原因を探っていました」
パフォーマンス改善のためにソースコードを修正することになっても、事象解決までは1~2週間を要することもあります。さまざまな調査を行っても事象が解決しないときは、コストをかけてインフラ側を増強することもあったといいます。
さらにパフォーマンス劣化の問題の多くが顧客からの問い合わせで発覚するという課題もありました。社内からは「開発部門やSRE部門で問題を検知できるようにしてほしい」というニーズが高まっていました。これについて宮原氏は「当社がクラウドサービスベンダーに変革するには、問題の発生にプロアクティブに対処できる仕組みが必要だと、HUEの開発当初から考えていました」と語ります。
AppDynamicsに初めて触れたとき、何の設定もなしに関数レベルのパフォーマンスまで表示されることに驚きました
当社がクラウドサービスベンダーに変革するには、問題の発生にプロアクティブに対処できる仕組みが必要だと、HUEの開発当初から考えていました
アプリケーションのパフォーマンス低下の原因は、インフラにあるとは限りません。開発者や品質管理部門にとっても重要な指標となります。そのためAPM導入にあたっては、インフラエンジニアでなくても、誰でも直感的にアプリケーションの追跡やトランザクションなどを理解できることを重視しました
プロアクティブな問題検知の仕組みを実現するため、AppDynamicsを含む主要なアプリケーションパフォーマンス管理(APM)ソリューションをいくつか候補に上げて比較検討しました。
「アプリケーションのパフォーマンス低下の原因は、インフラにあるとは限りません。開発者や品質管理部門にとっても重要な指標となります。そのためAPM導入にあたっては、インフラエンジニアでなくても、誰でも直感的にアプリケーションの追跡やトランザクションなどを理解できることを重視しました。もちろん、問題を検知した後、原因調査や対応に即座に着手できることも重要です」と、白岩氏は製品の選定基準を語ります。
同社では、AppDynamicsを本格的に導入する前にPoV (Proof of Value:価値実証) を実施して、実際の使用感を確認しています。「AppDynamicsに初めて触れたとき、何の設定もなしに関数レベルのパフォーマンスまで表示されることに驚きました。データを取りにいかなくても、お客様が利用している状態のパフォーマンスを確認できるのです」と白岩氏は振り返ります。PoVでは、「Javaの各処理に何秒かかっているか」「記述したプログラムの処理がなぜ止まるのか」といった、詳細な情報まで可視化できるところが評価されました。
またHUEのようなERP製品では、DBに大量のデータが格納されるため、顧客に安定した品質でサービスを提供する上でDBの性能が要となります。そのため、特にDBとアプリケーションのつながりの可視性が重要だったといいます。「AppDynamicsでは、アプリケーションからどのDBへどんなクエリが発生しているかを簡単に把握することができます。DBが遅延している際、以前のようにOracleのStatspackを取得することなく、現在ではブラウザからDBの実行計画を確認できます。必要な情報がAppDynamicsのUIから簡単に把握できるところに高い利便性を感じました」(白岩氏)
同社は、HUEの開発開始から2年後の2016年にAppDynamicsを部分的に導入。2020年にSaaS型事業を拡張するにあたり、改めてAPM製品を検討した結果、同年7月にAppDynamicsを本格的に導入しました。
AppDynamicsの導入によってアプリケーションのパフォーマンス劣化をはじめとする問題の原因特定が容易になり、さまざまな効果をもたらしています。解決にあたるSRE部門の人的負担は導入前の3分の1から2分の1程度にまで削減できました。それによって、SRE部門の注力業務であるインフラの運用保守の自動化やサービスの品質向上へとより専念できるようになったのです。こうしたAppDynamicsの導入効果について白岩氏はこう評価します。
「顧客のDBやアプリケーションの稼働状況のデータがAppDynamicsに一元的かつ自動的に蓄積されるため、これまでのように手作業で様々なレベルのログを収集する必要がなくなりました。AppDynamicsのダッシュボードをドリルダウンしていくだけで、遅延の原因を容易に特定できます。これまで1週間近く時間を費やしていた原因特定作業が、数分で完了したこともあります。」また、これまで社内からSRE部門に寄せられていた「アプリケーションの遅延の原因はインフラの性能に問題があるのではないか」といった質問や問い合わせに対しても、明確な原因を回答した上で対応できるようになりました。
AppDynamicsでは、可視化対象に一定のしきい値を超えた事象が発生するとその旨を自動的に通知することができます。同社では、この通知を関係者にチャットで送信されるようにしています。開発者や品質管理部門が即座に問題を検知できることで、プロアクティブに問題の対処できるようになっています。
このように同社では、AppDynamicsをアプリケーションやDBの可視化やパフォーマンス劣化の原因特定といった運用管理に役立てています。「単なる監視ツールではなく、AppDynamicsに蓄積されたデータを分析して、当社のサービスをどう成長させていくか、お客様の業務課題の解決にどう活かすかといった、ビジネス改善にも役立てていきたいと考えています」と白岩氏。さらに宮原氏も、「今の導入効果はあくまでも通過点でしかありません。単なるモニタリングからお客様に新たな価値を提供するためのビジネスオブザーバビリティ(ビジネスの可観測性)にステップアップしていくことが目標です」と今後の展望を語っています。
今の導入効果はあくまでも通過点でしかありません。単なるモニタリングからお客様に新たな価値を提供するためのビジネスオブザーバビリティ(ビジネスの可観測性)にステップアップしていくことが目標です