根本原因分析(RCA)とは、問題の原因を特定し、対策を講じて再発を防止できるようにするためのプロセスを指します。RCAの前提には、症状だけでなく、その根底にある原因に対処すれば、問題をより効果的に解決できるという考え方があります。
たとえば、自動車のエンジンオイルの減りが早いことに気付いたとしましょう。警告ランプが点灯するたびにオイルを補充すれば、エンジンは常に滑らかに動き、摩擦や熱による摩耗を防ぐことができます。しかしこれは、症状に対処しているだけです。オイルはまたすぐに減るので、そのたびに多大な時間とコストを費やして補充することになります。代わりに、自動車を整備に出して調べてもらえば、ガスケットの劣化によるオイル漏れや、エンジン部品の損傷によるオイルの過剰消費など、根本的な原因がわかります。そして、根本原因である問題を解決すれば、エンジンオイルが異常に減ることはなくなります。
RCAは業種を問わず役立ちますが、特にIT領域で効果を発揮します。RCAでは、体系的な分析プロセスに沿って、今日の複雑なインフラの問題をすばやく正確に特定できます。また、システムに影響が広がる前に問題の根本原因を特定することで、リスクを軽減し、コストを大幅に削減できます。RCAは非常に効果的であるため、多くの業界で導入されています。
以下のセクションでは、根本原因分析の実行方法、従うべき原則やベストプラクティス、IT環境での根本原因分析の始め方について説明します。
Splunk IT Service Intelligence (ITSI)は、顧客に影響が及ぶ前にインシデントを予測して対応するための、AIOps、分析、IT管理ソリューションです。
AIと機械学習を活用して、監視対象のさまざまなソースから収集したデータを相関付け、関連するITサービスやビジネスサービスの状況を1つの画面にリアルタイムで表示します。これにより、アラートのノイズを低減し、障害を未然に防ぐことができます。
問題の根本原因を特定する方法はいくつかあり、そのプロセスは業種や組織によってさまざまです。ソフトウェアプロジェクトでは、通常、当該の問題に精通したメンバーとRCAマネージャーで構成されるRCA専門チームが分析を行います。こうした活動は「インシデント対応」と呼ばれることもあり、RCAはインシデント事後レビューの一部として行われます。
基本的なフレームワークには以下のステップが含まれます。
RCAの3つのステップは、「シックスシグマ」と呼ばれる品質管理アプローチのプロセスに含まれます。
シックスシグマは、ビジネスプロセスの効果と効率を高めるためによく使用され、欠陥の特定、原因の究明、プロセスの改善によって品質のばらつきを最小限に抑え、全体的な一貫性を保つことによって、品質を向上させることを目的としています。
シックスシグマでは、改善目標を達成するために、データドリブンの分析手法と体系的なアプローチが用いられます。こうした手法の1つが、既存のビジネスプロセスを改善するための「DMAIC」と呼ばれるフレームワークです。この名前は、フレームワークに含まれる各ステップの頭文字を表します。
シックスシグマの分析フェーズでは、プロジェクトの目標を達成するために、ソース分析、プロセス分析、データ分析、リソース分析、コミュニケーション分析の5種類を使用します。そのうちソース分析では、RCAプロセスの3つのステップを使って欠陥を特定します。
シックスシグマを取り入れれば、IT運用やソフトウェア開発のプロセスを改善できます。シックスシグマで使用するツールや技法は、システムの障害、高い欠陥率、納期の遅れなど、製品の品質や、システムのパフォーマンス、顧客満足度に影響する問題の要因を特定するために役立ちます。
基本原則に従えば、RCAを効果的に行うことができます。これらの原則の多くは、前述のプロセスステップに反映されています。以下の原則があります。
RCAは、根本原因を特定するだけでなく、効果的な是正措置を見つけるために十分な、事実に基づく判断材料を提供する、問題解決のための包括的なアプローチです。
特性要因図は、ある特性とその要因の関係を示す図で、問題を引き起こしたさまざまな要因を可視化して根本原因を探るために使用できます。1960年代に東京大学の石川馨教授が考案したこのモデルは、「イシカワダイヤグラム」とも呼ばれ、アメリカ品質協会はこれをQC 7つ道具の1つに挙げています。
また、魚の骨を横から見たような形状から「フィッシュボーン図」と呼ばれることもあり、右側の頭に該当する部分は発生した問題を示し、背骨から突き出た大骨は要因のカテゴリーを示します。さらに大骨から突き出た小骨は、そのカテゴリーに含まれる原因や要因を示します。
特性要因図は4つの手順で作成します。
効果的な特性要因図を作成するには、以下のベストプラクティスに従います。
RCAに使用できるツールには、特性要因図のほかにもさまざまなものがあります。ツールによって使用するメリットが異なるため、状況に合わせて使い分けます。主なツールをいくつかご紹介します。
なぜなぜ分析:RCAでよく使われるのが、なぜなぜ分析です。その名のとおり、好奇心の強い子供のように疑問の答えに対して「なぜ」を繰り返し、根本原因にたどり着くまで問題を掘り下げていく手法です。問題の根本原因にたどり着くには一般的に5回の「なぜ」を繰り返すのが良いとされますが、問題に応じてそれより多くても少なくてもかまいません。このツールは、根本原因が1つだけの問題に適しています。
なぜなぜ分析を行うときは、以下の手順に従います。
パレート図:パレート図は、折れ線グラフと棒グラフを組み合わせた図で、問題の原因が複数あるときに、特に重要な要因を特定するために役立ちます。要因を値の降順に棒グラフで表し、それらの値を左から右に累積した結果を棒グラフで表します。品質管理では、欠陥の最も一般的な原因や、最も起きやすい欠陥の種類を特定するためによく使われます。
散布図:散布図は、「分布図」とも呼ばれ、2つの変数からなる1組のデータポイントと回帰分析によって、変数間の関係を示します。特性要因図やなぜなぜ分析で見つかった複数の潜在的原因の関係を図にして、どの原因が問題に大きな影響を与えているかを調べるためによく使われます。
散布図を作成するときは、独立変数(潜在的原因)と従属変数(問題)をデータ項目にします。次に、プロセスを監視して、散布図の基になる測定データを収集します。データが揃ったら、独立変数をx軸に、従属変数をy軸にプロットします。プロットが明確な直線または曲線のパターンを描いた場合は、その原因と問題の間に正の相関関係があることを示します。明確なパターンがない場合は、その原因と問題の間には相関関係がないことを示します。
RCAのベストプラクティスをいくつか紹介します。
RCAが完了したら、最後のステップは予防措置を実行することです。そのためにはまず、更新する必要のある文書、変更する必要のあるプロセス、新たな研修または再研修が必要な従業員などを特定します。修正事項の多くは、RCAに基づいて判断できます。目標は常に、予防措置を講じて、解決した問題の再発を防ぐことです。
RCAは基本的に、問題を解決するための手法であるため、まずは問題があることを認識する必要があります。開発やIT運用については、問題を認識するための手段がすでにいくつかあります。
これらの手段を導入すれば、インフラの問題が発生したときにアラートを生成し、RCAを体系的に実行するために必要なデータを収集できます。また、これらの手段で高い効果を得るには、ネットワークをリアルタイムで可視化し、必要なデータを収集して、実用的なインサイトを提供するツールが必要です。こうした監視ツールやオブザーバビリティツールでは、インフラで生成されるさまざまなデバイスログやレポートに記録されたイベントが、機械学習によって分析され、相関付けられます。そこから得られるインサイトをRCAに使用すれば、より効果的な解決策をよりすばやく見つけることができます。
RCAは、インフラで問題が起きた原因、さらにはインフラが円滑に機能するための条件を明らかにするために欠かせないプロセスです。効果的なRCAプロセスを確立するには時間と労力がかかりますが、それを乗り越えれば、適切かつ永続的に問題を解決し、インフラのパフォーマンスを最大限に引き出せる環境を構築できます。
この記事について誤りがある場合やご提案がございましたら、ssg-blogs@splunk.comまでメールでお知らせください。
この記事は必ずしもSplunkの姿勢、戦略、見解を代弁するものではなく、いただいたご連絡に必ず返信をさせていただくものではございません。
Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。
Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は1,020を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキストに基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。