相関分析
Correlation Analysis
2つ以上の変数間の関係性の強さを統計的に測定し、変数間のパターンを探索する手法。
相関分析とは?
相関分析は、2つ以上の変数間に「関係性があるか」「あるとすればどの程度の強さか」を統計的に測定する手法です。 ビジネスの意思決定では、「売上と気温に関係があるか」「顧客満足度と商品価格に関係があるか」「従業員の離職率と給与水準に関係があるか」といった質問が頻繁に生じます。相関分析はこうした質問に数値的な根拠を提供します。値域-1~1の相関係数を計算することで、2つの変数がどの程度一緒に変動するかを定量的に評価できるのです。相関分析は統計学の基礎であり、より高度な予測分析や特徴選択の前提となる重要な分析手法です。
ひとことで言うと: 2つの事象が「一緒に増えたり減ったりするか」という関係性を数字で測定する方法です。
ポイントまとめ:
- 何をするものか: 変数間の関係性の強さを相関係数で定量化する
- なぜ必要か: データパターンの発見と、因果関係の仮説形成
- 誰が使うか: ビジネスアナリスト、データサイエンティスト、統計担当者
なぜ重要か
相関分析なしにデータを分析することは、地図なしに旅をするようなものです。複数の変数が存在する場合、人間の直感だけでは変数間の関係性を正確に把握できません。例えば、「売上と季節に関係があるように思える」という感覚は、相関分析により「本当に統計的に有意な関係か」それとも「単なるランダムな変動か」が判定されます。
また、相関分析は経営課題への具体的な対応方針を示唆します。「顧客満足度と離脱率に強い負の相関がある」という発見があれば、「顧客満足度を上げることが、離脱防止に直結する」という仮説を立てられます。この仮説に基づいて、顧客満足度向上施策に投資する意思決定ができるのです。さらに、特徴選択や予測分析の段階では、相関分析により特徴の候補を絞り込み、より効率的で精度の高いモデルを構築できます。
仕組みをわかりやすく解説
相関分析には複数の種類があり、データの性質に応じて使い分けられます。
ピアソンの相関係数は、連続変数間の線形関係を測定する最も一般的な手法です。計算式は「共分散を各変数の標準偏差の積で割った値」で、結果は-1~1の範囲の値になります。1に近いほど正の相関が強く(一方が増えればもう一方も増える)、-1に近いほど負の相関が強く(一方が増えるともう一方は減る)、0に近いほど相関が弱いということです。例えば、気温と冷たい飲料の売上の相関係数が0.85なら、「気温が上がると売上も増える強い正の相関がある」と解釈されます。
スピアマンの順位相関係数は、順序関係にある変数(ランキング、等級など)間の相関を測定します。ピアソンの相関係数は線形性を仮定しますが、スピアマンは順位に基づいているため、非線形な関係にも対応できます。例えば、「商品レビュー数」と「販売ランク」の相関を測定する場合、完全な線形関係ではないかもしれませんが、スピアマンであれば「レビュー数が多いほどランクが高い傾向」を正確に捉えられます。
クラメールのVは、カテゴリ変数(商品カテゴリ、地域区分など)間の相関を測定する手法です。ピアソンはカテゴリデータに対応できませんが、クラメールのVであれば、「商品カテゴリと顧客セグメント」のような関係性を測定できます。
相関分析の実施後は、「有意性検定」により、観察された相関が統計的に有意か(偶然ではなく、本当のパターンか)を判定します。相関係数がいくら大きくても、サンプルサイズが小さければ、偶然である可能性があります。p値という値により、「この相関が偶然である確率は5%以下である」といった統計的確実性が表現されます。
実際の活用シーン
気象データと売上の関係分析
アパレル企業が気温と衣料品売上の相関分析を実施すれば、「気温が5℃低下すると、冬物衣料の売上が15%増加する」といった関係性が定量的に把握できます。この知見に基づいて、気象予報に連動した在庫配置やマーケティング施策が計画できます。
顧客属性と購買額の関係分析
Eコマース企業が顧客年齢と購買額の相関分析を行えば、「年齢が高いほど購買額が高い傾向」があるか否かが判定できます。相関が強ければ、「高年齢顧客向けの高額商品マーケティング」に経営資源を集中投下する意思決定につながります。
従業員のエンゲージメント指標と業績の関係分析
企業が従業員満足度スコアと営業成績の相関分析を実施すれば、「満足度が高い従業員は、営業成績が高い傾向がある」という仮説の検証ができます。相関が強ければ、従業員満足度向上施策への投資が、結果的に業績向上をもたらすという根拠が得られます。
メリットと注意点
相関分析の最大のメリットは、複数の変数間の関係性を簡潔に数値化できることです。意思決定者は相関係数という単一の数字から、変数間の関係性を迅速に理解できます。また、相関分析は計算が比較的簡単で、大規模データセットにも容易に適用できるスケーラビリティを持つという利点があります。さらに、特徴選択の第一段階として機能し、後続の予測分析の効率化につながります。
一方で、相関分析には重大な限界があります。「相関は因果を意味しない」という原則は、統計学において最も重要です。例えば、「アイスクリーム売上と溺死件数に高い相関がある」としても、アイスクリームが溺死を増やしているのではなく、両者が気温に影響を受けているだけです。相関分析だけでは、このような「見かけの相関」と「本当の因果関係」を区別できません。また、相関係数は線形関係を測定するため、複雑な非線形パターン(例:「気温が15℃~25℃の時が最も売上が高い」といった一山型の関係)を見落とします。さらに、外れ値の存在により相関係数が大きく歪むことがあります。
関連用語
- 回帰分析 — 相関分析で発見された関係性をより詳細に分析し、予測モデルに発展させる手法。
- 特徴選択 — 相関分析により、予測対象と関連性が高い変数を特定し、モデル構築に使用する変数を選定。
- 予測分析 — 相関分析で発見された関係性を用いて、未来の値を予測するモデルを構築。
- データディスカバリー — 相関分析は、隠れたデータパターン発見のための主要な手段。
- 外れ値検出 — 外れ値が相関係数に与える影響を軽減するため、外れ値検出による前処理が有効。
よくある質問
Q: 相関が強いほど良いですか?
A: 必ずしもそうではありません。複数の同じようなデータを使っている場合(例:同じ製品の売上を異なる単位で測定)、見かけ上の高い相関が生じます。また、強い相関があれば因果関係があるというのは幻想です。最も重要なのは、「この相関がビジネス上、合理的な解釈が可能か」という点です。
Q: 複数の変数がある場合、どの相関を見るべきですか?
A: 一般的には、すべての変数対の相関を計算し、「相関マトリックス」(ヒートマップで視覚化)で一覧表示します。これにより、「強い相関の組み合わせ」「予想外の相関」などが視認できます。その後、ビジネス仮説に基づいて特定の変数対を詳細に分析します。
Q: 相関分析で統計的有意性が得られないと、その関係は存在しないということですか?
A: いいえ。統計的有意性がないということは、「得られたサンプルデータから、その関係の有無を判定することが難しい」という意味です。実際には関係があるが、サンプルサイズが小さい、または関係が非常に弱いために、検出されなかった可能性があります。統計的有意性は必要条件ですが、十分条件ではありません。