統計分析技法「相関」

統計分析手法「相関」表紙 技の和
この記事は約16分で読めます。

一見すると別物の二項目(例:睡眠時間と学校の成績)が、実は互いに影響する関係(例:しっかり寝るとテストの点が高い)ということもある。
二つの項目間で影響の「強さ」「弱さ」「無さ」を数値で表す統計学の技法が「相関そうかん」。
この技法は使い方次第で、たとえば成績と影響が大きい生活習慣が見つかる場合もある。
本記事は、相関の詳細な計算方法には触れず、相関の使い方
と、相関が示す数値の意味を説明する。

本質の羅針盤シリーズ① 統計分析技術「相関」 松浦公政 2022年5月
対象読者
二つの別のモノゴトの間にある関係の強さ(弱さ)を「量」(数値)で示す技法に興味がある方
「相関関係の量」が持つ意味や使い方に興味がある方
「相関関係の量」が計算できた時、その値の信頼性を判断する基準に興味がある方

別のモノゴト(事象)が互いに影響するなら「相関関係がある」という

相関関係とは

ある事象じしょう(A)が変化すると、その影響で他の事象(B)が変化する場合、「AとBは相関関係がある」という。
たとえばサッカーの試合をスタジアムで観戦するシーンを想定する。

2つの事象(A)と(B)   (A)と(B)の統計的関係の表現方法
自分が買った席のチケットの値段(A)と、応援するチームのゴール数(B)は、関係しない(高い席を買ったからといって応援するチームがゴールをたくさん決めるとは限らない) 買った席のチケットの値段と応援するチームのゴール数には「相関関係がない」(AとBは相関関係がない)
最近3試合のゴール数(A)と、この試合で上げるゴール数(B)は、多少の関係はありそうだ。 最近3試合のゴール数と、この試合で上げるゴール数には「相関関係がある」(AとBは相関関係がある)
試合中の気温の高さ(A)と、スタジアム内の冷たいドリンクの売上(B)は、関係がないと考える方が不自然だろう。 気温の高さ(A)と、冷たいドリンクの売上(B)には「強い相関関係がある」(AとBは強い相関関係がある)

上例③で「強い」という形容詞を使ったが、「強い」「弱い」 は人によって判断基準が違うので、必然的に主観での定性ていせい的な判断になる。
そこで「相関分析」という統計手法を使って相関関係の強さを数値(定量)化し、誰もが同じ基準で客観的に判断できるようにする。
※以降は「事象」は値を測定できる前提で、少し具体的に「データ」と表現する

「相関分析」は、同類の事例をたくさん集め、それらに共通する関係の強さを調べる。たとえば次のような同類のデータのセット(試合開催日の気温とドリンクの売上)をたくさん集め、分析する。

日付 試合中の平均気温 冷たいドリンクの売上 温かいドリンクの売上
4月 7日 22℃ ¥1,350,000 ¥1,000,000
4月14日 28℃ ¥1,500,000 ¥580,000
4月21日 19℃ ¥790,000 ¥1,290,000

相関関係を視える化するグラフ

たくさん集めたデータのセット(試合開催日の平均気温と、冷たいドリンク売上)の全体像をつかむために、横軸(x軸)を平均気温、縦軸(y軸)を冷たいドリンク売上としたグラフを作る。
グラフ上に、「4月7日に対応する座標(x、y)=(24、1,350,000)」、「4月14日に対応する座標(x、y)=(28、1,500,000)」、…の要領で、データのセットと対応する座標点を打つと、集めたデータの全体像をグラフ上に分布する「点」で表せる。

気温と冷たいドリンク売上の相関図

気温と冷たいドリンク売上の相関関係


同様に、平均気温と暖かいドリンク売上のデータのセットに対応する座標点を打つと、次の分布のグラフになる。

気温と温かいドリンク売上の相関図

気温と温かいドリンク売上の相関関係

正と負の相関関係 分布の傾向
正の相関関係 気温が上がるほど、冷たいドリンクの売上が上がるような、「アゲ(↗)-アゲ(↗)の関係」 右肩上がり
負の相関関係 気温が上がるほど、温かいドリンクの売上が下がるような、「アゲ(↗)-サゲ(↘)の関係」 右肩下がり

平均気温と、冷たいドリンク売上の分布を記入したグラフに、各点の真ん中付近を通る直線(青線)を引くと、グラフの傾きが、平均気温と冷たいドリンク売上の「アバウトな影響度」を表す。

各点の真ん中付近を通る直線(青線)を加えた図

各点の真ん中付近を通る直線(青線)を引いた

グラフ上に引いた直線の「傾き」が急なほど、影響度が大きい(=相関関係が『強い』)。

相関グラフの傾きと相関関係の強弱   相関関係の強弱の意味


気温と冷たいドリンク売上の相関図

気温と冷たいドリンク売上の相関関係



一方のデータの変化が、他方のデータに大きな変化を引き起こすことを意味する
グラフ上に引いた直線の「傾き」が急な(垂直線に近い=y軸に平行)ほど、相関関係が『強い 冷たいドリンクの売上は、平均気温の影響が大きい


気温とサンドイッチ売上の相関図

気温とサンドイッチ売上の相関関係




一方のデータの変化が、他方のデータに小さな変化しか引き起こさないことを意味する
グラフ上に引いた直線の「傾き」が緩い(水平線に近い=x軸に平行)ほど、相関関係が『弱い サンドイッチの売上は、平均気温の影響をあまり受けない

相関関係をビジネス予測に使う

分布グラフの各点の真ん中付近を通る直線(青線)は「グラフの傾き」を表すため、気温と売上の関係を計算式( 売上 = グラフの傾き  ×  気温 )で示せるようになる。
相関関係を計算式で表せると、天気予報の予想気温を式に代入すれば、簡単に売上の予測が立つ。
予測が立てば冷たいドリンクの仕入れ本数を過不足なく(ムダなく)決められるので、余分なコスト発生を抑えられるビジネス・メリットがある。

グラフ上に引いた直線を利用する補助線を加えた図

グラフ上に引いた直線を利用するために補助線を加えた

たとえば気温35℃の日に開催する試合の冷たいドリンク売上は、
・x軸が35℃の位置(①)で縦の補助線を引き、
・青線との交点の位置で横の補助線(②)を引き、
この補助線のy軸の値である約260万円と予測できる

 

相関の強さを数値化した「相関係数値」の意味

相関係数 二種類のデータのうち、一方のデータの値が増えた(減った)とき、他方のデータがその影響で変化する度合いを示す値
強さの値 1(完全な相関) ~ 0(相関なし)
相関関係には正と負があるので、これを踏まえた相関係数の値の範囲は以下となる。

相関係数の数直線図

相関係数の数直線

相関係数の強弱判断基準表

相関係数値が示す意味を判断する基準値表

相関関係を定量化した相関係数で、「強い」「弱い」の境界はどこかをインターネットで検索したところ、定説といえる境界値は存在せず、諸説ある。以下、検索で見つけた境界値の諸説。

参考 新井紀子『AI vs. 教科書が読めない子どもたち』には、「(相関係数 0.75 から 0.8 は、)『身長と体重』とか『同じ広さのマンションの、駅からの距離と家賃』のようなもの以外では滅多にお目に掛かれないほどの高い相関」との記述がある


以下、現実の日本の地勢データを使って、相関係数と分布グラフのイメージを示してみる。
データは政府統計ポータルサイトで無償公開されている2018年の都道府県別の特徴を示すデータを使う。
例としてインターネット利用率(A)と、他の指標データ(B)の分布グラフを示す。
分布グラフの1個の点は、各都道府県の値を表しており、47個の点がある。
相関係数が小さくなるに連れ、点の分布範囲が拡がる様子がグラフに現れる。この理解の助けのために、分布範囲を示す補助線をグラフ上に赤点線枠で示す。

[1]強い相関関係の分布 相関係数 0.93 パソコン普及率(B)とインターネット利用率の相関(A)
強い相関関係を示すグラフ

強い相関関係を示すグラフ事例

この分布図は、自宅のパソコン普及率が上がるほど、インターネット利用率が上がるという正の相関関係を表している。
相関係数が0.9を超えると各点の散らばりが少ない。
 注)相関係数が1.0だと、各点が一直線上に並ぶ
このグラフは、赤枠の真ん中を通すように斜め線が引ける。
斜め線の傾きで一次方程式を作ると、(この例では、インターネット利用率=パソコン普及率×0.59+42%)パソコン普及率が分かれば、対応するインターネット利用率を予測できる。
たとえば自宅のパソコン普及率が70%なら、インターネット利用率が83%程度になる、と強い自信を持って言える。
[2]相関関係ありの分布 相関係数 -0.78 85歳以上人口(B)とインターネット利用率の相関(A)
相関関係あり、を示すグラフ

相関関係あり、を示すグラフ事例

この分布図は、85歳以上の方が人口に占める割合が上がるほど、インターネット利用率が下がるという負の相関関係を表している。
日本のインターネット普及元年を1995年とすると、2018年には85歳の方が58歳の年だった。
新種の道具に馴染める方が少なかったと仮定すると、然もありなん。
相関係数が-0.78と、わずかに「強い」範疇の外になり、「相関あり」に分類する。
相関係数0.93のパソコン普及率との分布図と比べると、各点の散らばりが拡がる(赤枠が大きくなる)。
[3]弱い相関関係の分布 相関係数 0.57 通販利用額(B)とインターネット利用率の相関(A)
弱い相関関係を示すグラフ

弱い相関関係を示すグラフ事例

この分布図は、通販利用額が上がるほど、インターネット利用率が上がるという正の相関関係を表している。
ただし、相関係数は0.57で、わずかに「相関あり」の範疇外で「弱い相関あり」に分類する。
通販番組では「今すぐ電話でお申し込みください」とアナウンスしていることから、電話申し込みとネット申し込みが混在する結果、相関係数が0.57となると推定してよいだろう。
注目は、各点の散らばりが大きくなった結果、棒状だった赤枠が丸みを帯びて楕円状になったこと。
[4] 相関関係なしの分布 相関係数 -0.39 国民医療費(B)とインターネット利用率の相関(A)
相関関係なし、を示すグラフ

相関関係なし、を示すグラフ事例

この分布図は、国民医療費が上がるほど、インターネット利用率が下がるという負の相関関係を表している。
ただし、相関係数は-0.39で、わずかに「弱い相関あり」の範疇外で「相関なし」に分類する。
85歳以上の方が人口に占める割合のケースと同様だと、理由をこじつけられなくもないが、関係があるとは言いにくい程度の相関である。
各点の散らばりはより拡大し、赤枠の楕円化が進んで面積も大きくなった。
楕円の真ん中を通すような斜め線は引けるが、その傾きで一次方程式を作ったところで、予想の的中精度は低い。
[5] 相関関係なしの分布 相関係数 0.02 本購入のネット利用率(B)とインターネット利用率の相関(A)
相関関係ほぼゼロ、を示すグラフ

相関関係ほぼゼロ、を示すグラフ事例

この分布図は、本購入時のネット利用率とインターネット利用率には、ほぼ関係がないことを表している。
本を購入する場合、街中のリアル書店もネット書店も分け隔てなく利用しているようだ。
相関係数は0.02と限りなくゼロに近い赤枠の楕円は真円に近く、傾きを示す斜め線をどの角度に引くのが妥当かの判断は、もはや困難。

本記事では、相関係数の算出方法は解説対象外とするので、他サイトをご覧いただきたい。(相関係数の計算式を説明するサイトの例)

相関係数の落とし穴

相関係数の信頼性

相関係数を算出するデータのセットの数(これをサンプルサイズと呼ぶ)を全都道府県の47組で分析した場合と、3組を抽出して分析した場合を比較する。
次の左の分布グラフは、前節の47都道府県を反映したパソコン普及率とインターネット利用の相関を示す。
右の分布グラフは、同じ元データから、3県を抽出したパソコン普及率とインターネット利用の相関を示す。
47都道府県サンプルと比べて3県サンプルは赤点線枠の傾きが異なっている。

抽出サンプルの違いで相関係数が変わる事例グラフ

抽出サンプルの違いで相関係数が変わる事例

少ないサンプルサイズだと、採用するデータのセットの組合せによってはズレた傾きを示すことがあり得る。またサンプルサイズが小さい場合、相関係数値が大きく(または小さく)出やすい。
  サンプルサイズが大きいと、1組のデータが全体へ与える影響が小さく、算出した相関係数の値の範囲は概して狭い
サンプルサイズが小さいと、1組のデータが全体へ与える影響が大きく、算出した相関係数の値の範囲は概して広い

なお適切な相関分析に必要な(あるいは望ましい)サンプルサイズは、分析対象に依存するため、標準となるサンプルサイズは存在しない。
【参考】データのセットを最低でも3組集めれば、大雑把には相関関係を見出せるとする専門家(ワッツ・S. ハンフリー『パーソナルソフトウェアプロセス技法』)もいる。

有意水準

統計手法「検定」は、算出した相関係数の信頼性を確率で表せる。
検定では、相関係数を用いて予測(例:自宅のパソコン普及率が70%のときのインターネット利用率を予測)する場合、現実に予測からずれた結果が出てしまうリスクの確率を表す。
相関係数算出に使ったサンプルサイズが小さい場合は相関係数の信頼度が低い場合もあり得る。

前節の例で右グラフの3県のサンプルで求めた相関係数を使って、パソコン普及率からインターネット普及率を算出したとき、多くの県の点が右図の赤枠外にはみ出る ⇩ 赤枠外へ、はみ出るデータが多(予想の的中率が低)ければ、その相関係数は精度が低く、信頼が置けない。
赤枠外へ、はみ出る確率が低いほど、信頼できる相関係数だといえる。
有意水準説明グラフ

有意水準の例を説明するグラフ

はみ出る確率を有意水準ゆういすいじゅんとよび、統計学では経験的に5%以下のはみ出しなら、相関係数を信頼してよかろうとされる。
注)基準値を
厳し目きびしめに置き、有意水準を1%に設定する場合もある。
有意水準を1%とすると相関係数の採否の
閾値しきいちが上がるが、閾値が上がると、本来は相関があるケースまで誤って切り捨ててしまうリスクも増す。
このため、有意水準は厳しい方が信頼できるとは限らない。諸々の条件を考慮して、統計分析の現場では有意水準を5%に設定するケースが多いようだ。 【参考】有意水準と検出力

相関関係の埋没

身長と体重の相関図(男女混合)

年齢と身長の相関図

サンプルサイズが大きい場合でも、性質が異なるサンプルが混ざっていると、本来は現れるはずの相関関係を、かえって埋没させる場合がある。
以下は、ミドルティーンの年齢層の方の、年齢(A)と身長(B)の分布グラフ(実測データではなく、説明用に作った便宜データ)。

実は、上のグラフのデータには、身長が伸びる時期がズレている男子と女子のデータを意図的に混在させてある。これを男女別のデータに分別して二つのグラフを作ると、それぞれ大きく異なった相関係数を示す。

男女別の身長と体重の相関図

男女別にした年齢と身長の相関図

  男子は主にミドルティーンで身長が伸びるため、ミドルティーンの年齢と身長の相関係数が比較的高い値となる
女子は主にローティーンで身長が伸びるため、ミドルティーンでは年齢差より個人差が強く現れる結果、年齢との相関は相対的に小さい

サンプルサイズは大きいほど分析精度が高いとは限らず、個々のデータが持つ性質で分別することで、潜在せんざい的な特徴が顕在化けんざいかすることもある。
ミドルティーンの年齢と男女の身長の相関関係の例のように、個々のデータが持つ性質で分別要否を見極めないと、相関関係が埋没まいぼつするケースがある

数値表現がもたらす誤解への注意

注意点 ポイント
相関係数は目安
相関分析は二種のデータの間に、因果関係があるか否かを決定する分析ではなく、関連する傾向が、強いか/弱いか/無関係か、を示す目安だ。
相関関係の強弱は状況証拠に過ぎないので、因果関係の有無推定に使うことは問題ない。しかし、あくまで有力な推定手段に過ぎず、決定付ける証拠とはならない。
  たとえばDNA鑑定による親子関係を判定したレポートでは「限りなく100%に近い確率で生物学的親子関係」といった表現となる。
(【参考】血縁関係を認める父権肯定確率の相関係数の国際基準は、0.999)
相関係数は順序指標で、絶対指標ではない 相関係数=0.8の関係にあるデータ組は、相関係数=0.4の関係にあるデータ組より相関関係が「相対的に強い」とは言える。
しかし、相関係数=0.8の関係にあるデータ組は、相関係数=0.4の関係にある別のデータ組と比べると相関関係が2倍強い、のように関係の強さの差を厳密に数値表現した絶対指標ではない。
サンプルサイズが小さい場合、相関係数値が大きく(負の場合は小さく)出やすい サンプルサイズが大きいと、1組のデータが全体へ与える影響が小さく、相関係数値が小さく出やすい。
サンプルサイズが小さいと、1組のデータが全体へ与える影響が大きく、相関係数値が大きく出やすい。

本統計分析技法の応用事例

統計手法「相関分析」「検定」を適切に用いると、二種類のデータの間に相関関係があるかを高い精度で判定できる。

相関分析と検定を使った新型コロナウイルスのデータ分析事例に興味がある方は、ここをクリック

 

表計算アプリ “Excel” を使った相関係数算出の操作手順

気温と売上の相関係数を算出する手順を例として、Excelの操作方法を説明する

注)以降の画面例は「Microsoft Office 無料版(Office.com)のExcel」を使用しています
  お使いのExcelのバージョンに応じて適宜置き換えてください 

相関係数を算出したいデータのセットをExcelのシートに入力する
Excel操作画面 Step1
Excelが提供する関数の利用準備
Excel操作画面 Step2
Excelが提供する関数を探す準備
Excel操作画面 Step3
相関係数を計算するExcel関数を探すために関数のカテゴリで「統計」を選択
Excel操作画面 Step4
統計関数群から相関係数を計算するExcel関数「CORREL」を探す
Excel操作画面 Step5

 相関係数を計算するExcel関数を選択

Excel操作画面 Step6
相関係数を計算するExcel関数の引数を指定する準備
Excel操作画面 Step7
気温のデータを入れたセル範囲を引数1に指定
Excel操作画面 Step8
引数2の入力準備
Excel操作画面 Step9
売上のデータを入れたセル範囲を引数2に指定
Excel操作画面 Step10
相関係数の算出実行
Excel操作画面 Step11
相関係数の算出完了
Excel操作画面 Step12

気温と売上の相関グラフを作成する手順を例として、Excelの操作方法を説明する

注)以降の画面例は「Microsoft Office 無料版(Office.com)のExcel」を使用しています
  お使いのExcelのバージョンに応じて適宜置き換えてください

相関グラフを作成したいデータのセットをExcelのシートに入力する
Excelグラフ作成操作 Step1
入力したデータのセット(表)を選択する
Excelグラフ作成操作 Step2
作成するグラフの種類(散布図)を選択する
Excelグラフ作成操作 Step3
散布図のグラフが表示される
Excelグラフ作成操作 Step4
相関図の中心を通る傾き線の表示方法を指定する

傾き線の表示機能は「Microsoft Office 無料版(Office.com)のExcel」では未サポートのようです
以降の画面例は Excel 2010(有料版)を使用しています 

Excelグラフ作成操作 Step5
相関図の中心を通る傾き線が表示された
Excelグラフ作成操作 Step6

技術・スキルに関する他の記事に興味がある方は、ここをクリック 
本質の羅針盤シリーズの目次はこちら

参考文書・情報源

文献 須藤康介、古市憲寿、本田由紀 『新版 文系でもわかる統計分析』(2018,朝日新聞出版)
丹慶勝市 『図形雑学 統計解析』(2003,ナツメ社)
サイト パラメトリック検定とノン・パラメトリック検定
正規分布とは
尖度とは何?
分析手法 F検定 t検定
マン・ホイットニーのU検定

御礼申し上げる。

この記事を書いた人
公政

ヒトの行動原理を、書籍や番組で得た「知恵」「知見」を基に言語化します。
ヒトの行動原理に、ソフトウエア開発畑での設計の仕事で蓄積した知見を組み合わせ、独自視点で編成し言語化した『知恵』を発信しています。
ご興味あれば他の記事もご覧ください。

公政をフォローする
技の和

コメント