看護師の皆さん、統計が苦痛になっていないですか?

今回は統計学の中でも超重要な因果関係と疑似相関について説明していきます。
「擬似相関ってなに?」「具体例は?」「重要なところってどこ?」という部分を本記事にて説明しています。
私も大学院で苦労しましたので、できるだけわかりやすく書きました。一緒に勉強していきましょう。この記事は統計学上の誤解やトリックを見つける訓練にもなります。
チーズの消費が増えるほど工学の学位を取る人が増える???
まずは擬似相関の事例、具体例を出そうと思います。
アメリカの疑似相関を集めたサイトから表を持ってきましょう。

出典:https://www.tylervigen.com/spurious-correlations
このデータは
チーズの消費が増えるほど工学の学位を取る人が増える
ことを示しています。
赤線がモッツァレラチーズの消費量、黒線が工学の博士後期課程の学位取得者の数を表しています。
統計ソフトにかけると、チーズの消費量が増えるほど学位取得が増えることがわかります。相関係数は0.959を示し、強い関係にあることがわかります。
この値からなにが言えるか?
この結果からチーズの消費が増えるほど工学の学位を取る人が増える傾向がわかります。
それでは工学の学位を取る人を増やしたいなら、チーズをもっと食べてもらえばいいのでしょうか?それは違います。
このように相関係数や相関関係にばかり目を向けると、2つの値に何の関連性もないのに、関係性があるように見えてしまいます。
これがよくあるデータの誤読です。
相関関係と因果関係

相関があるとは、ひとつの値が上昇したとき、もう一方も上昇or下降する関係があることを指します。
先程の例は擬似相関といいます。
擬似相関とは相関があることでふたつのものごとの間に原因と結果の関係があるように見えてしまうことを指します。
頭を柔らかくするために、他の疑似相関の例を見てみましょう。
偶然から生まれる相関関係の例
科学予算が増えると首吊りが増える

ニコラス・ケイジの映画出演数が増えればプールで溺れる人が増える

衛星の発射が増えるほど社会学の学位取得者が増える

これらはすべて、偶然の一致のために、相関関係が出ています。

プールで溺れる人を減らすためにニコラス・ケイジを辞めさせろ!
というのはお門違いですよね。
これを悪い方向に利用すると世の中に誤った解釈を広めることもできます。騙される側にも騙す側にもならないことが大事です。
このように相関関係が出てきたら、因果関係があるかどうかはわからないという考えを常にもつことが大切です。
疑似相関を学ぶ上で一番大事なこと

まとめです。
- 相関があるからといって原因と結果を示すことはできない
- データは嘘をつかないが、解釈を曲げることができる
- 因果関係を見出すためには相関以外の手法が必要
統計学について勉強したい方へ
初心者の方は、統計学や統計リテラシーについて学ぶと良いと思います。「統計学が最強の学問である」という本は、数式をできるだけ使わずに説明しているので、文系の方にもおすすめです。
レビュー記事を置いておきます。
最後に

余談ですが、それでは溺れる原因を探して溺れる人を減らしたいというときはどうしたらいいでしょうか?
医学研究にヒントがあります。ランダム化比較試験という方法です。解説記事はこちら
偶然、相関関係が出てくるケースのみ紹介しましたが、第三の変数(潜在変数)のために相関関係が出てくるというケースもあります。別記事で解説しています。
参考サイト、おすすめの本
①疑似相関を扱った英語のサイト

②公衆衛生の教授がが書いている、世の中の間違ったデータについての本
この記事の内容は以上です。
コメント