この記事にたどり着いたということは、統計学を学び始めて、なんのために統計学をやっているのかわからなくなっているかもしれません。

「統計が必修だけどなにをやっているのかわからない」「授業も難しいし、本はもっと難しい」と感じているかもしれません。
私は今、看護学研究科のある大学院で、統計を使った論文を読んでいます。その経験を元に、
この記事では「統計学はそもそもどういう発想をしているのか」「なぜ統計学が存在しているのか」ということを数学を使わずに解説していきます。
看護学を専攻しているので、例が医療寄りになってしまうのはご了承ください。
今後も統計学の解説記事を書いてシリーズ化いくので、よろしければブックマーク等、よろしくおねがいします!
統計学とは何なのか?

最初に結論を出します。
統計学とは、与えられたデータを整理し、有用な情報を取り出す方法を述べた学問
であり、
あるデータに対して正しい観察を続ければ、法則性が見つけ出される。この法則性を根拠をもって取り出すのが統計学
なのです。
データを整理し、有用な情報を取り出す方法が統計

有用な情報を取り出すとはどういうことか?
例を出してみましょう。(ほか記事でも同じことを少し書いています。)
Q. このデータからなにがわかるでしょうか? また、このデータからあなたは治療薬Aを使おうとおもいますか?

使った薬のデータを取っていますが、結局、それらの薬使って患者さんは治ったのでしょうか?
治療薬Aを使った人が多いということですが、効果が高い薬と判断するデータは載っているのでしょうか?
このように、このグラフからはなにも読み取れません。
他に突っ込むとすれば、
- サンプル数はいくつなのでしょうか?10人のデータなら使えませんよね?
- これらの治療薬でどんな結果が得られたのでしょうか?(1週間で完治?、痛みがなくなった?、それともなに???)
- どの年代や性別の方に使った結果なのでしょうか?(高齢者に使いにくい薬、妊婦さんに使えない薬があります)
- 治療薬Aを使った方は「持病が多かった」などの偏りはなかったのでしょうか?治療薬の違いはその持病など、患者さん側の要因の可能性はないのでしょうか?
- これはどこの地域や国のデータなのでしょうか?(人種によって疾患に差がありますし、国の医療制度によっては万人に使えない薬もあります)
白熱してたくさん書いてしまいましたが、
要するに”使える”データを取るためには統計学の勉強が必要
ということです。
それでは、どのようにデータはとるべきなのでしょうか?
”使える”データを取るコツ①~データはある程度のサンプル数が必要~

さっき出てきた例ですが、10人の治療薬のデータって使えませんよね?
これを統計学の言葉を使って説明すると、
サンプルのサイズが小さいと、仮説検定という統計学の作業で使えないから
なのです。
数学的には統計学的には、仮説検定、中心極限定理に関連します。今回は数学は使いたくないので、いずれ記事を書いて下に貼ります。
※なお、実際にはデータを取りすぎると良くないのである程度手加減します。後述します。
”使える”データを取るコツ②~統計に活用できるようにデータを取る~

医療分野での例を挙げてみます。
先程のように新しい治療薬のデータを取るときは、
- もうある治療薬と比べて、どのような点で優れているかという項目をつくる
→入院期間、死亡率、身体の状態を表す指標を調査項目に加える - そのような治療は実現可能なのでしょうか?
→副作用のスコアも一緒に調査する - 治療効果は既存の薬とどれくらい違いがあるのでしょうか?
→例えば死亡率を0.0001%向上させるなら意味ない
といったことが大事です。
これは会社で商品を多く売るには?というデータを取るときと一緒です。
- お客さんにどのようなアクションを起こせば利益は上がるのか?
→広告の出し方、DMの送る人などの項目が必要 - そうしたアクションはコスト的に可能なのか?
→テレビのCMは高すぎる - アクションによる利益とコストのバランスは大丈夫か?
→1000万つかって1万の利益だったら意味ない
これらを考慮してデータを取る項目を決めなくてはならないのです。
この章は主に統計学入門の1章と9章を参考に執筆しました。
データから法則性を、根拠をもって取り出すのが統計学

上で述べたことを注意して、次のような治療薬のデータを採ったとします。

さっきの円グラフと違ってある程度使えるデータになっています。
このデータからおそらく薬Bのほうが効きそうですが、客観的に示すことは可能なのでしょうか。
この「おそらくこっちがいい」に数字で根拠を示してくれるのが統計学です。
もっというと、これが仮説検定の考え方なのです。
人間が取れるデータは限られているという前提

ちょっと話が飛びます。ここからはおまけです。
さきほどは薬AとBそれぞれ1万人のデータをとりましたが、それは本当にできるのでしょうか?できるとしてやっていいことでしょうか?
- 2万人のデータはどうやってとりますか?
- 2万人のデータのための時間とお金のコストはどうしますか?
- どちらかの薬が良いなら、もう一方の薬が良くないことになります、患者さんの不利益についてはどうでしょうか?
- 2万人というサンプル数は数学的に正しいのでしょうか?
データ数の根拠についてはある程度勉強すれば計算できます。
しかし、コストと患者の不利益を考えるとむやみやたらにサンプル数を増やすことはできないのです。
参考サイト等

統計学を学ぶ初心者にはこれ、という本があります。レビュー記事を置いておきます。
関連する他のサイト
本記事で書いたことを別視点で述べたものがwikiに載っています。「統計の困難さ」の章を読んでみていください。

いつかこれに関して記事は書いてみようかとも思っています。
関連動画
サンプリングについては、よびのりのタクミさんの動画も素晴らしいので貼っておきます。
記事の内容は以上です。
コメント