DS検定対策|データサイエンス力|正規分布・二項分布・ポアソン分布を勉強

DS検定の統計数理の基礎編を分かりやすく解説。DS10~11、りけーこっとん DS検定

※本記事はアフィリエイト広告を含んでいます


どーも、りけーこっとんです。

DS検定の勉強をしよう!と思ったは良いものの、こんな悩みはありませんか?

とある女の子
とある女の子

DS検定ってどうやって勉強すればいいの?

DS検定の勉強の仕方が分からない…

とある男の子
とある男の子

本で勉強するのは分かるけど、高いなぁ…

無料で単語解説されているサイトとかないかな?

ひよっこDS
ひよっこDS

DS検定は、始まったばかりの試験だから、対策法とか分からないよね。

じゃあ、このサイトで出題範囲の内容を押さえていこう~

DS検定の解説をすぐ見たいよ!という方は、以下から最初の解説に飛べます。

ひよっこDS
ひよっこDS

今回はスキルチェックリスト

「DS10:代表的な確率分布を5つ説明できる」から

「DS11:二項分布の試行回数が増えるとどうなるか知っている」を解説していくよ~

本サイトでは超重要項目重要項目覚えておきたい項目と表記を分けますので、勉強時の参考にしてみてください。

DS検定って、そもそもどんな資格?という方は以下の記事をご覧くださいね。

試験範囲は以下の二つから出題されます。

スキルチェックリスト
数理、データサイエンス、AI(リテラシーレベル)モデルカリキュラム

本内容は以下の書籍を参考に作成しております。


なお、本サイトはDS検定の合格を保証するわけではありませんので、ご了承ください。

では早速、内容に入っていきましょう!

※「DS○○:」項目の文章は独自に短縮して表現しております

DS10:代表的な確率分布を5つ説明できる

以前の記事を読んでくださっている方は「正規分布」を聞いたことがあると思います。

その際に、正規分布は代表的な確率分布という説明をしました。

実は正規分布以外にも、統計学には確率分布の種類がいくつもあります。

その中でも基本的な分布に触れていきましょう。

確率分布は大きく以下の二種類に分かれます。

連続型確率分布
確率変数が実数(連続値)を取る場合の確率分布。

・正規分布
・連続一様分布
・指数分布

離散型確率分布
確率変数が飛び飛びの値(離散値)を取る場合の確率分布。
(例)サイコロの目(1, 2, 3, 4, 5, 6)、成功回数(1, 2, 3…回)

・二項分布
・離散一様分布
・ポアソン分布

どちらも図で表現すると、山のようなグラフになるので区別しにくいです。

図で形を覚えつつ、離散型・連続型どちらに分類されるのかも覚えておくといいでしょう。

またDS検定では、それぞれの分布の「期待値」と「分散」を求める式も覚えておくと確実ですね。

ではまず、連続型確率分布から解説します。

正規分布

正規分布は、統計学で最も基本的な分布といっていいでしょう。

正規分布
統計学で用いられる、最も基本的な連続型確率分布の一つ。
分布の形(山の形)が「平均」と「標準偏差」で決まる。

正規分布とは。統計学での一般的な確率分布の一つ

正規分布の形を表せる式もあります。

この山の形を式にしたものを「確率密度関数」というので覚えておきましょう。
※連続型確率分布にのみ出てくる用語

以下に正規分布の確率密度関数\(\displaystyle f(x)\)を一応示しますが、DS検定で問われることは無いと思います。

$$f(x) = \frac{1}{\sqrt{2\pi \sigma^2}}\exp(-\frac{(x-\mu)^2}{2\sigma^2})$$

連続一様分布

統計学には「一様分布」というものがあります。

一様分布は、確率変数が連続的か離散的かで、呼び方が変わるんですね。

それに伴って、平均値や分散の算出する式が異なります。

連続一様分布
確率変数がどんな値でも、確率密度関数が一定値を取る連続型確率分布。

確率密度関数 $$f(x) = 0 (x\leq a, b\leq x)$$ $$f(x) = \frac{1}{b-a} (a\leq x \leq b)$$
連続一様分布とは?連続一様分布を分かりやすく解説!

期待値と分散の式
\(\displaystyle E(x) = \frac{a+b}{2}\)

\(\displaystyle V(x) = \frac{(b-a)^2}{12}\)

図のようにaとbの間では、確率変数がどんな値を取ろうが同じ確率になります。

指数分布

指数分布
ある時間で平均\(\displaystyle \lambda\)回起こる現象が、次に起こるまでの時間\(\displaystyle x\)を表した連続型確率分布。

指数分布とは?指数分布を分かりやすく解説!

期待値と分散の式
\(\displaystyle E(x) = \frac{1}{\lambda}\)

\(\displaystyle V(x) = \frac{1}{\lambda^2}\)

例を一つ考えてみましょう。

1時間で平均10人訪れる店に、5分後お客さんが来る確率(5分間の間に来店はなし)

この確率分布は指数分布に従います。

定義分に対応させると、

・ある時間で平均\(\displaystyle \lambda\)回起こる現象
⇒1時間で平均10人訪れる

・次に起こるまでの時間\(\displaystyle x\)
⇒5分後お客さんが来る

というわけですね。

以下からは、離散型確率分布を解説していきます。

二項分布

連続一様分布
試行をn回行った時の成功回数が従う離散型確率分布。
以下の条件を満たさなければならない。

・試行結果が「成功」「失敗」のどちらかのみ
・試行をn回繰り返す
・試行同士は独立

二項分布とは?二項分布を分かりやすく解説!

期待値と分散の式
\(\displaystyle E(x) = np\)

\(\displaystyle V(x) = np(1-p)\)

例を一つ考えてみましょう。

コインを5回投げて、2回表が出る確率

この確率分布は二項分布に従います。

二項分布を満たす条件を考えてみると、

・試行結果が「成功」「失敗」のどちらかのみ
⇒コインの「表」「裏」を成功 or 失敗に対応付けられます

・試行をn回繰り返す
⇒コインを複数回投げているので、n回繰り返せます

・試行同士は独立
⇒1回目「表」が出たという結果が、2回目のコイントスに影響しません

というわけですね。

離散一様分布

前の項でも触れましたが、一様分布は確率変数が連続的か離散的かで、呼び方が変わります。

それに伴って、平均値や分散の算出する式が異なるんでしたね。

離散一様分布
確率変数がどんな値でも、確率密度関数が一定値を取る離散型確率分布。

(例)サイコロの目
確率変数の取る値の個数\(\displaystyle n\)は6である。

離散一様分布とは?離散一様分布を分かりやすく解説!

期待値と分散の式
\(\displaystyle E(x) = \frac{n+1}{2}\)

\(\displaystyle V(x) = \frac{(n^2-1)}{12}\)

図のようにaとbの間では、全て同じ確率になっていますね。

サイコロの目(1, 2, 3, 4, 5, 6)といった離散的な数値の時の「一様分布」です。

ポアソン分布

ポアソン分布
単位時間で平均\(\displaystyle \lambda\)回起こる現象が、ある時間で起こる回数\(\displaystyle x\)を示した離散型確率分布。

ポアソン分布とは?ポアソン分布を分かりやすく解説!

期待値と分散の式
\(\displaystyle E(x) = \lambda^2\)

\(\displaystyle V(x) = \lambda\)

例を一つ考えてみましょう。

お祭りのくじは平均して30回で1回のあたりが出ると言われている。
くじを50回引いて、2回当たりが出る確率。

この確率分布はポアソン分布に従います。

定義分と照らし合わせてみると、

平均\(\displaystyle \lambda\)回起こる現象
⇒お祭りのくじは平均して30回で1回のあたりが出る

ある時間で起こる回数\(\displaystyle x\)
⇒くじを50回引いて、2回当たりが出る

というわけですね。

DS11:二項分布の試行回数が増えるとどうなるか知っている

この項目は、二項分布の内容を掘り下げたものですね。

前の章で解説した二項分布の形は、試行回数nと密接な関係があります。

二項分布の試行回数が増えると、正規分布の形に近づく
グラフの形は以下のようになる。

二項分布とは?二項分布を分かりやすく解説!二項分布の試行回数が増えると、正規分布に近づく

二項分布を正規分布に近づけて、メリットになる点は以下の2点です。

・正規分布は、一つのデータが全体の何%の部分にあるかが分かりやすい (68-95-99.7の法則)
・標準正規分布に正規化しやすく、計算が楽になる

DS11をまとめると、
「二項分布の試行回数が増えると、正規分布に近づく」
ですね。

まとめ

今回は「確率分布」などを解説してきました。

以下の項目を説明できるようになっているでしょうか?

・正規分布
・連続一様分布
・指数分布
・二項分布
・離散一様分布
・ポアソン分布
・二項分布の試行回数が増えると、正規分布に近づく

DS検定は覚える内容が多いです。

一つ一つを細部まで見るというよりは、広く浅く見ていくことが重要かと思います。

DS検定を取得して、データサイエンティストやAI関連の仕事への道を開きましょう!

次回は「指数関数」「対数関数」「ベイズの定理」などについて解説していきます。

ではまた~

DS検定の続きの解説は以下のページからどうぞ!

コメント

タイトルとURLをコピーしました