※本記事はアフィリエイト広告を含んでいます
どーも、りけーこっとんです。
DS検定の勉強をしよう!と思ったは良いものの、こんな悩みはありませんか?
DS検定ってどうやって勉強すればいいの?
DS検定の勉強の仕方が分からない…
本で勉強するのは分かるけど、高いなぁ…
無料で単語解説されているサイトとかないかな?
DS検定は、始まったばかりの試験だから、対策法とか分からないよね。
じゃあ、このサイトで出題範囲の内容を押さえていこう~
DS検定の解説をすぐ見たいよ!という方は、以下から最初の解説に飛べます。
今回はスキルチェックリスト
「DS79:片側検定と両側検定の違いを説明できる」と
「DS80:t検定・z検定などを適切に選択、適用できる」を解説していくよ~
本サイトでは超重要項目、重要項目、覚えておきたい項目と表記を分けますので、勉強時の参考にしてみてください。
DS検定って、そもそもどんな資格?という方は以下の記事をご覧くださいね。
試験範囲は以下の二つから出題されます。
・スキルチェックリスト
・数理、データサイエンス、AI(リテラシーレベル)モデルカリキュラム
本内容は以下の書籍を参考に作成しております。
なお、本サイトはDS検定の合格を保証するわけではありませんので、ご了承ください。
では早速、内容に入っていきましょう!
※「DS○○:」項目の文章は独自に短縮して表現しております
DS79:片側検定と両側検定の違いを説明できる
以前の記事で、「検定」については解説しました。
検定の方法には二種類あって、「片側検定」と「両側検定」があります。
それぞれの違いが分かりやすいように、以下のような「帰無仮説」を考えましょう。
あるダイエットプログラムで体重が変化したかどうかを知りたい。
・帰無仮説
ダイエットプログラムを行う前後で体重は同じである。
帰無仮説は否定したい仮説なので、上記のように立てることがポイント。
ここで、対立仮説には以下の3パターンが考えられます。
1.ダイエットプログラムを行う前後で体重は同じではない。
2.ダイエットプログラムを行う前後で体重は増えている。
3.ダイエットプログラムを行う前後で体重は減っている。
どの対立仮説を用いるかによって、「片側検定」か「両側検定」かが決まってきます。
片側検定
片側検定
棄却域が片側にしかない検定の種類。棄却域が狭いため両側検定に比べて、棄却しやすい検定。
前章の対立仮説の例だと、
2.ダイエットプログラムを行う前後で体重は増えている。
3.ダイエットプログラムを行う前後で体重は減っている。
を立てた時が当てはまります。
仮説検定は正規分布を使うことを基本としているので、端になればなるほど起こりにくい確率と言えます。
(t分布やF分布といったものも出てきますが、ほぼ正規分布のようなもの)
イメージとしては以下の図の通り。
(正規分布が少し左右に歪んで見えますが、左右対称のグラフと考えてください)
このように
・「確率が高い」ことを示したい場合には、右側の裾の部分
・「確率が低い」ことを示したい場合は、左の裾の部分
を使用します。
今回は「あるダイエットプログラムで体重が変化したかどうかを知りたい」という例でした。
つまり、対立仮説としては「2.ダイエットプログラムを行う前後で体重は減っている」を立てたいですね。
両側検定
両側検定
棄却域が両側にある検定の種類。棄却域が広いため片側検定に比べて、棄却しにくい検定。
前章の対立仮説の例だと、
1.ダイエットプログラムを行う前後で体重は同じではない。
を立てた時が当てはまります。
両側検定も片側検定と同じような、以下のイメージになります。
異なる点は、左右両方の裾を考慮する点。
まさに「両側」検定ですね。
もし対立仮説が採用された場合「同じではない」ことが分かるだけで、高い or 低いということは分からないので、注意してください。
DS80:t検定・z検定などを適切に選択、適用できる
この項目では「2群の平均に差があるかどうか」を知りたい時に用いる検定手法を理解しましょう。
「2群の平均に差があるかどうか」というのは、検定においては一般に広く行われる内容です。
とある事象に効果があったかどうかを調べるために用いるので、差があれば効果があったとなるわけです。
ではまず、使い分ける検定手法の全体像を見ていきましょう。
まずは「母分散が既知であるかどうか」でz検定とt検定に分かれます。
z検定
z検定
正規分布を用いて二郡の平均の差を検定する際に、利用する手法。
1.帰無仮説、対立仮説、有意水準を決める
2.統計検定量\(\displaystyle z\)を求める
3.標準正規分布表で有意水準の\(\displaystyle z_0\)を確認
4.\(\displaystyle z\)と\(\displaystyle z_0\)を比較する
標準正規分布表での検定量\(\displaystyle z_0\)の確認方法は、DS検定の範囲外なので割愛します。
統計検定量\(\displaystyle z\)は以下の式で求められます。
\(\displaystyle z=\frac{\mu-\mu_0}{\frac{\sigma}{\sqrt{n}}}\)\(\displaystyle \mu\):サンプルデータ群(標本)の平均値
\(\displaystyle \mu_0\):基準となるデータ群(母集団)の平均値
\(\displaystyle \sigma\):基準となるデータ群(母集団)の分散
\(\displaystyle \n\):サンプル数
しかし実用するとなると「母分散が既知である」ということはほとんどありません。
そのため、母分散が分からなくても使えるt検定を用いるわけです。
t検定
t検定
母分散が未知の時に使用する検定手法。「t検定」「Studentのt検定」「Welchのt検定」の三種類がある。
t検定の手法を使い分けるために、「対応のあるデータ」「対応のないデータ」という概念が重要になります。
まずt検定の前提として、二郡の母集団の平均に差があるかどうかを検定する手法でしたね。
この二郡データが「対応のあるデータ」と言えるのは、個々のデータは二郡で同じ場合。
例えば、
・ある学校Aクラスの平均点が、指導方法の変更前後で変わったか
・広告を出す前と出した後で、製品Bの1日の売り上げに変化はあったか など
これらは二郡データはありつつ、個々のデータは「Aクラスの生徒の点数」や「製品Bの売り上げ」で同じデータです。(時系列が異なるだけですね)
「対応のあるデータ」を検定する際に用いるのが、t検定。
統計検定量\(\displaystyle t\)は以下の式で求められます。
\(\displaystyle z=\frac{\mu-\mu_0}{\frac{\hat{\sigma}}{\sqrt{n}}}\)\(\displaystyle \mu\):サンプルデータ群(標本)の平均値
\(\displaystyle \mu_0\):基準となるデータ群(母集団)の平均値
\(\displaystyle \hat{\sigma}\):不偏分散
\(\displaystyle \n\):サンプル数
統計検定量\(\displaystyle z\)と混同しやすいので、注意してくださいね。
分散に「不偏分散」というものを用いています。
z検定では母集団の分散が分かっていたので、そのまま使用できました。
しかしt検定では母集団の分散が分からないので、代わりに不偏分散を使おうという発想です。
Studentのt検定・Welchのt検定・F検定
逆に二郡データが「対応のないデータ」と言うのは、個々のデータが二郡で異なる場合。
例えば、
・ある学校のAクラスとBクラスの平均点に差があるか
・製品Cと製品Dの1日の売り上げに差はあるか など
これらは二郡データの個々のデータが異なりますよね。
Aクラスの生徒とBクラスの生徒は異なりますし、製品Cと製品Dももちろん異なります。
「対応のないデータ」を検定する際に用いるのが、Studentのt検定とWelchのt検定。
ではこの二つはどのように区別するのでしょうか。
一言で言えば「母分散が等しいかどうか」で判断します。
・母分散が等しければ、Studentのt検定
・母分散が等しくなければ、Welchのt検定
母分散が等しいか等しくないかって判断できるの?と思った方もいるでしょう。
もちろん、具体的な一つの値が分かるということはありません。
実は「母分散が等しいか等しくないか」の判断にも、検定が使われるのです。
その検定がF検定。
F検定で母分散が等しいかどうかを調べた後に、Studentのt検定とWelchのt検定のどちらを使うかを決めます。
「Studentのt検定」「Welchのt検定」「F検定」に関しては具体的な式などを覚える必要はありません。
これらの検定で何ができるのかを理解しておくことが、DS検定の合格には重要だと思います。
ここまでで色々出てきて混乱しやすいので、もう一度最初の図を載せておきますね。
まとめ
今回は「片側検定・z検定・t検定」などを解説してきました。
以下の項目を説明できるようになっているでしょうか?
・片側検定
・両側検定
・z検定
・t検定
・Studentのt検定
・Welchのt検定
DS検定は覚える内容が多いです。
一つ一つを細部まで見るというよりは、広く浅く見ていくことが重要かと思います。
DS検定を取得して、データサイエンティストやAI関連の仕事への道を開きましょう!
次回は「機械学習」「グルーピング」などについて解説していきます。
ではまた~
DS検定の続きの解説は以下のページからどうぞ!
コメント