DS検定対策|データサイエンス力|名義尺度・順序尺度・間隔尺度・比例尺度・相関係数を勉強

DS検定の統計数理の基礎編を分かりやすく解説。DS8・9・12。ひよっこDS、りけーこっとん DS検定

※本記事はアフィリエイト広告を含んでいます


どーも、りけーこっとんです。

DS検定の勉強をしよう!と思ったは良いものの、こんな悩みはありませんか?

とある女の子
とある女の子

DS検定ってどうやって勉強すればいいの?

DS検定の勉強の仕方が分からない…

とある男の子
とある男の子

本で勉強するのは分かるけど、高いなぁ…

無料で単語解説されているサイトとかないかな?

ひよっこDS
ひよっこDS

DS検定は、始まったばかりの試験だから、対策法とか分からないよね。

じゃあ、このサイトで出題範囲の内容を押さえていこう~

DS検定の解説をすぐ見たいよ!という方は、以下から最初の解説に飛べます。

DS8:名義尺度・順序尺度・間隔尺度・比例尺度の違いを説明できる
ひよっこDS
ひよっこDS

今回はスキルチェックリスト

「DS8:名義・順序・間隔・比例尺度の違いを説明できる」

「DS9:ピアソンの相関係数の分母・分子を説明できる」

「DS12:量的・質的変数の関係の強さを算出できる」を解説していくよ~

本サイトでは超重要項目重要項目覚えておきたい項目と表記を分けますので、勉強時の参考にしてみてください。

DS検定って、そもそもどんな資格?という方は以下の記事をご覧くださいね。

試験範囲は以下の二つから出題されます。

スキルチェックリスト
数理、データサイエンス、AI(リテラシーレベル)モデルカリキュラム

本内容は以下の書籍を参考に作成しております。


なお、本サイトはDS検定の合格を保証するわけではありませんので、ご了承ください。

では早速、内容に入っていきましょう!

※「DS○○:」項目の文章は独自に短縮して表現しております

DS8:名義・順序・間隔・比例尺度の違いを説明できる

この項目は以下の四つを説明できてくださいね、という項目。

●質的変数の尺度
・名義尺度
・順序尺度

●量的変数の尺度
・間隔尺度
・比例尺度

まず「質的変数」「量的変数」の説明からしていきましょう。

質的変数
種類や分類などを分けるためにラベル付けした変数のこと。
(例)
・都道府県名(東京都、大阪府、神奈川県)
・交通手段(電車、車、自転車)
・食べ物(中華料理、カレー、かつ丼)
・ランキング(1位・2位・3位)
・学校の成績(5段階評価)

量的変数
数値として意味があり、+-や平均値などの計算ができる変数のこと。
(例)
・温度
・偏差値
・身長
・速度
・売上

ではまず、質的変数を扱う「名義尺度」「順序尺度」から解説します。

名義尺度

名義尺度は、質的変数におけるデータの種類の1つです。

名義尺度
データにラベルや名前を付ける質的変数の尺度のこと。

(例)
・通勤手段は?
電車、車、バス、自転車、徒歩
・好きな食べ物は?
カレー、かつ丼、ラーメン、オムライス

例を見ると分かりますが、数値的な意味はありません。

あくまでも「種類」や「分類」を区別するために、名前を付けたデータというイメージです。

順序尺度

順序尺度も、質的変数におけるデータの種類の1つですね。

順序尺度
順序に意味がある質的変数の尺度のこと。

(例)
・満足度調査(5:大変満足 ~ 1:非常に不満)
・学校の成績(5:非常に優秀 ~ 1:修了不足)
・3社の人気ランキング(1位・2位・3位)

満足度調査は5の方が良いし、ランキングは1の方が良いです。

名義尺度と違って、順序に意味がありますよね。

ただし、ランキングで「1位と2位を足したら、3位になる」は意味が分かりません。

+-や平均値などの計算に意味は無いので、質的変数の尺度ということになっているんですね。

次に、量的変数を扱う「間隔尺度」「比例尺度」から解説します。

間隔尺度

間隔尺度も、量的変数におけるデータの種類の1つですね。

こちらが一番理解しにくいかもしれません。

間隔尺度
間隔(数値の差)のみに意味がある量的変数の尺度。数字同士の比には意味がない。

(例)偏差値、温度、西暦

例えば西暦が「10年⇒15年」と「2020年⇒2025年」の時間が経過した場合を考えてみましょう。

「比」に意味があるとなると、以下のような解釈ができます。

\(\displaystyle \frac{15}{10} = 1.5\)

\(\displaystyle \frac{2025}{2020} = 1.002\)

つまり、「10年⇒15年」は10年から1.5倍、
「2020年⇒2025年」は2020年から1.002倍になっている!

5年という時間は、どちらも同じはずなのに「比」にすると意味が変わってしまいました。

西暦の場合、
\(\displaystyle 15 – 10 = 5\)
\(\displaystyle 2025 – 2020 = 5\)

のように「差」には意味がありますが、前述の通り「比」には意味がありません。

DS検定においては、間隔尺度の具体例を覚えておけば問題ないかと。

比例尺度

比例尺度も、量的変数におけるデータの種類の1つですね。

比例尺度
一般的に想像する数字の尺度。基本的に+-×÷などの全ての計算が行える。

(例)身長、体重、速度、売上

比例尺度は、基本的にどんな計算でも行えます。

間隔尺度との違いを分かりやすくするため、例えば売上の比で考えてみましょう。

「500円⇒1000円」と「10000円⇒10500円」に売上が増加した場合

\(\displaystyle \frac{1000}{500} = 2\)

\(\displaystyle \frac{10500}{10000} = 1.05\)

つまり、「500円⇒1000円」は500円から2倍、
「10000円⇒10500円」は10000円から1.05倍になっている!

これには意味がありますよね。

同じ500円でも「10000円⇒10500円」の売上への影響は小さい、と判断しても大丈夫そうです。

尺度の種類をまとめると以下の通り。

名義尺度・順序尺度・間隔尺度・比例尺度の違い、具体例。質的変数・量的変数でも分類される。

DS9:ピアソンの相関係数の分母・分子を説明できる

ピアソンの相関係数って聞いたことありますかね?

一般的に言われている相関係数のことです。

ピアソンの相関係数
2変数間に相関関係があるかどうかを1 ~ -1の範囲で数値化できる指標のこと。\(\displaystyle r\)

・1に近いとき ⇒ xが大きくなれば、yも大きくなる(正の相関がある)
・0に近いとき ⇒ xとyに関係はない(無相関)
・-1に近いとき ⇒ xが小さくなれば、yも小さくなる(負の相関がある)

2変数x、yの共分散を用いると

$$r = \frac{xとyの共分散}{(xの標準偏差)\times(yの標準偏差)}$$

ここで、共分散についても解説しておきます。

共分散
2変数(x, y)のデータの間に、どんな関係があるかを表す指標のこと。
共分散では以下のようなことが分かる。

・正(+)に大きいとき ⇒ xが大きくなれば、yも大きくなる(正の相関がある)
・0に近いとき ⇒ xとyに関係はない(無相関)
・負(-)に大きいとき ⇒ xが小さくなれば、yも小さくなる(負の相関がある)

$$(xとyの共分散) = \frac{1}{n}\sum_{k=1}^{n}(x_k – \bar{x})(y_k – \bar{y})$$

共分散だけでも、ざっくりとしたデータの傾向はつかめるんですね。

その共分散を「xの標準偏差」「yの標準偏差」で割ることで、どんなデータでも1 ~ -1の範囲になります。

つまり相関係数の方が、使い勝手は良いと言えますね。

DS12:量的・質的変数の関係の強さを算出できる

関係の強さを算出できる値というのは、この記事で既に触れています。

「相関係数」でした。

ただし、相関を知りたい変数が「量的」か「質的」かで使う相関係数が変わるのです。

ピアソンの積率相関

ピアソンの積率相関とは、DS9でも触れた「ピアソンの相関係数」と同じです。

複数ある良い方も覚えておくと、DS検定合格にグッと近づけるかと思います。

ピアソンの積率相関は、量的変数に対して用いられる相関係数。

ピアソンの積率相関:\(\displaystyle r\)
2つの量的変数間に相関関係があるかどうかを1 ~ -1の範囲で数値化できる指標のこと。

・1に近いとき ⇒ xが大きくなれば、yも大きくなる(正の相関がある)
・0に近いとき ⇒ xとyに関係はない(無相関)
・-1に近いとき ⇒ xが小さくなれば、yも小さくなる(負の相関がある)

2変数x、yの共分散を用いると

$$r = \frac{xとyの共分散}{(xの標準偏差)\times(yの標準偏差)}$$

具体例で、計算してみましょう。

A~E君の身長と体重で相関係数を算出したいと思います。

ピアソンの相関係数の具体的な計算

相関係数の算出に必要なのは、「2変数それぞれの平均値」「データ数」です。

身長と体重それぞれの平均値は

$$身長の平均 = \frac{140+180+150+190+160}{5} = 164$$ $$体重の平均 = \frac{45+80+50+85+55}{5} = 63$$

では共分散を求めていきましょう。

$$共分散 = \frac{(140-164)\times(45-63) + (180-164)\times(80-63) + (150-164)\times(50-63) + (190-164)\times(85-63) + (160-164)\times(55-63)}{5} = \frac{(-24)\times(-18) + (16)\times(17) + (-14)\times(-13) + (26)\times(22) + (-4)\times(-8)}{5} = 346$$

次に身長と体重の標準偏差を求めます。

$$身長の標準偏差 = \sqrt{\frac{(140-164)^2 + (180-164)^2 + (150-164)^2 + (190-164)^2 + (160-164)^2}{5}} = \sqrt{\frac{(-24)^2 + (16)^2 + (-14)^2 + (26)^2 + (-4)^2}{5}} = 18.547…$$ $$体重の標準偏差 = \sqrt{\frac{(45-63)^2 + (80-63)^2 + (50-63)^2 + (85-63)^2 + (55-63)^2}{5}} = \sqrt{\frac{(-18)^2 + (17)^2 + (-13)^2 + (22)^2 + (-8)^2}{5}} = 36.46…$$

よって相関係数\(\displaystyle r\)は

$$r = \frac{xとyの共分散}{(xの標準偏差)×(yの標準偏差)} = \frac{346}{18.5 \times 36.5} = 0.512$$

よって、0.5の正の相関があることが分かりました。

では変数同士が「質的変数」だった場合、どうなるのでしょうか。

スピアマンの順位相関

スピアマンの順位相関とは、質的変数に対して用いられる相関係数。

スピアマンの相関係数:\(\displaystyle \rho\)
2つの質的変数間に相関関係があるかどうかを1 ~ -1の範囲で数値化できる指標のこと。

・1に近いとき ⇒ xが大きくなれば、yも大きくなる(正の相関がある)
・0に近いとき ⇒ xとyに関係はない(無相関)
・-1に近いとき ⇒ xが小さくなれば、yも小さくなる(負の相関がある)

データ数を\(\displaystyle n\)、質的変数の差を\(\displaystyle d_k\)とすると
\(\displaystyle \rho = 1-\frac{6\sum_{k=1}^{n}(d_k)^2}{n(n^2 – 1)}\)

式が難しくなった気がしますよね。

こちらも具体例で計算してみましょう。

2つの会社に対するA~Eさんの満足度調査(5段階評価)をもとに、相関係数を算出したいと思います。

スピアマンの順位相関の具体的な計算

まずX社とZ社の「5段階評価の差の二乗」を合計していきましょう。

$$\sum_{k=1}^{n}(d_k)^2 = (3-5)^2 + (5-2)^2 + (4-3)^2 + (4-1)^2 + (1-4)^2 = 32$$

次にnはデータ数(5個)として、定義式に代入します。

$$\rho = 1-\frac{6\sum_{k=1}^{n}(d_k)^2}{n(n^2 – 1)} = 1-\frac{6\times 32}{5(5^2 – 1)} = -0.4$$

よって0.4の負の相関があることが分かりました。

まとめ

今回は「尺度の種類・相関係数」などを解説してきました。

以下の項目を説明できるようになっているでしょうか?

・名義尺度
・順序尺度
・間隔尺度
・比例尺度
・ピアソンの相関係数(積率相関)
・スピアマンの順位相関

DS検定は覚える内容が多いです。

一つ一つを細部まで見るというよりは、広く浅く見ていくことが重要かと思います。

DS検定を取得して、データサイエンティストやAI関連の仕事への道を開きましょう!

次回は「確率分布」などについて解説していきます。

ではまた~

DS検定の続きの解説は以下のページからどうぞ!

コメント

タイトルとURLをコピーしました