DS検定対策|データサイエンス力|予測モデルの精度評価指標を勉強!

DS検定のデータの予測・評価編を分かりやすく解説。DS70・72。ひよっこDS、りけーこっとん DS検定

※本記事はアフィリエイト広告を含んでいます


どーも、りけーこっとんです。

DS検定の勉強をしよう!と思ったは良いものの、こんな悩みはありませんか?

とある女の子
とある女の子

DS検定ってどうやって勉強すればいいの?

DS検定の勉強の仕方が分からない…

とある男の子
とある男の子

本で勉強するのは分かるけど、高いなぁ…

無料で単語解説されているサイトとかないかな?

ひよっこDS
ひよっこDS

DS検定は、始まったばかりの試験だから、対策法とか分からないよね。

じゃあ、このサイトで出題範囲の内容を押さえていこう~

DS検定の解説をすぐ見たいよ!という方は、以下から最初の解説に飛べます。

ひよっこDS
ひよっこDS

今回はスキルチェックリスト

「DS70:ROC曲線、AUCを用いてモデルの精度を評価できる」と

「DS72:RMSEなどの評価指標を理解し、精度を評価できる」を解説していくよ~

本サイトでは超重要項目重要項目覚えておきたい項目と表記を分けますので、勉強時の参考にしてみてください。

DS検定って、そもそもどんな資格?という方は以下の記事をご覧くださいね。

試験範囲は以下の二つから出題されます。

スキルチェックリスト
数理、データサイエンス、AI(リテラシーレベル)モデルカリキュラム

本内容は以下の書籍を参考に作成しております。


なお、本サイトはDS検定の合格を保証するわけではありませんので、ご了承ください。

では早速、内容に入っていきましょう!

※「DS○○:」項目の文章は独自に短縮して表現しております

DS70:ROC曲線、AUCを用いてモデルの精度を評価できる

ROC曲線もAUCも聞き慣れない単語ですよね。

どちらも分類問題に用いられる指標です。

陽性・陰性の区別が明確に定まらない分類問題を予測するモデルの性能」を評価できるのがROC曲線とAUC。

それぞれ詳しく見ていきましょう。

ROC曲線・AUC

まず「陽性・陰性の区別が明確に定まらない分類問題を予測するモデル」とは何でしょうか。

例えば以下の図のように「気温」を予測モデルに入力して「アイスを買った or 買わない」を出力するモデルがあったとします。

ROC曲線、AUCとは?ROC曲線、AUCを分かりやすく解説!りけーこっとん、ひよっこDS

理想は予測モデルの出力が「アイスを買った(1) or 買わない(0)」を明確に出せる数値が存在する以下のような状況。

ROC曲線、AUCとは?ROC曲線、AUCを分かりやすく解説!りけーこっとん、ひよっこDS

一般的なロジスティック回帰を用いたとすると、上図の下の例のように出力値が0~1の間で連続値を取るようになるんでしたね。

ロジスティック回帰の予測モデルイメージは以下のとおり。

ROC曲線、AUCとは?ROC曲線、AUCを分かりやすく解説!りけーこっとん、ひよっこDS

つまりロジスティック回帰においては、以下の図のように実際のデータが分布すれば理想です。

ROC曲線、AUCとは?ROC曲線、AUCを分かりやすく解説!りけーこっとん、ひよっこDS

上図の例だと、シグモイド関数の出力値0.6を境にアイスを買った or 買わないが明確に区別できますね。

しかし実データは、同じ気温25℃でもアイスを買う人もいれば、買わない人もいます。

つまり、同じ出力値0.6でも買ったり買われなかったりするわけです。

そうなると、実際のデータ分布は以下のようになることがほとんど。

ROC曲線、AUCとは?ROC曲線、AUCを分かりやすく解説!りけーこっとん、ひよっこDS

この図になると先ほどよりも、どの気温からは買う傾向にあるのかが判断しにくいですよね。

そこで便利になるのがROC曲線AUC

ROC曲線(Receiver Operating Characteristic)
閾値(上記の例だと気温)を変えた時に、予測モデル出力の「偽陽性率」と「真陽性率」を軸にした、以下のようなグラフのこと。
分類問題の精度評価指標。

ROC曲線・AUCとは?ROC曲線・AUCを分かりやすく解説!りけーこっとん、ひよっこDS

AUC(Area Under the Curve)
上記のグラフで、ROC曲線の下部分を占める面積のこと。AUCの値は0.5以上1.0以下しか取らない。
分類問題の精度評価指標。

グラフの作成手順は以下の通り。
1.閾値(上記の例では気温)を決め真陽性率・偽陽性率を計算
2.横軸:偽陽性率、縦軸:感度(真陽性率)のグラフにプロット
3.閾値を変更する
4.1~3を繰り返す

「真陽性率」に関しては、混同行列のところでも出てきていますが、新しく出てきた「偽陽性率」も含めて解説します。

混同行列とは以下のような表を言うのでした。

混同行列とは?混同行列を分かりやすく解説!りけーこっとん、ひよっこDS

まずは「真陽性率」の式から。

感度・真陽性率とは?感度・真陽性率を分かりやすく解説!りけーこっとん、ひよっこDS

真陽性率は「再現率(Recall)」と同じ式になっています。

意味は「実際に陽性のデータの中で、どれだけ正しく陽性と判断できたか」。

次に「偽陽性率」の式。

偽陽性率とは?偽陽性率を分かりやすく解説!りけーこっとん、ひよっこDS

意味は「実際に陰性のデータの中で、どれだけ間違って陽性と判断したか」になります。

DS72:RMSEなどの評価指標を理解し、精度を評価できる

上記で触れたROC曲線や混同行列は、分類問題を予測するモデルの精度評価指標でした。

この章で触れるのは「回帰問題を予測するモデル」の精度評価指標。

代表的なものには以下の4つがあります。

・RMSE
・MAE
・MAPE
・決定係数

それぞれ詳しく見ていきましょう。

RMSE(Root Mean Squared Error)

RMSE(Root Mean Squared Error)
「実際のデータ」と「予測モデルの出力値」の差を計算して、二乗平均にルートを取ったもの。(根平均二乗誤差)
式は以下の通り。

\(\displaystyle RMSE=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i – \hat{y}_i)^2}\) ここで\(\displaystyle n\)はデータ数、\(\displaystyle y_i\)は実際のデータ、\(\displaystyle \hat{y}_i\)は予測モデルの出力値である

まず(\displaystyle y_i – \hat{y}_i)^2\)の部分で「実際のデータ」と「予測モデルの出力値」の差(残差)を計算しています。

残差の二乗の平均を取り、その値のルートを取ったものがRMSEですね。

機械学習やデータサイエンスの回帰問題では、最も使用される評価指標かもしれません。

RMSEは、実際のデータとの差を取っているため、小さければ小さいほど良いモデルということになります。

「実際のデータ」と「予測モデルの出力値」の差を二乗するため、誤差が大きいデータ程より大きい「罰(誤差)」を与えるイメージでしょうか。

誤差が大きいものをなるべく減らしたい時に、有効な指標ですね。

MAE(Mean Absolute Error)

MAE(Mean Absolute Error)
「実際のデータ」と「予測モデルの出力値」の差の絶対値を計算して、平均を取ったもの。(絶対平均誤差)
式は以下の通り。

\(\displaystyle MAE=\frac{1}{n}\sum_{i=1}^{n}\bigl|y_i – \hat{y}_i\bigr|\) ここで\(\displaystyle n\)はデータ数、\(\displaystyle y_i\)は実際のデータ、\(\displaystyle \hat{y}_i\)は予測モデルの出力値である

RMSEは「実際のデータ」と「予測モデルの出力値」の差を二乗していたため、誤差が大きいものにはより大きな「罰」を与えるイメージでした。

MAEは二乗しないので誤差が大きかろうが小さかろうが、与える「罰」の大きさには関係ありません。

単純に「残差の平均」を見たい時には、RMSEよりMAEの方が良いでしょう。

MAPE

MAPE
「実際のデータ」と「予測モデルの出力値」の差を「実際のデータ」で割った絶対値を計算して、平均を取ったもの。(平均絶対パーセント誤差)
式は以下の通り。

\(\displaystyle MAPE=\frac{100}{n}\sum_{i=1}^{n}\bigl|\frac{y_i – \hat{y}_i}{y_i}\bigr|\) ここで\(\displaystyle n\)はデータ数、\(\displaystyle y_i\)は実際のデータ、\(\displaystyle \hat{y}_i\)は予測モデルの出力値である

少し複雑ですね。

簡単に言うとMAEの差の計算に「実際のデータで割る」操作を加えただけ。

そうすると実際のデータに対する割合が出るので、平均絶対”パーセント”誤差というわけですね。

パーセントという直感的に分かりやすい指標なので、ビジネスシーンで相手に説明するときなどに使われるようです。

決定係数

決定係数に関しては「DS検定対策|データサイエンス力|回帰分析・最小二乗法・決定係数を勉強」でも触れていますが、もう一度解説します。

決定係数
回帰モデルがどれだけ上手く教師データを説明できているかを測る指標のこと。\(\displaystyle R^2\)で表される

\(\displaystyle R^2=1-\frac{「実際のデータ」と「回帰モデルで予測したデータ」の誤差の二乗和}{「実際のデータ」と「平均」の誤差の二乗和}\)

決定係数は1~0の間の値を取り、1に近いほど教師データをよく説明できていると言えます。

「予測の正確さ」を表す指標のため、機械学習の文脈でよく使われますね。

データサイエンスの文脈で、データ分析を行う際に決定係数を扱う際には注意が必要です。

1.アイスの売り上げを「気温」を変数として予測したい
2.アイスの売り上げに「気温」が影響あるかどうかを知りたい

1の場合は問題なく決定係数が使えます。

しかし2の場合に決定係数を用いるのは適切ではありません。

「影響の有無を知りたい」のであって、売り上げを予測したいわけではないからです。

まとめ

今回は「予測モデルの評価」などを解説してきました。

以下の項目を説明できるようになっているでしょうか?

・ROC曲線
・AUC
・RMSE
・MAE
・MAPE
・決定係数

DS検定は覚える内容が多いです。

一つ一つを細部まで見るというよりは、広く浅く見ていくことが重要かと思います。

DS検定を取得して、データサイエンティストやAI関連の仕事への道を開きましょう!

次回は「推定」「検定」などについて解説していきます。

ではまた~

DS検定の続きの解説は以下のページからどうぞ!

コメント

タイトルとURLをコピーしました