DS検定対策|データサイエンス力|機械学習・グルーピングを勉強!

DS検定の機械学習・グルーピング編を分かりやすく解説。DS83~85。ひよっこDS、りけーこっとん DS検定

※本記事はアフィリエイト広告を含んでいます


どーも、りけーこっとんです。

DS検定の勉強をしよう!と思ったは良いものの、こんな悩みはありませんか?

とある女の子
とある女の子

DS検定ってどうやって勉強すればいいの?

DS検定の勉強の仕方が分からない…

とある男の子
とある男の子

本で勉強するのは分かるけど、高いなぁ…

無料で単語解説されているサイトとかないかな?

ひよっこDS
ひよっこDS

DS検定は、始まったばかりの試験だから、対策法とか分からないよね。

じゃあ、このサイトで出題範囲の内容を押さえていこう~

DS検定の解説をすぐ見たいよ!という方は、以下から最初の解説に飛べます。

ひよっこDS
ひよっこDS

今回はスキルチェックリスト

「DS83:教師なし学習(クラスター分析)と教師あり学習(分類)を説明できる」から

「DS85:デンドログラムを理解し、適切に解釈できる」を解説していくよ~

本サイトでは超重要項目重要項目覚えておきたい項目と表記を分けますので、勉強時の参考にしてみてください。

DS検定って、そもそもどんな資格?という方は以下の記事をご覧くださいね。

試験範囲は以下の二つから出題されます。

スキルチェックリスト
数理、データサイエンス、AI(リテラシーレベル)モデルカリキュラム

本内容は以下の書籍を参考に作成しております。


なお、本サイトはDS検定の合格を保証するわけではありませんので、ご了承ください。

では早速、内容に入っていきましょう!

※「DS○○:」項目の文章は独自に短縮して表現しております

DS83:教師なし学習(クラスター分析)と教師あり学習(分類)を説明できる

この項目では、「機械学習とはそもそも何か?」「教師あり学習、教師なし学習とは?」について触れます。

最終的には教師なし学習のクラスター分析と教師あり学習の分類問題の違いを説明できるようになりましょう。

まずは最近よく聞く、機械学習とは何か?についてです。

機械学習

機械学習
入力されたデータをパターン分類し、未知のデータが入力された際の出力を予測・判断する技術。人工知能技術の一つとして用いられる。

機械学習といっても、機械が人間のように学習しているわけではありません。

機械が学習するには2段階を経る必要があります。

1段階目は、入力されたデータにはどんな傾向やパターンがあるのかを「学習」すること。

この「学習」の段階が無いと、何もできません。

2段階目は新しいデータを入力し、今まで学習した傾向やパターンに当てはめるとどうなるのかを予測・判断すること。

これにより、未知のデータに対しても予測ができるようになります。

機械学習の分類は、以下の3種類。

・教師あり学習
・教師なし学習
・強化学習

DS検定においては、「教師あり学習」と「教師なし学習」について触れます。

教師あり学習

教師あり学習
「学習」する際に、お手本となるデータ(教師データ)がある学習方法のこと。お手本のデータ通りに予測できるように学習する。

例)
1.「猫」と「犬」の画像を正確に分類する
2.住宅の販売価格を予測する

機械学習の中で、最も一般的な手法が教師あり学習でしょう。

最近流行りのディープラーニングも、この分類です。

難点は「教師データを用意するのが大変」ということ。

教師データが少なければ、その分予測や判断の精度は下がることになってしまいます。

また、教師あり学習には例1のような「分類問題」があります。

具体的な手法は「ロジスティック回帰」「分類用の決定木」「サポートベクターマシン」など。

次の章で紹介する「教師なし学習のクラスター分析(クラスタリング)」と混同しやすいので、注意してください。

教師なし学習

教師なし学習
「学習」する際に、お手本となるデータがない学習方法のこと。似たデータをまとめたりするだけなので、結果の解釈は人間が行う。

例)
1.クラスタリング
2.主成分分析

前述の「教師あり学習の分類問題」と混同しやすいので、注意しましょう。

「教師あり学習の分類問題」との最大の違いは、教師データがあるかどうか。

教師データがないことで、最終的な解釈を人間がしなければならないのが教師なし学習ですね。

なので、具体的な手法にも違いがあります。

こちらは「デンドログラム」「k-means法」などが具体的な手法です。

次のDS84・85章で詳しく見ていきましょう。

DS84:階層・非階層クラスター分析を説明できる

この項目は「階層クラスター分析」「非階層クラスター分析」を説明できるかどうかという項目。

これらの単語は「教師なし学習」の中の分類になります。

クラスターとは、特徴や傾向が似た者同士のデータのことを指します。

直前の章では「クラスタリング」という言葉も出できました。

「クラスタリング」はデータをクラスターに分ける作業のことを指しています。

では「階層クラスター分析」「非階層クラスター分析」それぞれの特徴を見ていきましょう。

階層クラスター分析

階層クラスター分析
似た者同士のデータ(クラスター)を順番にまとめていく手法。クラスター数が4, 3, 2…と減っていくことが特徴的。

例:デンドログラム

階層クラスター分析の「似たデータかどうか」には距離が用いられます。

用いる距離によって「階層クラスター分析」は、さらに以下の4つの代表的な手法に分類されます。

・ウォード法
距離の平方和が最小になるようにクラスターを結合する手法

・群平均法
クラスター同士の全データの組み合わせの平均を求めて結合する手法

・重心法
クラスター間の距離を計算するときクラスターの重心から測り、結合する手法

・メディアン法
重心法と似た手法。重心法ではクラスターの中のデータ数を考慮するが、メディアン法は考慮しない。

これらの様々な距離を用いながら、距離が近い(似た)データ同士をひとまとめにしていきます。

さらに、距離に応じてまとめたデータを図にしたものをデンドログラムと言います。

以下の図のようなイメージですね。

デンドログラムとは?デンドログラムを分かりやすく解説!りけーこっとん、ひよっこDS

このようにデンドログラムがかけるため、分類の経緯を解釈しやすいという特徴がありますね。

非階層クラスター分析

非階層クラスター分析
似た者同士のデータ(クラスター)を、予め決めたクラスター数にまとめていく手法。クラスター数を分析者の判断で決めるのが特徴的。

例:k-means法

階層クラスターと対比する形で存在するのが「非階層クラスター分析」。

「非階層」というくらいなので、デンドログラムなどは書けません。

また何個のクラスターに分類するか分からない場合にも、使いにくい手法です。

予め分析者自身でクラスター数を決めないとだからですね。

ただし、ビッグデータを扱うときには非階層クラスター分析が役に立ちます。

デンドログラムをビッグデータで書こうとすると、細かくなりすぎて逆に分かりにくくなってしまいますよね。

さらにビッグデータを分類した結果の信頼性も高い、ということが特徴的です。

DS85:デンドログラムを理解し、適切に解釈できる

この項目はデンドログラムについて深堀した項目です。

デンドログラムとは、先ほど「階層クラスター分析」の章で出てきましたね。

詳しく見ていきましょう。

デンドログラム

デンドログラム
分析対象のデータがクラスターにまとめられていく様子を、樹形図にまとめたもの。

作成手順
1.分析対象のデータ同士の距離を測る
2.もっとも距離が近いデータ同士を一つのクラスターにまとめる
3.クラスター数が1つになるまで繰り返す

デンドログラムは下の図のようなイメージですね。

デンドログラムとは?デンドログラムを分かりやすく解説!りけーこっとん、ひよっこDS

距離が長くなるほどデータがどんどんまとめられて、クラスター数が減っていくことが分かると思います。

デンドログラムでは、以下のようなことが分かります。

・それぞれのデータがどれくらいの距離なのか
・分けたいクラスター数にするにはどれくらいの距離を取ればいいのか

先ほどの図の場合だと、下に行くほど距離が近くなります。

またクラスター数を3つにしたいとなれば、図のような距離で区切れば、目的のクラスター数になるわけです。

このようにデンドログラムがかけるため、分類の経緯を解釈しやすいですね。

まとめ

今回は「機械学習・グルーピング」などを解説してきました。

以下の項目を説明できるようになっているでしょうか?

・機械学習
・教師あり学習
・教師なし学習
・階層クラスター分析
・非階層クラスター分析
・デンドログラム

DS検定は覚える内容が多いです。

一つ一つを細部まで見るというよりは、広く浅く見ていくことが重要かと思います。

DS検定を取得して、データサイエンティストやAI関連の仕事への道を開きましょう!

次回は「データの性質・関係性」などについて解説していきます。

ではまた~

DS検定の続きの解説は以下のページからどうぞ!

コメント

タイトルとURLをコピーしました