※本記事はアフィリエイト広告を含んでいます
どーも、りけーこっとんです。
DS検定の勉強をしよう!と思ったは良いものの、こんな悩みはありませんか?
DS検定ってどうやって勉強すればいいの?
DS検定の勉強の仕方が分からない…
本で勉強するのは分かるけど、高いなぁ…
無料で単語解説されているサイトとかないかな?
DS検定は、始まったばかりの試験だから、対策法とか分からないよね。
じゃあ、このサイトで出題範囲の内容を押さえていこう~
DS検定の解説をすぐ見たいよ!という方は、以下から最初の解説に飛べます。
今回はスキルチェックリスト
「DS41:目的に合った集計をし、データから事実を把握できる」から
「DS44:時系列データとは何か、基本的な扱いを説明できる」を解説していくよ~
本サイトでは超重要項目、重要項目、覚えておきたい項目と表記を分けますので、勉強時の参考にしてみてください。
DS検定って、そもそもどんな資格?という方は以下の記事をご覧くださいね。
試験範囲は以下の二つから出題されます。
・スキルチェックリスト
・数理、データサイエンス、AI(リテラシーレベル)モデルカリキュラム
本内容は以下の書籍を参考に作成しております。
なお、本サイトはDS検定の合格を保証するわけではありませんので、ご了承ください。
では早速、内容に入っていきましょう!
※「DS○○:」項目の文章は独自に短縮して表現しております
DS41:目的に合った集計をし、データから事実を把握できる
データ分析は基本的に、仮説検証の繰り返しの中で課題解決に至ります。
データ分析の主な流れは、CRISP-DMという指針に沿うと以下の通り。
一番最初に始める箇所は「ビジネス課題・目的」の理解。
最初に目的を定めて、データを収集したり分析・評価したりする流れです。
つまり目的があって初めてデータ分析が行われるんですね。
業務を行っていると、データを分析することが目的になることがあるので注意しましょう。
ここで「お客さんをもっと増やして売上を上げたい」という例を使って「目的の定め方」の感覚をつかみます。
まずはすぐに、「売上」「来店者数」「商品数」などの情報を集めがちです。
しかし「お客さん」といっても定義が広い、ということに気付いたでしょうか。
・「常連顧客」か「新規顧客」
・年代別
・性別
以上のように色んな定義の仕方がありますよね。
「お客さん」の定義を具体的に定めないと、この後の分析が意味のないものになるので注意しましょう。
具体的にすると例えばこんな感じでしょうか。
「20代の新規顧客を増加させたい、オンライン通販のwebサービス」
目的を具体的に定めたら、データ集計です。
データの集計方法は目的によって変化するため、適切な集め方ができるようにしたいですね。
DS42:データ理解のために、集計の切り口・比較対象の設定が重要
DS41では目的の設定が重要という話をしましたね。
DS42項目はDS41と似ていますが、データの集計方法に焦点を当てた項目になります。
集計においては「集計の切り口」・「比較」が重要。
目的に応じて具体的な集計方法は変わりますが、具体例を見て感覚をつかみましょう。
「20代の新規顧客を増加させたい、オンライン通販のwebサービス」
※「お客さんを増加させたい」では目的としてダメなことは、DS41で触れましたね。
まず集計の切り口として考えられるのは、以下のようなものでしょうか。
・顧客が「いつ・どんなページに・どれくらいの時間」滞在しているのか
・売り上げが良い、悪い商品のカテゴリ
・顧客の年齢層
切り口を考えてデータを収集したら、比較をしてみます。
例えば30代の顧客が1万人訪れているなら、「30代が一番多い」と言えるでしょうか。
他の年代と比較したり、訪れる人数全員の割合などで表さなければ、何とも言えませんよね。
100万人訪れるならば全体の1%にすぎませんし、2万人なら50%にもなります。
このようにデータ理解には、「集計の切り口」と「比較」が重要です。
また、集められる情報は多いに越したことはありませんが、現実的に限界がありますよね。
そこで「何が売り上げに影響しているか」の仮説を立てる力が重要。
「宣伝効果」なのか「サイトの滞在時間」なのか、いろいろな仮説が立てられます。
ここで、いかに筋の良い仮説を立てられるかが重要ですね。
DS43:普段扱うデータの発生トリガー・基本統計量などを説明できる
DS43は、普段業務で使うデータの詳細を詳しく説明できますか、という項目。
こちらは、資格勉強に関してはあまり関係ない部分ですので、時間がない方は読み飛ばして問題ありません。
しかし業務においては非常に重要な項目となります。
扱っているデータに対して、説明できるようになっておきたい項目は以下の通り。
・データは「いつ」発生しやすいのか
・「何の」データが発生するのか
・「どのように」発生するのか
・データの平均値、分散 など
このように普段扱っているデータの基本的な振る舞いは、説明できるようにしておきましょう。
これは普段の実生活にも活きてくることになります。
皆さんも、例えば以下のような商品の値段の相場は知っているでしょう。
・もやし ⇒ 20 ~ 40円くらい
・500mlの飲料水 ⇒ 90 ~ 150円くらい
相場(データの基本的な振る舞い)を知っていれば、1万円のもやしが高いと判断できます。
しかし以下のような例はどうでしょうか。
・株式の利率の相場
・不動産売却の値段の相場
これらは実際に行っている人でないと分からないと思います。
分からなければ「株式の年の利率が20%」が高いのか低いのか判断できません。
このように普段の生活にも活きるため、資格勉強にはあまり関係ありませんが、重要な項目です。
DS44:時系列データとは何か、基本的な扱いを説明できる
DS44は、時系列データを正しく扱えますか、という項目。
まず時系列データとは何かについて見て行きましょう。
時系列データ
時間(年月日など)の経過とともに変化するデータのこと。
例:
株価、気温、降水量、売上 など
時系列データをグラフで表すと、以下のようになります。
このグラフの特徴を捉えるためには、「トレンド」「周期性」「不規則性」が重要。
トレンド
時系列データの細かい変動を除いた、全体的な傾向のこと。
例:上記のグラフでは上昇トレンド
周期性
年、週、季節など一定の時間間隔で同じようにみられる特徴のこと。
例:上記のグラフでは赤線部分に周期性がみられる
不規則性
誤差的な、突発的に生じた変化のこと。
例:上記のグラフではノイズのようにギザギザになっている部分
ここで「トレンド」をとらえるために重要な計算「移動平均」について押さえましょう。
移動平均
一定期間を定めたあと、その期間内で平均を計算しながら期間の時系列を進める平均の計算方法。
グラフ全体を滑らかにする効果がある。
この時系列データの移動平均は、次のように計算します。
以上のように平均を取る一定期間を定め、その期間をずらしながら平均計算する方法です。
まとめ
今回は「データの理解」などを解説してきました。
以下の項目を説明できるようになっているでしょうか?
・目的に合わせたデータ収集ができる
・データ収集では「集計の切り口」「比較」が重要
・時系列データ
・トレンド
・周期性
・移動平均
DS検定は覚える内容が多いです。
一つ一つを細部まで見るというよりは、広く浅く見ていくことが重要かと思います。
DS検定を取得して、データサイエンティストやAI関連の仕事への道を開きましょう!
次回は「データの洞察・予測」などについて解説していきます。
ではまた~
DS検定の続きの解説は以下のページからどうぞ!
コメント