※本記事はアフィリエイト広告を含んでいます
どーも、りけーこっとんです。
DS検定の勉強をしよう!と思ったは良いものの、こんな悩みはありませんか?
DS検定ってどうやって勉強すればいいの?
DS検定の勉強の仕方が分からない…
本で勉強するのは分かるけど、高いなぁ…
無料で単語解説されているサイトとかないかな?
DS検定は、始まったばかりの試験だから、対策法とか分からないよね。
じゃあ、このサイトで出題範囲の内容を押さえていこう~
DS検定の解説をすぐ見たいよ!という方は、以下から最初の解説に飛べます。
今回はスキルチェックリスト
「DS146:特徴を可視化するため、統計量を使ってデータ加工できる」から
「DS156:強調表現の効果、明らかに不適切な強調表現を理解している」を解説していくよ~
本サイトでは超重要項目、重要項目、覚えておきたい項目と表記を分けますので、勉強時の参考にしてみてください。
DS検定って、そもそもどんな資格?という方は以下の記事をご覧くださいね。
試験範囲は以下の二つから出題されます。
・スキルチェックリスト
・数理、データサイエンス、AI(リテラシーレベル)モデルカリキュラム
本内容は以下の書籍を参考に作成しております。
なお、本サイトはDS検定の合格を保証するわけではありませんので、ご了承ください。
では早速、内容に入っていきましょう!
※「DS○○:」項目の文章は独自に短縮して表現しております
DS146:特徴を可視化するため、統計量を使ってデータ加工できる
データ量が多い場合には、生データをそのまま可視化してしまうと、返って見にくくなることがあります。
そこで二つの例を取り上げながら、効果的な可視化を見ていきましょう。
平均とバラつきの可視化
まずは大量のデータの平均とバラつきの可視化の仕方です。
生データをそのまま可視化してしまうと、以下のようになってしまいます。
これもドットプロットという可視化手法ではあるのですが、データの特徴は見えにくいですよね。
そこで箱ひげ図を作成すると以下のようになります。
上方ヒゲが最大値、下方ヒゲが最小値に対応します。
箱ひげ図にすると、どのデータ範囲に何%のデータがあるのか、一目で分かるようになりますね。
相関の可視化
次に、相関に関する可視化の仕方です。
今回はplotly_expressで用意されているpx.data.iris()というデータを使用します。
データセットはアヤメの花の情報があり、構成は以下の通り。
・がくの長さ(sepal_length)
・がくの幅(sepal_width)
・花弁の長さ(petal_length)
・花弁の幅(petal_width)
・アヤメの品種(species)
・品種No.(species_id)
相関を見るために、生データをそのまま可視化してしまうと以下のようになります。
これは散布図行列といい、使用することも多いです。
しかし各変数の関連度合いだけを見たいのであれば、以下のようにすることができます。
相関係数だけを表示させることで、スッキリしましたね。
上記2例でみたように、場合によっては代表的な数値のみを可視化する方が有効なこともあります。
必要に応じて可視化方法を使い分けられるようにしましょう。
DS153:誰にでもデータの意味が伝わるように加工できる
データの分析結果は、分析チームだけが持っていても意味がありません。
結果を分析担当者以外の人にも分かりやすく伝えて、行動につなげることが重要です。
そこで以下の観点が重要になります。
・分かりやすさ
・行動に繋がるかどうか
どちらもビジネスの現場において、分析のことを知らない方に伝える際には重要なことです。
分かりやすさ
まずは当然ですが、分かりやすさです。
例えば「相関の可視化」の章でも出てきた散布図行列はどうでしょうか。
データ分析者の観点からも分かりにくいのに、知らない人が見たら分かるわけがないですよね。
では相関係数だけの表示はどうでしょうか。
こちらは一見スッキリしましたが、データ分析を知らない人からすると何の数字か分かりませんし、そもそも相関係数が何かも知らないかもしれません。
その場合は「正の相関」「相関なし」「負の相関」くらいにまとめてしまうのが、分かりやすい表現でしょう。
このように伝える相手によっては、表示方法などが変わってきます。
相手に応じて可視化を使い分けられるようにしたいですね。
行動に繋がるかどうか
ビジネスにおいては「行動に繋がるかどうか」も重要です。
行動を通じて初めて、成果や数字に繋がるわけですからね。
例えば車のメーターパネルを考えてみましょう。
スピードメーターは、車が現在どれくらいの速さで走っているかのデータを、一目で分かるようにしてくれています。
そして一般道で80 km/hで走っていたら「スピードを落とす」という行動に繋がるわけですね。
このように「何の数字が」「どれくらいになったら」「どんな行動を取ればいいのか」が、一目で分かるようになると良いですね。
DS154:適切な情報濃度を判断できる
この項目での「情報濃度」とは以下の二つに分かれます。
・データインク比
・データ濃度
それぞれ見ていきましょう。
データインク比
データインク比
グラフ全体のインク量に対して、データを表すインクがどれくらいの割合を占めているかの指標。データインク比が高いほど、良いグラフと言える。
例えば以下のグラフが「データインク比が低い」グラフの例です。
棒グラフに無駄な色がついていたり、背景色があったり、棒グラフに影があったり…
デザイン的にはオシャレに見えるかもしれません。
しかし、グラフから何が言いたいのかが読み取れないですよね。
そこでデータインク比を高くした、以下のグラフはどうでしょうか。
これだとBaconの100 gあたりのカロリーを強調したかったんだな、と分かります。
データ濃度
データ濃度
画面の単位面積当たりの情報量を示す指標。データ濃度が高いほど、良いグラフと言える。
データ濃度もデータインク比と似た指標になります。
先ほどの例を再掲しますが、これが画面全体と考えればデータインク比と同じように考えることができます。
似たような指標ですが、DS検定ではデータ濃度もデータインク比も聞かれることがあります。
区別して覚えておきましょう。
DS155:不必要な誇張をしない軸表現の基礎を理解している
不必要な誇張をしたグラフというのは、自分の言いたいことを正当化するために過剰な表現をしたりすることです。
正しいデータを可視化していたとしても不適切な可視化をしてしまうと、間違った認識を与えることになりますよね。
たくさんの不適切な表現はありますが、代表的なものに触れていきます。
不必要な3D化
最初に不適切な表現として「グラフを不必要に3D化する」ことを挙げます。
以下の円グラフを見てみましょう。
左の不必要に3D化したグラフはItem AとItem Cが同じくらいに見えるのではないでしょうか。
しかし正しい可視化をしてあげると、2倍以上の差があることが分かります。
不必要な3D化は、奥に位置する値が小さく見えることがあるので、基本的には行わない方が無難でしょう。
不適切な縦軸・横軸の値の取り方
次は不適切な縦軸と横軸を取ってしまうこと。
ここでは軸として使う「種類」ではなく、「スケール」の取り方の話になります。
例えば以下のグラフを見てください。
三つとも全て同じデータですが、縦軸の最大値が違います。
最大値を小さく取れば、グラフの傾きは大きいように見えてしまいますね。
逆に大きく取れば、傾きが小さく見えるでしょう。
縦軸には、適切な大きさの最大値を取りたいところです。
また、横軸を不適切に取ってしまうと以下のようなグラフが出来上がります。
横軸の幅が均一でない場合、グラフをより急峻に見せたり、緩やかに見せることができてしまいます。
横軸は均一に取るようにしましょう。
0から始まらない棒グラフの使用
縦軸が0から始まっていない棒グラフ、というのも注意が必要です。
例えば以下のグラフがあったとしましょう。
左の変化が大きいように見えますが、同じデータです。
この理由は、縦軸が左のグラフは「9100~9800」で右のグラフは「0~12000」で取っているためです。
変化が大きいことを見せたい時は左のグラフを見せれば良いし、あまり変化がないことを見せたい時は右のグラフを使えばいいことになってしまいますね。
もし縦軸が0から始まっておらず、切れている場合は以下のような表記をします。
縦軸が恣意的に変わっていないかどうかは、確認したいところです。
増加を誤認させる累積グラフ
最後は、増加を誤認させるための累積グラフ。
以下のグラフを見てください。
ダウンロード(DL)数が日を追うごとに増加しているように見えますね。
しかし1日当たりのDL数で表すと以下のようになります。
増えているように見えたのは、DL数をその日までの累積値で表現していたからだったんですね。
むしろ1日当たりのDL数は落ち込んでいるので、何かしらの施策を打たないといけないかもしれません。
このように、グラフは一目でデータのイメージが分かりやすい一方で、悪用すればグラフ作成側の意図で歪めることもできます。
不必要な誇張をされたグラフは、日常でも多用されているので探してみると面白いかもしれません。
DS156:強調表現の効果、明らかに不適切な強調表現を理解している
グラフで可視化した際に、強調表現というのはたくさん存在します。
適切に使えば効果的に伝わる一方で、不適切な強調を行うと何を言いたいのか分からないグラフになってしまうことも。
そこで本項目では、どの強調表現が何を表現するのに適しているのか理解することが必要です。
どの強調表現が、何を表現できるのかについての一覧は以下の通り。
この表は以下の書籍を参考に作成しております。
散布図の場合、位置で様々なデータを表現する代表例です。
もちろん右上にある点であればあるほど値が大きいことを示し、反対もまた然り。
これは量や順序を表現できていますよね。
さらに以下のような散布図行列を作成すると関係性を表現することも可能です。
関係性を見ると「petal_width」と「petal_length」に強い性の相関があるように見えますね。
そして以下のような散布図ではカテゴリを表現することも可能にしています。
このグラフからは「右上」「右下」「左上」「左下」の大きく4つにカテゴリ分けできそうです。
右上の人は「月平均購入回数」も「一回の買い物の金額」も高いことから、常連客ということが分かりそうですね。
ほかにも様々な表現があるので、多種多様なグラフに触れることはDS検定に限らず、実務での幅を広げることになると思います。
まとめ
今回は「データインク比・グラフの強調表現」などを解説してきました。
以下の項目を説明できるようになっているでしょうか?
・平均とバラつきの可視化
・相関の可視化
・データインク比
・データ濃度
・グラフの不必要な誇張表現
・適切な強調表現
DS検定は覚える内容が多いです。
一つ一つを細部まで見るというよりは、広く浅く見ていくことが重要かと思います。
DS検定を取得して、データサイエンティストやAI関連の仕事への道を開きましょう!
次回は「多変量の比較」「可視化の基本的な視点」などについて解説していきます。
ではまた~
DS検定の続きの解説は以下のページからどうぞ!
制作中…
コメント