DS検定対策|データサイエンス力|統計情報の理解・データ確認を勉強!

DS検定の統計情報の理解・データ確認編を分かりやすく解説。DS28~38。ひよっこDS、りけーこっとん DS検定

※本記事はアフィリエイト広告を含んでいます


どーも、りけーこっとんです。

DS検定の勉強をしよう!と思ったは良いものの、こんな悩みはありませんか?

とある女の子
とある女の子

DS検定ってどうやって勉強すればいいの?

DS検定の勉強の仕方が分からない…

とある男の子
とある男の子

本で勉強するのは分かるけど、高いなぁ…

無料で単語解説されているサイトとかないかな?

ひよっこDS
ひよっこDS

DS検定は、始まったばかりの試験だから、対策法とか分からないよね。

じゃあ、このサイトで出題範囲の内容を押さえていこう~

DS検定の解説をすぐ見たいよ!という方は、以下から最初の解説に飛べます。

ひよっこDS
ひよっこDS

今回はスキルチェックリスト

「DS28:比率的な指標でないと数値に比較に意味がないことを理解している」から

「DS38:データを鵜呑みにしない重要性を理解している」を解説していくよ~

本サイトでは超重要項目重要項目覚えておきたい項目と表記を分けますので、勉強時の参考にしてみてください。

DS検定って、そもそもどんな資格?という方は以下の記事をご覧くださいね。

試験範囲は以下の二つから出題されます。

スキルチェックリスト
数理、データサイエンス、AI(リテラシーレベル)モデルカリキュラム

本内容は以下の書籍を参考に作成しております。


なお、本サイトはDS検定の合格を保証するわけではありませんので、ご了承ください。

では早速、内容に入っていきましょう!

※「DS○○:」項目の文章は独自に短縮して表現しております

DS28:比率的な指標でないと数値に比較に意味がないことを理解している

データは単なる数値だけでは、判断できないことが大多数です。

一番有名なのはGDPの比較でしょうか。

「日本はGDPでは世界3位だけど、一人当たりのGDPでは30位に順位を落とす(2023年時点)」

というのはよく聞くことですね。

GDPは、生産された商品の付加価値を全て合計して算出します

なので国の豊かさを示す指標の一つであり、GDPが高いほどその国は裕福と考えても良いでしょう。

しかし全て合計しているということは、以下の二つの特徴を持つ国は有利、ということになります。

1.産業に強みがある
2.人口が多い

1は産業に強みがあるということは、その分収益が出やすいので、裕福になりやすいですね。

2の人口は、多いからと言って裕福になるでしょうか。

直感的に違うなと思いますよね。

実際インドやアフリカ諸国の人口は、ヨーロッパ諸国の人口よりも多いです。

このように人口という付加価値とは関係ない部分の影響が出てしまうため、一人当たりのGDPを用いるわけです。

一人当たりのGDPとは「GDP÷(人口)」なので、比率的な指標ですね。

一人当たりのGDPは人口に影響されないため、GDPよりも比較に意味のある指標になります。

他にも、

・オリンピックのメダル数
・コロナウイルスの感染者数

なども総数では比較に意味がありません。

目的に応じて、どんな比率を使うのか良いかを考えられるようにしましょう。

DS29:統計情報に接したとき、数字・グラフの意味を理解できる

この項目は、数値・グラフをきちんと理解できますか、という項目。

グラフなどを見た際に誤った見方をしてしまうと、そのまま間違えた判断に繋がりかねません。

この間違いが大量に発生するとインフォデミックが発生します。

インフォデミック
「情報(Information)」とエピデミック(Epidemic:感染症の広がり)」を合わせた造語。
ネットの大量な情報(デマ、噂、嘘を含む)が実社会に影響を及ぼすこと。

例)
・コロナウイルスが流行ったときには、店からトイレットペーパーが消えた
・イランでは「メタノールがコロナに効く」というデマで死亡事故が多発

上記のように、深刻な社会問題にまでつながってしまいます。

そこで重要なのは、以下の二つ。

・エビデンスベーストで考える
・情報を読む力を鍛える

エビデンスベースト
根拠に基づいて判断すること。根拠とは、事実やデータのこと。
個人の経験だけで判断しないことが重要。

情報を読む力
例としては以下のものがある。

・単なる数値なのか比率的な数値なのか(DS28)
・作成者に都合の良いデータのみを用いていないか
・時系列データで、同時に比較して良いデータかどうか  等

世の中にはたくさんの情報が溢れています。

デマや恣意的な見せ方に騙されないように、気を付けましょう。

DS32:単独のグラフに集計ミスがないかが分かる

データ分析を始める前に、集計ミスが無いかどうかは確かめなければいけません。

ありがちな集計ミスの具体例をみていきましょう。

・目的と異なる集計条件で集めてしまった

・単位の異なるデータが混在している

・欠損値、異常値、重複を排除しきれていない

・集計データの時間にズレがある

上記以外にも、普段使っているデータにはどんなミスがありがちなのか把握しておきましょう。

データの集計を間違ってしまうと、後のステップの「分析」「評価」などがすべて間違っていることになってしまいます。

間違った判断をしないためにも、データ集計のミスに気付けるかどうかは重要です。

DS33:データの項目・量・質を指示のもと検証し、結果を説明できる

DS32で集計ミスが無いかどうか確かめました。

しかし、データ分析を始めるにはまだ不十分です。

ミスはなくても、データの項目・量・質に問題があると、価値のある分析ができません。

「データの項目」「データの量」というのはイメージしやすいと思います。

・「データの項目」は抜け漏れ、ダブり
・「データの量」は、分析に十分な量あるか(分析目的による)

をチェックします。

「データの質」と言われてもイメージしにくいですよね。

一部を具体的に挙げると

・欠損値の有無
・外れ値の有無とデータ全体に占める割合
・データの重複の有無
・データの偏り具合  など

このように「データの質」が最も重要かつチェック事項が多いもの。

また、データ品質評価には国際標準ISO/IEC 25012があります。

具体的にどんな処理をするかというより、評価の観点という意味では網羅的なものですね。

DS38:データを鵜呑みにしない重要性を理解している

DS28~33で、データを集計したり、理解したりするときにはいろいろな注意点があることを見てきましたね。

この項目は、データが生み出された背景にも目を向けることが重要、という項目。

データの中身に注目することも重要ですが、「なぜそのデータが生まれたのか」「何を調べたいデータなのか」といった背景も重要です。

例えば、もともとのデータが「全国の高校生の平均身長」を調べたものとしましょう。

このデータから「東京都の高校生の平均身長」を分析しても良いでしょうか?

あくまでも「全国の高校生」を調べたデータなので、「東京都の高校生」のデータは少ないですよね。

そうなると、正しい結論が導けません。

このようにデータが生み出された背景を考えることが重要です。

この項目をまとめると以下の通り。

・データが生み出された背景に注目することが重要。

・データを俯瞰的にみるなど、鵜呑みにしないよう注意。

まとめ

今回は「統計情報の理解・データ確認」などを解説してきました。

以下の項目を説明できるようになっているでしょうか?

・比較する際には比率的な指標が重要
・数値、グラフの意味を理解できる
・インフォデミック
・エビデンスベースト
・グラフの集計ミスが分かる
・データの項目、量、質を評価できる

DS検定は覚える内容が多いです。

一つ一つを細部まで見るというよりは、広く浅く見ていくことが重要かと思います。

DS検定を取得して、データサイエンティストやAI関連の仕事への道を開きましょう!

次回は「データ理解」について解説していきます。

ではまた~

DS検定の続きの解説は以下のページからどうぞ!

コメント

タイトルとURLをコピーしました