※本記事はアフィリエイト広告を含んでいます

どーも、りけーこっとんです。
たくさんの方が新生活を迎えていると思います。
りけーこっとんも、いよいよ新社会人がスタートしました!
社会人として働きながら、引き続き「初心者からデータサイエンティストになろう」という人向けに就活や勉強に関する情報を発信していきますね。
一緒に激動の時代を、楽しみながら生き抜いていきましょう!
皆さんは「データサイエンティスト」という職業をご存じですか?
「聞いたことある」「興味がある」「高収入って聞いた」
この記事を読んでいる方なら、こんな感じの方が多いのではないでしょうか。
こんな方達のために、今回はデータサイエンティストとは何かを解説。
では、前置きが長くなりましたが本文にいきましょう。
目次
データサイエンティストとは?
データサイエンティストとは大量の情報(ビックデータ)を駆使して、様々なビジネスの意思決定を行う、サポートする人のことです。
ただし「データサイエンティスト」の明確な定義はまだ無いので、上記のような感じ、と表現するしかありません。
例を挙げるならば、楽天やAmazonで出てくる「この商品を買っている人はこんな商品も買っています」でしょうか。
この機能は次のような順序で実現されています。
1.楽天やAmazonが、たくさんの購入履歴データ(ビックデータ)を集める
2.購入履歴データから、統計学・AI・Pythonなどを駆使して分析する
3.次に買う確率が最も高い結果を表示する
この1~3全てにデータサイエンティストは関わっているといっても良いでしょう。
1でデータを集めるのも
2でAIやPythonを駆使して分析するのも
3で結果を表示するプログラムを作成するのも
データサイエンティストのお仕事です。
ではデータサイエンティストの仕事としては何があるのでしょうか?
データサイエンティストの主な仕事内容
主な仕事内容としては次のような感じ。
1.統一性の無い大量のデータ収集
2.集めたデータを見やすく加工
3.R、Python等で数値解析
4.統計情報の分析・理解
5.ビジネス課題を主に上記4つで解決
仕事の幅が広いですよね。
まだ明確に定義できていないから、という理由があるのかもしれません。
全てに携わることもあれば、どれか1つに特化して携わることもあるようです。
それぞれ詳しく見ていきましょう。
1.統一性の無い大量のデータ収集

この作業が一番地味な作業ながら、一番重要です。
なぜなら、どのデータを収集するかによって、最終目標である「課題を解決する」ができなくなってしまう可能性があるから。
全てのデータを集められれば良いんですが、それには時間も費用もかかり過ぎちゃいます。
例えば、「おでんの売り上げを向上させるにはどうしたら良いか」を考えたかったとしましょう。
この時に、とある店のおでんの売れ行きを調べたかったとします。
この売れ行きに影響する要因には気温、客数、時間、味とかがありそうですよね。
それなのに、全く関係ない廃棄物量、お店の家賃、総売上などを考えても意味が無い。
統一性は無くて良いんですが、関係性はありそうなデータを集める仕事です。
データの集め方についてはこちらで詳しく解説しています。
2.集めたデータを見やすく加工

これは、集めたデータを見やすい表やグラフに書き換える仕事。
お互いに全く関係ないデータや、何が言いたいのか分からないグラフを作成しても、分析や理解のしようがありません。
1と同じ例を使うと「おでんと廃棄物量の関係」みたいな表などを作っても、売上とどう結びつけるか分からないですよね。
同じようにグラフや表が見にくくては、自分が解析してて何をしてるか分からなくなってきます。
関係性があることも、見えてきません。
ここで分析・解析のしやすさが決まってきます。
加工の仕方の一例は、こちらで解説しているので、是非見てみてください。
3.R、Python等で数値解析

この仕事はプログラミング等を使って、データ数値が何の意味を持つのかを、分かるようにするためのもの。
どの要因同士のどういった数字が、何に影響を与えているのかを、まず数字で理解します。
データを見やすく加工したことで、解析がしやすくなりましたね。
ここでは基本的に様々な数値を考えていきます。
「数値って何の数値?」と思いますが、統計値や確率のことです。
例えば以下のような数値があります。
・平均
・標準偏差
・分散など
確率をもう少し詳しく解説した記事が、こちらにあるので是非見てみてください。
平均・標準偏差などをRやPythonを使うことで、より大量の情報をより簡単に、どの数字が影響を与えているのかが分かります。
おでんの例だと
「売上平均値はどうか?」
「平均気温はどうか?」
「売上の標準偏差はどれくらいか?」
といったところでしょうか。
このように数字で影響関係を理解していくことができます。
4.統計情報の分析・理解

1~3で、数字がどこでどう変わっているのかを理解できましたね。
次はこれらの数字が「実際に何の要因に影響して、影響した結果何が起こるのか」を考えます。
これが「4.統計情報の分析・理解」。
ここから分析した数字を、実際の現象に当てはめていきます。
1~3と同じ例を使ってみましょう。
数字から現象に当てはめるとこんな感じでしょうか。
「売上平均値が高いと、よく売れている」
「平均気温値が低いと、寒い」
「一日の気温の標準偏差が小さいと、その日は気温変動が少なかった」
このように数字によって、実際の現象にどういったことが起きているのかを分析することができます。
また、それぞれの要因同士の関係性の理解も重要。
「平均気温が低いと、売上平均が高い」
「一日の気温の標準偏差が小さいと、売上平均は小さい」
など、どの要因同士がどういった関係になっているのかを考えると、原因が見えてきます。
5.ビジネス課題を主に上記4つで解決

1~4を行うことで、ようやく現象が起きた原因が見えてきます。
なので、ついに課題を解決する糸口が見えてきましたね。
この仕事からビジネス課題の解決について考えていきます。
1~4までで、データからどのような現象が起きているのかを理解できました。
ここで課題に立ち返ります。
今回の例でいうと「おでんの売り上げを向上させるにはどうすれば良いか」でしたね。
そして、データを分析することで
「平均気温が低いと、売上平均が高い」
「一日の気温の標準偏差が小さいと、売上平均は小さい」
ということが分かったとしましょう。
すると、これらの解決策は
「平均気温が低いときには、入荷量を増やす」
「一日の気温差が少ない天気予報の時は、入荷量を抑える」
等が考えられます。
このように、課題の解決方法を探し、実践する・提案するまでが仕事です。
まとめ
今回の内容をまとめると次の通り。
データサイエンティストの仕事は
1.統一性の無い大量のデータ収集
2.集めたデータを見やすく加工
3.R、Python等で数値解析
4.統計情報の分析・理解
5.ビジネス課題を主に上記4つで解決
もちろんここで紹介したものは、一例に過ぎないので「基本的にはこういう方法がある」位にとどめておくのが良いかもしれません。
職業の選び方・就活の仕方・働き方など様々なことが変化してきてますからね。
「データサイエンティストって聞いたことしかなかったけど、そんな感じのことやってるのね」
「データサイエンティストに、より興味が湧いてきた!」
このように思って頂ければ幸いです。
就活する人も転職する人も、生き方に正解のない大変な時代。
お互いに頑張っていきましょう!
それではまた~
