※本記事はアフィリエイト広告を含んでいます
どーも、りけーこっとんです。
「G検定取得してみたい!」「G検定の勉強始めた!」
このような、本格的にデータサイエンティストを目指そうとしている方はいないでしょうか?
また、こんな方はいませんか?
「なるべく費用をかけずにG検定取得したい」「G検定の内容について網羅的にまとまってるサイトが見たい」
今回はG検定の勉強をし始めた方、なるべく費用をかけたくない方にピッタリの内容。
りけーこっとんがG検定を勉強していく中で、新たに学んだ単語、内容をこの記事を通じてシェアしていこうと思います。
結構、文章量・知識量共に多くなっていくことが予想されます。
そこで、超重要項目と重要項目、覚えておきたい項目という形で表記の仕方を変えていきたいと思いますね。
早速G検定の中身について知りたいよ!という方は以下からどうぞ。
具体的にどうやって勉強したらいいの?
G検定ってどんな資格?
そんな方は以下の記事を参考にしてみてください。
なお、りけーこっとんは公式のシラバスを参考に勉強を進めています。
そこで主な勉強法としては
分からない単語出現 ⇒ web検索や参考書を通じて理解 ⇒ 暗記する
この流れです。
皆さんも一緒に頑張りましょう!
※この記事は合格を保証するものではありません
大項目「ディープラーニングの社会実装に向けて」
G検定のシラバスを見てみると、試験内容が「大項目」「中項目」「学習項目」「詳細キーワード」と別れています。
本記事は「大項目」の「ディープラーニングの社会実装に向けて」の内容。
その中でも「AIプロジェクトの進め方」というところに焦点を当ててキーワードを解説していきます。
G検定の大項目には以下の8つがあります。
・人工知能とは
・人工知能をめぐる動向
・人工知能分野の問題
・機械学習の具体的な手法
・ディープラーニングの概要
・ディープラーニングの手法
・ディープラーニングの社会実装に向けて
・数理統計
とくに太字にした「機械学習とディープラーニングの手法」が多めに出るようです。
AIの扱い方というのは、社会全体で「どう扱おうか?」と悩んでいる最中です。
いろんな法律・ルールがあったりしますし、新しいルールが出現したりすることも。
このルールを侵害してしまうと、罰則や信頼低下に繋がってしまいます。
さらにG検定合格にも、この章が肝になってくるようですね。
機械学習やディープラーニングはバッチリなのに法律関連が全然できなくて落ちた、という話も聞きます。
油断せずに行きましょう。
※今回取り上げた法律が変わることもあるということに注意してくださいね。
基本的なところは今回の記事で押さえて、最新版のシラバスを参考に調べることが大切!
今回はAIのビジネス活用や、最近聞くようになった基本的な用語を押さえていきたいと思います。
AI プロジェクト進行の全体像
そもそもAIプロジェクトとは「AIを使って新たな価値創出を行う」という目的を達成するための計画・組織・業務のこと。
AIは流行っているし便利ですが、プロジェクトの進め方を間違ってしまうと、多額のお金を払ったAIが無価値になってしまうこともあります。
そこでAIプロジェクトの進め方、というものを学んでいきましょう。
AI プロジェクト進行の全体像は、以下のようになっています。
大まかには「構想・企画」→「PoC」→「開発・実装」→「運用」という流れで進んでいきます。
ほとんど一般的なプロジェクトの進め方と変わりませんが、PoCは見たことないという方もいるかもしれません。
それぞれの段階で、どんなことを行うのか詳しく見ていきましょう。
構想・企画
構想・企画とは、AIプロジェクトにおいて一番最初に行う「何を解決したいのか」を考える段階。
この段階が無いとAIプロジェクトに限らず、そもそもプロジェクトが始まりません。
考えることは主に以下の4つでしょうか。
・課題は何か(AIによって解決に向かうのか)
・AIに必要なデータは揃っているのか
・責任の所在
・予算、開発期間、リスクなど
一般的なプロジェクトで考える事項に加えて、「AI活用によって価値を生み出せるか」を考えるのが重要ですね。
また、AIに関してのリテラシーや法整備も現在進行中という背景もあります。
つまり、プロジェクトを始める段階で責任の所在を明らかにしておくことも重要ですね(ほかのプロジェクトでも同じだと思いますが)。
PoC
PoCとは導入前に小規模開発を行い、導入が可能かどうか検証を行うこと。
一般的なプロジェクトではあまり聞き慣れない言葉かもしれません。
Proof of Conceptの略で、直訳すると「概念実証」となります。
PoCで行うことは、以下の3つ。
・データがあり、データ量は十分か
・AIの「モックアップ(模型)」を作成する
・AIが機能するかチェックする
AIは最近急速に発展してきているもので、実際に現場に使えるかどうかは検証してみないと分からないことが多いです。
なので一気にAIを導入するのではなく、徐々に取り入れることが重要。
さらに、あくまでも実証実験なので詳細に行うよりもスピーディに行うことがポイントのようですね。
開発・実装
PoCでAIが、課題解決に繋がりそうなことが分かったとしましょう。
そうなれば次は「開発・実装」です。
開発・実装は、実際に自社へ導入するためのAIを開発すること。
名前の通りですね。
PoCで作成したモックアップをもとにして、本格的にAIを開発していきます。
モックアップ時よりもデータ量が必要になることもあるので、データ収集から始まることも。
十分データが集まったら「構想・企画」「PoC」で出てきた問題点を加味しAIを作成。
問題なく稼働するか確認できれば実装し、「運用」の段階へ移行します。
運用
運用は、AIシステムを安定的に稼働させていく段階のこと。
AIを実装した後も重要なのは、データ収集。
AI運用中に発生したデータ(入力データ・AI予測データなど)を収集し、常に最新のデータが集まっている状態が望ましいです。
一般的なプロジェクトと違うのは、「データ収集」は実装したら終わりではないという点。
運用を続けていくと、AIの予測精度が落ちていくことがあります。
この原因の一つに「データ精度の劣化」があるようですね。
AIは良くも悪くもデータが命。
実装後も、AIがきちんと機能しているか観察していくことが重要です。
MLOps (Machine Learning Operations)
MLOpsとは、機械学習モデルを本番環境に実装し、維持・監視のプロセスを効率化する指針のこと。
先ほどまではAIプロジェクトの全体像を見てきました。
MLOpsは「運用」に焦点を当てた指針になります。
基本的な流れはあまり変わらないようですが、以下のようなイメージ。
このように一度運用まで持っていったら終わりではなく、定期的に評価を行い、必要ならばデータ収集に戻って行う必要があります。
CRISP-DM
CRISP-DMはデータ分析プロジェクトに使用する、データ分析をどのように行うかの指針のこと。
直前の章までは「AIプロジェクトの進め方」について触れてきましたね。
CRISP-DMは「データ分析プロジェクト」です。
Cross-Industry Standard Process for Data Miningの略で、行うことは以下の6つ。
・ビジネス課題・目的を理解する
・データを理解する
・データを準備する
・モデルを作成する
・評価する
・展開、共有する
それぞれの関係は以下の図のようになっています。
このように一度モデルを作って評価したら終わりではありません。
上手くいかなければ最初の「ビジネス課題・目的の理解」にまで戻ってやり直すということもあります。
このような「やり直し」「繰り返し」がデータ分析では重要ですね。
BPR
BPRとは、既存の業務プロセスを抜本的に見直して業務内容・組織・システムを再設計すること。
Business Process Re-engineeringの頭文字を取ってBPRです。
業務改善のことでしょ?と思った方は、少し違うかもしれません。
業務改善:部署ごと、組織ごとの業務の一部を改善し無駄を無くす
BPR:組織全体や社内全体に渡って業務プロセスを見直し、再設計すること
業務改善というと、上記のことを指すことが多いのではないでしょうか。
BPRは一部分の改善だけではなく、全体的に大きな変更を加えることで再設計を行うことが目的です。
全体に渡っての変化になるので、組織に混乱が生じたり、莫大な投資額になったりという困難があるようですね。
クラウド
クラウドとは、インターネットを通じてコンピュータ資源をサービスとして受けられること。
コンピュータ資源
データを保存したり(ストレージ)、機械学習に必要な計算資源(CPU, GPU)など計算やコンピュータを使う上で必要な資源のこと
一般的にコンピュータ資源を利用するには、インフラ(PC、サーバー、ネット環境etc…)やソフトウェア(OS、アプリ、ソフトetc…)が必要です。
しかしパソコンにあまり詳しくない人が、これら全てを整えようとすると非常に大変ですよね。
なので「インフラ整備などの面倒くさいことは全てやっておいたので、後は使うだけ!」というのがクラウド。
分かりやすい例だとGoogle cloud、one drive、iCloudで写真などを保存できることでしょうか。
スマホ本体やUSB自体に保存することなく、クラウドに保存できます。
これによってスマホの記憶領域を削減できたり、USBメモリがいらなかったりするわけですね。
Web API
Web APIとは、Web上で使われるAPIのこと。
色んなアプリやソフトはプログラミングによって書かれています。
この機能を利用したいとなったら、ソフトなりアプリを開かなければいけません
しかし、別のアプリBからアプリAの機能を使いたい、みたいな場合が存在します。
その際に便利なのがAPIです。
API
Application Programming Interfaceの略。ソフトの機能などを外部から利用できるようにした仕組み
Web APIは、名前の通り「APIをWeb上で行えるようにしたもの」です。
例えば、Webサイトに位置情報をGoogle mapで確認できる機能があったことはありませんか?
Webサイト上で、Google mapのアプリは開いていません。
しかし、Google mapアプリを開いているように操作できますよね。
このようにアプリやソフトの機能(ex:Google mapアプリ)などをWeb上で利用できるようにした仕組みをWeb APIといいます。
データサイエンティスト
データサイエンティストとは、データを用いてビジネス課題を発見・解決する職業のこと。
本サイトは「初学者がデータサイエンティストを目指す」ためのサイトです。
まさに本サイトで取り上げている内容ですね。
データサイエンティストの関わる業務範囲は広く、以下のようなものがあります。
・ビジネス課題発見、解決
・データ収集
・データ分析
・システム開発
詳しい仕事内容が知りたい方は以下の記事をご覧ください。
プライバシー・バイ・デザイン
プライバシー・バイ・デザインとは、システム開発の全過程で個人情報を保護するための方策を考慮する考え方のこと。
カナダのAnn Cavoukian博士によって、1990年代に提唱されました。
英語ではそのままPrivacy by Designと書かれ「PbD」「PBD」と書かれることもあります。
個人情報を取り扱うシステムを構築する際に、必要となる考え方ですね。
構想段階から個人情報保護のための方策を以下の観点から作りこみます。
・技術面
・運用面
・物理的設計
データの利活用が重要視される中、その取扱い方も日々重要視されるようになってきています。
まとめ
今回は大項目「ディープラーニングの社会実装に向けて」の中の一つ「AIプロジェクトの進め方」についての解説でした。
本記事をまとめると以下の通り。
・PoC
・MLOps(Machine Learning Operations)
・CRISP-DM
・BPR(Business Process Re-engineering)
・クラウド
・Web API
・データサイエンティスト
・プライバシー・バイ・デザイン
以上が大項目「ディープラーニングの社会実装に向けて」の中の一つ「AIプロジェクトの進め方」の内容でした。
G検定では「機械学習」「ディープラーニング」で覚える内容が多いので、どうしてもそちらに注力しがちです。
しかし、G検定合格において落とし穴になるのが本章「ディープラーニングの社会実装に向けて」。
出題率としても高めに設定されていると思うので、全問不正解だと合格は厳しいです。
最低限の重要キーワードだけでも覚えておくことが重要でしょう。
次回は「ディープラーニングの社会実装に向けて」の「AIプロジェクトの進め方」に触れていきたいと思います。
G検定の勉強完了までもう少し!
頑張りましょう!
ではまた~
続きは以下のページからどうぞ!
コメント