※本記事はアフィリエイト広告を含んでいます
どーも、りけーこっとんです。
「G検定取得してみたい!」「G検定の勉強始めた!」
このような、本格的にデータサイエンティストを目指そうとしている方はいないでしょうか?
また、こんな方はいませんか?
「なるべく費用をかけずにG検定取得したい」「G検定の内容について網羅的にまとまってるサイトが見たい」
今回はG検定の勉強をし始めた方、なるべく費用をかけたくない方にピッタリの内容。
りけーこっとんがG検定を勉強していく中で、新たに学んだ単語、内容をこの記事を通じてシェアしていこうと思います。
結構、文章量・知識量共に多くなっていくことが予想されます。
そこで、超重要項目と重要項目、覚えておきたい項目という形で表記の仕方を変えていきたいと思いますね。
早速G検定の中身について知りたいよ!という方は以下からどうぞ。
具体的にどうやって勉強したらいいの?
G検定ってどんな資格?
そんな方は以下の記事を参考にしてみてください。
なお、りけーこっとんは公式のシラバスを参考に勉強を進めています。
そこで主な勉強法としては
分からない単語出現 ⇒ web検索や参考書を通じて理解 ⇒ 暗記する
この流れです。
試験日は2022年7月2日。(記事の更新は間に合いませんでした)
残り一か月強で、知識0から合格できるかはわかりませんが、頑張りたいと思います。
皆さんも一緒に頑張りましょう!
※この記事は合格を保証するものではありません
大項目「ディープラーニングの社会実装に向けて」
G検定のシラバスを見てみると、試験内容が「大項目」「中項目」「学習項目」「詳細キーワード」と別れています。
本記事は「大項目」の「ディープラーニングの社会実装に向けて」の内容。
その中でも「AIと社会」というところに焦点を当ててキーワードを解説していきます。
G検定の大項目には以下の8つがあります。
・人工知能とは
・人工知能をめぐる動向
・人工知能分野の問題
・機械学習の具体的な手法
・ディープラーニングの概要
・ディープラーニングの手法
・ディープラーニングの社会実装に向けて
・数理統計
とくに太字にした「機械学習とディープラーニングの手法」が多めに出るようです。
AIの扱い方というのは、社会全体で「どう扱おうか?」と悩んでいる最中です。
いろんな法律・ルールがあったりしますし、新しいルールが出現したりすることも。
このルールを侵害してしまうと、罰則や信頼低下に繋がってしまいます。
さらにG検定合格にも、この章が肝になってくるようですね。
機械学習やディープラーニングはバッチリなのに法律関連が全然できなくて落ちた、という話も聞きます。
油断せずに行きましょう。
※今回取り上げた法律が変わることもあるということに注意してくださいね。
基本的なところは今回の記事で押さえて、最新版のシラバスを参考に調べることが大切!
今回はデータの加工・分析・学習に関する基本的な用語を押さえていきたいと思います。
アノテーション
アノテーションとは、あるデータに対して関連する情報(メタデータ)を注釈として付与すること。
簡単に言うと「教師データ作成」になります。
言葉の説明だけじゃ分かりにくいですね。
具体例を挙げると以下の通り。
●画像分野
・画像分類
画像一枚一枚に移っている物体の名前をタグ付け。
ex)猫、犬、車、飛行機、机、カレー etc…
・物体検出
物体の移っている領域(バウンディングボックス)と、その物体名をタグ付け。
ex)四角領域1は「猫」、四角領域2は「車」 etc…
・セマンティックセグメンテーション
物体の移っている領域(ピクセル)と、その物体名をタグ付け。
ex)領域1は「猫」、領域2は「車」 etc…
●自然言語分野
・テキスト
特定のテキストや文言・要約などに、事前に決めたルールに従ってタグをつける。
ex)文書内容はどんな感情か、文書の中から「車、猫」という単語を抽出 etc…
・音声
音自体にタグ付けを行う場合と、発した言葉の意味にタグ付けを行う場合がある。
ex)この音は「あ」と言っている、発した言葉は「カレー」である etc…
このように、教師データ(正解データ、ラベル)を作成する際に行われます。
匿名加工情報
匿名加工情報とは、特定の個人が分からないように加工した情報のこと。
以前に以下の記事でも紹介していますが、もう少し詳しく書きたいと思います。
基本的に個人情報というのは、第三者提供が認められていません。
他目的に使いたい場合は、個人の許可を取らなければいけないんです。
しかしAIや情報技術が急速に発展している現代には、そぐわないようにも見えますよね。
そこで許可を得なくても第三者に提供できるのが「匿名加工情報」。
一度暗号化すれば、復元することはできません。
主に以下のことを行って、暗号化しています。
・記述の一部を削除、置き換え
・個人識別符号の全部を削除・置き換え
個人識別符号にはたくさんのものが定義されています。
DNA、顔、指紋、声紋、虹彩、個人番号、基礎年金番号 etc…
必要に応じて調べてみてくださいね。
また、匿名加工情報の暗号技術にもいろんなものがあります。
・k-匿名化
・トップコーディング
・項目削除
・一般化
・ノイズ付加
・疑似データ生成
これらを駆使して、個人情報を復元できないように加工します。
カメラ画像利活用ガイドブック
カメラ画像利活用ガイドブックとは、カメラ画像を商用目的で使用する際に配慮するべき事項をまとめたガイドブック。
経産省、総務省、IoT推進コンソーシアムが定めたものです。
2017年に策定し、2018年にver2.0策定、2022年にver3.0が策定されています。
生活者の間で、カメラ画像の使い方に不安がある、というところから策定に繋がったようですね。
詳しくは以下のリンクから確認してみてください。
カメラ画像利活用ガイドブックver3.0 https://www.meti.go.jp/press/2021/03/20220330001/20220330001.html
ELSI
ELSIとは、Ethical(倫理的)・Legal(法的)・Social(社会的)・Issues(問題)の頭文字をとったもの。
AIなどの新技術を開発し、社会実装する際に考えるべき課題のことを指しています。
社会実装時には、新技術の技術面の課題以外にもあらゆる課題を考えなければいけません。
・Ethical(倫理的)
人々が守るべき規範のこと。新技術(AI、遺伝子、医療etc…)には新たな倫理観を求められることも。
・Legal(法的)
新技術のための法律整備のこと。現行の法律では対応できないことがある。
・Social(社会的)
社会が受け入れるかどうか。受容されていないと、ネット上で炎上したりすることも。
以下からはデータ分析によく使うツールを解説していきたいと思います。
ライブラリ
ライブラリとは、プログラミングでよく使うものを再利用しやすいようにした機能のこと。
プログラミングをやっていない人には、あまりピンと来ないかもしれません。
イメージ的には以下のような感じ。
このように行いたい計算や処理の実装を、他から持ってくるだけで行えます。
例えば「機械学習」「特殊な計算」をしたい場合は、そのライブラリを持ってこれば「特殊な計算」も「機械学習」も行えるという感じ。
データ分析・AIに限らず、プログラミング全体で一般的な言葉ですね。
特にAIやデータ分析では、ライブラリを使いこなすことが重要。
機械学習を0からプログラミングするとなると、難しい上に時間もかかってしまいます。
そこで「ライブラリ」を使えば、既存の機械学習のプログラムを簡単に利用可能です。
データ分析やAIを扱う際には必須ですね。
Python
Python(パイソン)とは、プログラミング言語の一種。
データ分析やAIを扱う人は、ほぼ全員といっていいほど使用しています。
理由としては機械学習のライブラリが豊富だから。
世界的にも人気のある言語であり、データ分析やAIを扱う方には必須のスキルといえるでしょう。
Docker
Docker(ドッカー)とは、コンテナ仮想化を用いてアプリケーションを開発するためのオープンプラットフォームのこと。
AIなどを開発する際に便利な開発環境を構築できるツール、といったところでしょうか。
AIやソフトウェアを開発する際には、色んなOSやライブラリなどを使用します。
その開発に使用したOSやライブラリって、ダウンロードするなりして環境構築したら、そのままにしておきたいですよね。
そこで重要になるのが「仮想化技術」。
仮想化技術がないと別の作業や開発を同じパソコンでできません。
OSやライブラリが違うので、ダウンロードしなおさなきゃいけないんですね。
さすがに作業が変わるたびにダウンロードするのは面倒くさい。
しかし仮想化技術があると、一つのパソコン上で複数の作業や開発ができるようになります。
よく比較される「ハイパーバイザー型」と比べると、以下のような感じ。
(G検定ではハイパーバイザー型を詳しく知る必要はありません。)
しかも作業するパソコンのOSが変わっても動かせます。
これはアプリを配布したり、複数人で開発するときに便利なんですね。
Windowsで開発していたアプリや開発環境をMacOSでも使えます。
AIやデータ分析業務は、複数人で行うことが主ですから、簡単に環境構築や配布ができることはありがたいことなんです。
Jupyter Notebook
Jupyter Notebook(ジュピターノートブック)は、Pythonの開発環境の一つ。
通常、プログラミングというのは「コマンドプロンプト」や「ターミナル」といったもので行っていました。
PCのアプリの検索で「コマンドプロンプト」や「ターミナル」と検索すると、どのパソコンにも大体入ってると思います。
これらを使いこなせれば問題ないんですが、りけーこっとんみたいな初心者には無理がありますね。
そこで、より扱いやすい・コードを書きやすい環境になっているのが「Jupyter Notebook」。
このように文章を書くような感じで、プログラミングコードを書けます。
またプログラミング実行後には、すぐに結果が表示されるなど、プログラミングしやすい環境になっているようです。
説明可能AI(XAI)
説明可能AI(XAI)とは、予測結果や推定結果に至るプロセスを人間が説明できる機械学習のモデルのこと。
AIというのは中身が複雑すぎて、人間が理解するのはほぼ不可能です。
機械学習の中には人間が理解しやすいものもありますが、ディープラーニングなどは超複雑。
しかし、ビジネスの現場などでは「なぜそういう結果になったのか」を説明しなければならない場面が多くあります。
結果に至った根拠を説明できないと、本当に信頼できるかなどが分からないんですね。
特に重要な判断の際には、理由を説明できなければなりません。
そこでディープラーニングなどでも、結果に至った根拠が分かるようにするのが説明可能なAI(XAI)。
Explainable AIの略で、DARPA(アメリカ国防高等研究計画局)などが投資を発表しています。
フィルターバブル
フィルターバブルとは、ユーザーが見たい・触れたい情報のみに囲まれてしまう事。
イーサイパリサーの著書名から名付けられたようです。
例えばGoogle検索って、自分の興味のあることしか検索しようと思わないですよね。
いきなり「インドの今日の天気」や「日本の石油輸入量」なんて調べようとも思わないはずです。
「日本の芸能人・インフルエンサーについて」や「日本の今日のニュース」などを検索しますよね。
すると、自分の見たい・触れたい情報のみに囲まれることが分かるでしょうか。
別によくない?と思う人もいると思います。
しかし、見たい情報だけに触れるということは偏った情報しか得られない、ということです。
正確な情報を手に入れたい時に、一つの意見・情報ばかり集めていては正しい判断ができません。
最近ではYouTubeやAmazonなどのレコメンド機能も優秀になってきているので、よりフィルターバブルが起きやすい状況。
多種多様な情報を手に入れることを意識したいですね。
FAT
FATとは、AIの利活用などにおいて社会が考慮するべき原則のうちの一つ。
Fairness、Accountability、Transparencyの略で、日本語訳で「公平性、説明責任、透明性」という意味です。
内閣府によって検討された「人間中心のAI社会原則」の基本原則の一つのようですね。
「人間中心のAI社会原則」とは、社会がAIを適切に利用するための基本原則。
AIは構造が複雑なため、中身が分からなくなりがちです。
そこでAIがなぜその結果を出したのか等、「説明責任・透明性」などが大事になってきます。
根拠・理由が分からないと、意思決定をしにくいからですね。
決断を間違えてしまう可能性だってあります。
そのため、内閣府が「AIを社会に導入するために、これに注意すると良いよね」を定めたわけです。
PoC
PoCとは、新しいアイディアが実現可能かを目的とした、試作開発前に行う簡単な実証のこと。
主に行うことは以下のような感じ。
・目的達成や課題解決のための仮説をたてる
・仮説が有効な手段かどうか、技術的に実現可能かどうかを検証
Proof of Conceptの略で、日本語では「概念実証」とも言われます。
新規性・革新性の高いビジネスに用いられることが多いようですね。
そこで最近のAIを用いたビジネスなどにも利用されるようです。
課題解決のためにAIを使いたい。
しかし結局はやってみないと分からない部分も多いですよね。
なので小規模で実際にやってみて、使えそうなら本番のプロジェクトにする流れが一般的なようです。
まとめ
今回は大項目「ディープラーニングの社会実装に向けて」の中の一つ「データの加工・分析・学習」についての解説でした。
本記事をまとめると以下の通り。
・アノテーション
・匿名加工情報
・カメラ画像利活用ガイドブック
・ELSI
・ライブラリ
・Python
・Docker
・Jupyter Notebook
・説明可能AI(XAI)
・フィルターバブル
・FAT
・PoC
以上が大項目「ディープラーニングの社会実装に向けて」の中の一つ「データの加工・分析・学習」の内容でした。
G検定では「機械学習」「ディープラーニング」で覚える内容が多いので、どうしてもそちらに注力しがちです。
しかし、G検定合格において落とし穴になるのが本章「ディープラーニングの社会実装に向けて」。
出題率としても高めに設定されていると思うので、全問不正解だと合格は厳しいです。
最低限の重要キーワードだけでも覚えておくことが重要でしょう。
次回は「ディープラーニングの社会実装に向けて」の「実装・運用・評価」に触れていきたいと思います。
G検定の勉強完了までもう少し!
頑張りましょう!
ではまた~
続きは以下のページからどうぞ!
コメント