G検定|データの収集|匿名加工情報・限定提供データなどを分かりやすく解説

G検定、「データの収集」の単語を分かりやすく解説。ひよっこDS、りけーこっとん G検定

※本記事はアフィリエイト広告を含んでいます

どーも、りけーこっとんです。

「G検定取得してみたい!」「G検定の勉強始めた!」

このような、本格的にデータサイエンティストを目指そうとしている方はいないでしょうか?

また、こんな方はいませんか?

「なるべく費用をかけずにG検定取得したい」「G検定の内容について網羅的にまとまってるサイトが見たい」

今回はG検定の勉強をし始めた方、なるべく費用をかけたくない方にピッタリの内容。

りけーこっとんがG検定を勉強していく中で、新たに学んだ単語、内容をこの記事を通じてシェアしていこうと思います。

結構、文章量・知識量共に多くなっていくことが予想されます。

そこで、超重要項目重要項目覚えておきたい項目という形で表記の仕方を変えていきたいと思いますね。

早速G検定の中身について知りたいよ!という方は以下からどうぞ。

具体的にどうやって勉強したらいいの?
G検定ってどんな資格?

そんな方は以下の記事を参考にしてみてください。

なお、りけーこっとんは公式のシラバスを参考に勉強を進めています。

そこで主な勉強法としては

分からない単語出現 ⇒ web検索や参考書を通じて理解 ⇒ 暗記する

この流れです。

試験日は2022年7月2日。(記事の更新は間に合いませんでした)

残り一か月強で、知識0から合格できるかはわかりませんが、頑張りたいと思います。

皆さんも一緒に頑張りましょう!

※この記事は合格を保証するものではありません

大項目「ディープラーニングの社会実装に向けて」

G検定のシラバスを見てみると、試験内容が「大項目」「中項目」「学習項目」「詳細キーワード」と別れています。

本記事は「大項目」の「ディープラーニングの社会実装に向けて」の内容。

その中でも「データの収集」というところに焦点を当ててキーワードを解説していきます。

G検定の大項目には以下の8つがあります。

・人工知能とは
・人工知能をめぐる動向
・人工知能分野の問題
・機械学習の具体的な手法
・ディープラーニングの概要
・ディープラーニングの手法
・ディープラーニングの社会実装に向けて
・数理統計

とくに太字にした「機械学習とディープラーニングの手法」が多めに出るようです。

AIの扱い方というのは、社会全体で「どう扱おうか?」と悩んでいる最中です。

いろんな法律・ルールがあったりしますし、新しいルールが出現したりすることも。

このルールを侵害してしまうと、罰則や信頼低下に繋がってしまいます。

さらにG検定合格にも、この章が肝になってくるようですね。

機械学習やディープラーニングはバッチリなのに法律関連が全然できなくて落ちた、という話も聞きます。
油断せずに行きましょう。

※今回取り上げた法律が変わることもあるということに注意してくださいね。
基本的なところは今回の記事で押さえて、最新版のシラバスを参考に調べることが大切!

シラバスはこちらからご覧になれます。

今回はデータ収集に関するデータ収集場所や法律を見ていきたいと思います。

オープンデータセット

オープンデータセットとは、自由に使えて再利用もでき、かつ誰でも再配布できるようなデータのこと

世の中には様々なオープンデータセットがあります。

画像・動画・音声・テキストなどに特化したデータセットもあれば、様々データが集まっているデータセットもあります。

画像に特化したデータセット

・MNIST
手書き数字の画像のデータセット

・CIFAR-10 / CIFAR-100
10や100はクラス数。CIFAR-10はクラスごとに6000枚、CIFAR-100はクラスごとに600枚のイメージ画像がある

・Fashion-MNIST
Tシャツ、スニーカーなど10個のクラスを持ったデータセット

・ImageNet
1400万枚以上のデータセットであり、画像認識の精度の高さを競う大会で用いられる

動画に特化したデータセット

・YouTube-8M Dataset
800万本のYouTube動画データセット。人間がラベル付けした1000クラスのラベルを持つ

・YouTube-BoundingBoxes Dataset
YouTubeの動画にバウンディングボックスが付与されたデータセット。

音声に特化したデータセット

・AudioSet
10秒程度に人の声や動物の鳴き声などがラベル付けされたデータセット。

・Speech Commands Dataset
Tensorflow向けの声のデータセット。65000個のデータセットが含まれる。

テキストに特化したデータセット

・青空文庫
著作権の消滅・作者が許諾した作品のデータを公開。

・livedoorニュースコーパス
livedoorの記事のコーパス(文字・言葉を大量に集め、検索・分析できるようにしたもの)。

・Web Data: Amazon reviews
Amazonの商品レビューを3500万件ほど公開したデータセット。

総合的なデータセットとしては以下のような感じ。

総合的なデータセット

・Kaggle
本来は予測精度や分析結果を競い合うプラットフォーム。しかし様々なデータセットも獲得可能。

・e-stat
日本の統計情報が確認できる政府統計ポータルサイト。

・DATA GO JP
二次利用が可能な公共データの検索などができるウェブサイト。日本政府が公開しており、本サイトを軸に調べるのも一つの手である。

上記で紹介したもの以外にも、たくさんの種類があります。

実際に分析したり、練習したかったりするときは、使ってみると良いでしょう。

個人情報保護法

個人情報保護法とは、個人情報の取り扱い方を定めた法律のこと。

個人情報を、法律に沿ってきちんと扱いましょうね、ということです。

名前の通りではありますが「個人情報」とはいったい何を指すのでしょうか。

厳密な定義は以下の通り。

「生存する個人に関する情報であって、その情報に含まれる氏名、生年月日その他の記述等により当該情報が誰の情報であるかを識別することができるもの(他の情報と容易に照合することができ、それにより個人が誰であるかを識別することができることとなるものを含む。)」
引用:東京都庁 「個人情報」とは?(第二条)より

名前や生年月日など、「ある個人」に特定できてしまう情報のことですね。

実はこの「個人情報保護法」、2017年に改正されているんです。

AIを扱う人たちにとって、とても重要な内容なので何がポイントなのか見ていきましょう。

匿名加工情報

匿名加工情報とは、個人を識別できないように個人情報を加工した情報のこと。

基本的に個人情報というのは、第三者提供が認められていません。

例えば「地図を作る目的で得た個人の位置情報」は「その位置情報を利用したAI開発」などには使えないんです。

一つの目的で集めた情報は、その目的のためにしか使ってはいけないんですね。

他目的に使いたい場合は、個人の許可を取らなければいけません。

ただ最近の状況を見ても、情報がスムーズに提供・やり取りできないのは不便。

そこで「個人情報を復元できない状態」にすれば、第三者提供や他の目的に使ってもOKという情報が匿名加工情報です。

「個人情報を復元できない状態」にする技術をk-匿名化と言ったりします。

また、最近のAI開発のために「仮名加工情報」もありますが、シラバスにはないので割愛しますね。

要配慮個人情報

要配慮個人情報とは、個人情報の中でも特に注意して取り扱わなければならない情報のこと。

東京都庁の情報には以下のようなものが挙げられています。

・人種
・信条
・社会的身分
・病歴
・犯罪の経歴
・犯罪により害を被った事実

引用:東京都庁 「個人情報」とは?(第二条)より

これらの情報取得には、本人の同意が必要になるようですね。

機微情報

機微情報とは、要配慮個人情報よりも広い定義の、個人情報の中でも特に注意して取り扱わなければならない情報のこと。

「要配慮個人情報」と似ているので、注意が必要です。

機微情報は要配慮個人情報に加え以下のデータが含まれます。

・労働組合への加盟

・門地
「家柄」のことで、人の生まれで生じる社会的地位のこと

・本籍地

・保健医療
※要配慮個人情報にも適用される情報もあります

・性生活

不正競争防止法

不正競争防止法とは、会社・事業者同士で公正な競争をしようとする法律のこと。

不正して競争に勝ってはいけませんよ、ってことですね。

AIに関する事項としては、何が関係あるのでしょうか。

一定の要件を満たしたデータは、不正に取得・使用することに対して差止請求など民事措置を取れます。

一定の要件というのは、以下に当てはまるデータだった場合のこと。

・限定提供データ
・営業秘密

この二つのデータを不正に取得・使用してはいけませんよ、ということです。

それぞれどういうデータなのか、見ていきましょう。

限定提供データ

限定提供データは、以下の条件を満たす技術上・営業上の情報のこと。

・業として特定の者に提供される情報(限定提供性)

・電磁的方法で相当量蓄積されている(相当蓄積性)

・電磁的方法で管理されている(電磁的管理性)

りけーこっとん的に分かりやすく言うと

「パスワードなどで管理された、三次元地図データなどの利用できる人が限定されたデータ」

のことかと思われます。

結構な量があって、使える人が限定されたデータですので、不正に使用してはいけません。

当然といえば当然ですよね。

営業秘密

営業秘密とは、以下の条件を満たす情報のこと。

・事業活動に有用な情報(有用性)

・該当情報を秘密にしようとしていて、営業秘密であることが認知できる(秘密管理性)

・一般的には入手できない(非公知性)

参考:https://www.meti.go.jp/policy/economy/chizai/chiteki/trade-secret.html

「秘密管理性」というのが、少しわかりにくいですね。

まず、企業側が「この情報は営業秘密として管理する」という意思がないといけません。(秘密管理意思)

その上で、情報を扱う人が「この情報は営業秘密だ」と分からなければいけないんです。

これを秘密管理性といいます。

学習用データなどのデータ、プログラムを保護できる法律のようですね。

知的財産権

知的財産権とは、新しい創作物を「創作した人のものです」と守る法律のこと。

AIに関連する「創作物」が、どういった扱いになるのかが議論されているようです。

例えば以下のようなものがあります。

・学習用データ

・学習済みモデル

・AIの生成物

知的財産権の中でも、特に重要な法律が「著作権法」「特許法」です。

後の記事でも解説しますが、本記事でも軽く触れておきたいと思います。

著作権法

著作権法とは、思想や感情を表現した創作的表現を保護する法律のこと。

文芸・学術・美術などがあるようです。

登録の必要はなく、作成した時点で権利が発生。

AIに関する保護対象は、モデルがあるようですね。

学習済みモデルの利用者に創作意図があり、かつ創作的寄与がある場合認められるようです。

以下で紹介する「特許法」と混同しやすいので、注意しましょう。

特許法

特許法とは「発明」を保護し、「創作的思想」を保護する法律のこと。

著作権と比較すると、厳しい審査を経て登録しなければならない点で異なります。

また、「創作的表現(文芸・美術など表現物)」ではなく「創作的思想(アイディア)」を保護するという点でも異なりますね。

特許法には以下のような特徴があります。

・取得には「新規性」「進歩性」「産業上利用可能性」の条件を満たす必要あり
・特許出願前に海外で実施された発明に、新規性はないと見なされる
・存続期間は特許出願の日から20年
・特許の出願は、出願日から一定期間経つと公開
・特許権者は業として、特許発明の実施をする権利がある
・学習用データなどのデータ、プログラムを保護できる法律

AIに関する点としては、最後の特徴でしょうか。

データやプログラムも保護対象になるため、G検定に出題されるようです。

まとめ

今回は大項目「ディープラーニングの社会実装に向けて」の中の一つ「データの収集」についての解説でした。

本記事をまとめると以下の通り。

オープンデータセット
個人情報保護法
匿名加工情報
不正競争防止法
限定提供データ

営業秘密
知的財産権
著作権法
特許法

以上が大項目「ディープラーニングの社会実装に向けて」の中の一つ「データの収集」の内容でした。

G検定では「機械学習」「ディープラーニング」で覚える内容が多いので、どうしてもそちらに注力しがちです。

しかし、G検定合格において落とし穴になるのが本章「ディープラーニングの社会実装に向けて」。

出題率としても高めに設定されていると思うので、全問不正解だと合格は厳しいです。

最低限の重要キーワードだけでも覚えておくことが重要でしょう。

次回は「ディープラーニングの社会実装に向けて」の「データの収集」第二弾。

G検定の勉強完了までもう少し!
頑張りましょう!

ではまた~

続きは以下のページからどうぞ!

コメント

タイトルとURLをコピーしました