G検定｜音声処理①｜A-D変換・FFT・スペクトル包絡などを分かりやすく解説

※本記事はアフィリエイト広告を含んでいます

どーも、りけーこっとんです。

「G検定取得してみたい！」「G検定の勉強始めた！」

このような、本格的にデータサイエンティストを目指そうとしている方はいないでしょうか？

また、こんな方はいませんか？

「なるべく費用をかけずにG検定取得したい」「G検定の内容について網羅的にまとまってるサイトが見たい」

今回はG検定の勉強をし始めた方、なるべく費用をかけたくない方にピッタリの内容。

りけーこっとんがG検定を勉強していく中で、新たに学んだ単語、内容をこの記事を通じてシェアしていこうと思います。

結構、文章量・知識量共に多くなっていくことが予想されます。

そこで、超重要項目と重要項目、覚えておきたい項目という形で表記の仕方を変えていきたいと思いますね。

早速G検定の中身について知りたいよ！という方は以下からどうぞ。

具体的にどうやって勉強したらいいの？
G検定ってどんな資格？

そんな方は以下の記事を参考にしてみてください。

なお、りけーこっとんは公式のシラバスを参考に勉強を進めています。

そこで主な勉強法としては

分からない単語出現　⇒　web検索や参考書を通じて理解　⇒　暗記する

この流れです。

※この記事は合格を保証するものではありません

大項目「ディープラーニングの手法」
A-D変換
パルス符号変調器(PCM)
高速フーリエ変換(FFT)
音韻
音素
スペクトル包絡
メル周波数ケプストラム係数(MFCC)
1. メル尺度
2. ケプストラム
まとめ

大項目「ディープラーニングの手法」

G検定のシラバスを見てみると、試験内容が「大項目」「中項目」「学習項目」「詳細キーワード」と別れています。

本記事は「大項目」の「ディープラーニングの手法」の内容。

その中でも「音声処理と自然言語処理分野」というところに焦点を当ててキーワードを解説していきます。

G検定の大項目には以下の８つがあります。

・人工知能とは
・人工知能をめぐる動向
・人工知能分野の問題
・機械学習の具体的な手法
・ディープラーニングの概要
・ディープラーニングの手法
・ディープラーニングの社会実装に向けて
・数理統計

とくに太字にした「機械学習とディープラーニングの手法」が多めに出るようです。

今回はディープラーニングの手法ということもあって、G検定のメインとなる内容。

ここを理解していないと、G検定合格は難しいでしょう。

ここから先の学習の理解を深めるために、そしてG検定合格するために、しっかり押さえておきましょう。

シラバスはこちらからご覧になれます。

今回は音声処理の基本的な内容、基本的な手法を押さえていきたいと思います。

音声処理は自然言語処理とは少し異なるので、専門の記事を用意しました。

本記事では音声処理を行う上での、基本キーワードを解説していきます。

A-D変換

A-D変換とは、電気信号を変換するための電子回路のこと。

「アナログ-デジタル変換」の頭文字をとって「A-D変換」とも言うようですね。

電気信号というのは

・電流（交流）
・電圧（交流）
・音声
・電波

といった、電子回路上で時間・空間で変化していく量のこと。
以下の図のような波の形で表されることが多いですね。

どういう電気信号を変換するのかは、名前の通りです。

アナログ信号をデジタル信号に変換します。（どっちも電気信号といわれます）

音声処理などでは、特にマイクに入力された音声信号などを変換するときに使うようですね。

アナログ信号とは、信号（数値）の変化が飛び飛びになっていない（連続な）信号のこと。
上図のように、自然現象をそのまま数値（電気信号）化したイメージでしょうか。

デジタル信号とは、0と1だけで表す、信号の変化が飛び飛びになっている（離散的な）信号のことです。

なぜわざわざ変換するかというと、コンピュータ（機械学習もそうです）が扱う値は全て、デジタル信号だから。

変換しないと、そもそもコンピュータは何もできなくなってしまいます。

では、A-D変換の手順をもう少し詳しく見ていきましょう。

１．標本化

標本化とは、アナログデータを一定の間隔で区切ること。

大体は時間で区切るようですね。

一定時間で区切った後は、区切った時間ごとの数値を一つ一つ取り出していきます。

標本化、A-D変換とは？標本化、A-D変換を分かりやすく解説！G検定、りけーこっとん、ひよっこDS

２．量子化

量子化とは、標本化されたアナログデータを離散的な値に変換すること。

標本化だけでは連続的なデータなので、コンピュータで扱いやすいように離散的なデータに直します。

量子化、A-D変換とは？量子化、A-D変換を分かりやすく解説！G検定、りけーこっとん、ひよっこDS

後に「モデルの解釈性・軽量化」の記事でも「量子化」が出てきますが、混同しないように注意してください。

３．符号化

符号化とは、量子化で得られた数値を二進数にすること。

量子化では、離散的なデータになっただけで、0と1のみで表現できているわけではありません。

なので、符号化でデータを二進数に変更し0と1のみで表現します。

符号化、A-D変換とは？符号化、A-D変換を分かりやすく解説！G検定、りけーこっとん、ひよっこDS

パルス符号変調器(PCM)

パルス符号変調器(PCM)とは、アナログ信号をデジタル信号にするための変調方式の1つ。

変調方式というのは、電気信号の周波数や波の大きさを変える（変調する）ことで、電気信号を伝送する方法のことです。

つまり「電気信号の伝え方」みたいなものですね。

なのでPCMは端的に言うと、アナログからデジタル信号に変える方法の一つ、ですね。

高速フーリエ変換(FFT)

高速フーリエ変換(FFT)とは、離散フーリエ変換を計算機上で高速で行うこと。

離散フーリエ変換とは、アナログ信号（元の音声）から離散的な周波数の値に変換することです。

厳密な話をすると非常に難解なので、端的にまとめますね。

イメージは以下のような感じ。

高速フーリエ変換とは？高速フーリエ変換を分かりやすく解説！G検定、りけーこっとん、ひよっこDS

右の線のように波から成分を取り出し、値が離散的になっているグラフをスペクトルといいます。

「この音は、周波数が4Hzと10Hzと…の波が合わさった音なんだな」というような解釈ができるようになります。

ところでコンピュータで数字を扱うには、離散的な数字に必要がありましたね。

つまり周波数は1,2,3,4…Hzというように離散的で、1.5Hzのような中途半端な値は取らないことに注意。

（実際の音声信号は、こんなにきれいに単一の値が出ることはないですが…）

実際の音声を計算するとなると、莫大な計算量が必要になります。

なので、コンピュータに高速でやってもらおうということですね。

音声処理でも音をコンピュータで扱うので、重要な処理になってきます。

音韻

音韻は、語の意味を区別できる音の総称のこと。

例えば「あ・い・う・え・お」は音が全然違うので、区別できますよね。
これらは「音韻が違い」ます。

では英語の「Rack(棚)」と「Lack(不足)」の違いはどうでしょうか。

英語的に（英語圏の人々）は、この二つが区別できるので「音韻が違う」といいます。

一方で日本語ではどちらも「らっく」ですよね。
日本語的には同じ「らっく」で区別できないので「音韻が同じ」といいます。

次に紹介する「音素」と混同しやすいので、注意が必要ですね。

音素

音素は、語の意味を区別できる音の最小単位のこと。

音の最小単位なので、音韻の中に音素があるイメージでしょうか。

ネットで調べてみると「音韻と音素は同じ」という主張もあるので、違いを挙げるとしたらこんなところかな、と思います。

さっきの例だと「Rack」ではなく「Ra」が音素といった感じでしょうか。

これらの文脈で「音声」も似た単語として出てきます。

「音声」とは実際に発生する音のこと。

例えばA君とBちゃんの声は、それぞれ全く異なった「音声」です。

A君とBちゃんが「あ・い・う・え・お」と発音しても「同じ音韻・音素」ではありますが「異なる音声」ですね。

スペクトル包絡

スペクトル包絡とは、フーリエ変換したスペクトルのグラフのピーク部分に線を引いた時の線の「山や谷」のこと。

先ほどのフーリエ変換の時の図、覚えているでしょうか。

スペクトル包絡とは？スペクトル包絡を分かりやすく解説！G検定、りけーこっとん、ひよっこDS

右の線のように波から成分を取り出し、値が離散的になっているグラフをスペクトルというんでしたね。

このスペクトルに以下のような線を引きます。

線には「山」や「谷」がありますね。

これをスペクトル包絡といいます。

これらは、各音韻毎の違いを示しているようですね。

つまり、実際の音声のスペクトル包絡を考えることで、コンピュータで音韻が扱えるようになります。

メル周波数ケプストラム係数(MFCC)

メル周波数ケプストラム係数(MFCC)とは、音声認識の特徴量の1つ。

メルスペクトルにケプストラムを適用したグラフの概形を表す係数のことです。

メルスペクトル・ケプストラムそれぞれ簡単に見ていきましょう。
（G検定にここまでの理解が必要あるかは、微妙なところです）

メル尺度

メルスペクトルのためのキーワードとしてメル尺度があります。

メル尺度とは、人の音声知覚の特徴を考慮した尺度のこと。

メル尺度が同じだと、人が感じる音高の差が同じになります。

これは「これぐらいの音の高さ」という感覚的なものを、数字に落とし込んで計算できるようにしたものですね。

メル尺度を、人が感じる音の周波数に直したものがメル周波数。

出典：https://fast-d.hmcom.co.jp/techblog/melspectrum-mfcc/

このグラフは縦軸が「メル尺度」、横軸が「人が感じる音の周波数」です。

グラフのように「メル尺度」と「人が感じる音の周波数」は対応しているようですね。

この対応関係（メル周波数）をスペクトルに適用すると、メルスペクトルになるようです。

ケプストラム

ケプストラムとは音声認識の特徴量の1つで、以下の手順で得られるグラフのこと。

音声信号をフーリエ変換した時点で、値が離散的なスペクトルを得られます。

そして縦軸に対数を取ります。
対数をとると、普通の軸の取り方（線形的）よりも大きな変化としてとらえられるようになるようですね。

ケプストラムは、異なるスペクトル（周波数）帯における変化の度合いに関する情報が入っています。

スペクトル波形の周期性などを求めることができ、音声処理や地震の解析に使われるようですね。

さて、メル周波数ケプストラム係数(MFCC)に戻っていきましょう。

ケプストラムとメルスペクトルの説明を考慮すると、以下の手順でできるグラフがありますね。

G検定には、この手順を覚えるくらいでいいかもしれません。

メル周波数ケプストラム係数(MFCC)とは？メル周波数ケプストラム係数(MFCC)を分かりやすく解説！G検定、りけーこっとん、ひよっこDS

これでできたグラフをメル周波数ケプストラムといいます。

そして、グラフの概形を示したものがメル周波数ケプストラム係数(MFCC)。

離散コサイン分析に関しては、
「メルスペクトルをより低次元（1~12個の数値）で表すための作業」
くらいで考えるといいかもしれません。

MFCCの形状は音色に依存して変化します。

なのでディープラーニングで抽出する特徴量の一つにすれば、音色が学習できるということですね。

まとめ

今回は大項目「ディープラーニングの手法」の中の一つ「音声処理」についての解説でした。

本記事をまとめると以下の通り。

・A-D変換
・パルス符号変調器(PCM)
・高速フーリエ変換(FFT)
・音韻
・音素
・スペクトル包絡
・メル周波数ケプストラム係数(MFCC)

以上が大項目「ディープラーニングの手法」の中の一つ「音声処理」の内容でした。

ディープラーニングに関しても、細かく学習しようとするとキリがありませんし、専門的過ぎて難しくなってきます。

そこで、強化学習と同じように「そこそこ」で理解し、あとは「そういうのもあるのね」くらいで理解するのがいいでしょう。

そこで以下のようなことが重要になってくるのではないかと。

・ディープラーニングの特徴（それぞれの手法はどんな特徴があるのか）
・それぞれの手法のアルゴリズム（数式を覚えるのではなく、何が行われているか）
・何に使用されているのか（有名なもののみ）

ディープラーニングは様々な手法があるので、この三つだけでも非常に大変です。

しかし、学習を進めていると有名なものは、何度も出てくるので覚えられるようになります。

後は、新しい技術を知っているかどうかになりますが、シラバスに載っているものを押さえておけば問題ないかと。

次回は「ディープラーニングの手法」の「音声処理」の解説第二弾。

覚える内容が多いですが、りけーこっとんも頑張ります！

ではまた～

続きは以下のページからどうぞ！