ピッチ、フォルマントとは??
おはよう!!! ( ᐢ˙꒳˙ᐢ ) 小栗さえだよ~~~!!
ボイチェンアドベントカレンダー4日目!「ピッチ、フォルマントとは??」の回です!
今回は実用的なワザとか検証ではなくて、お勉強がメインの話になります!
声のお話
ピッチってなに??
ボイスチェンジャーにおけるピッチとは、声の基音(一番強く鳴っている周波数)のことです。
一般的な男性の地声の基音は-1282.8Cent、女性の地声の基音は-23.3Centとなっています。(CentとはHzとは異なる音高の単位です) その差は1259.5Centで、男女の地声はちょうど1オクターブ(1200Cent)離れていると言えるようです。
つまり「意識して高めに出した地声+ボイチェン」で基音を1オクターブ上げることができれば、女性のピッチになったと言えます!
ですがこれだけでは女性のピッチになっただけで、女声には聞こえません。
次に説明するフォルマントというものも、声の男女差に大きく影響しています。
フォルマントってなに??
ボイスチェンジャーにおけるフォルマントとは、声質(男性らしさ、女性らしさ)になります。 この仕組みを正しく理解するためには、音声学のフォルマントを説明する必要があります。
音声学の世界ではフォルマントとは、音の各倍音(整数次倍音成分)の大きさ(特性)ことを指します。 人間の声には倍音が含まれており、基音と基音の整数倍の周波数帯が大きく鳴っている波形になります。
その大きく鳴っている周波数帯を低い方から順に第一フォルマント、第二フォルマントと名前を付けたものの集合がフォルマントになります。
音楽の世界ではフォルマント特性のことを音色と呼んだりもします。
人間の声とフォルマントの関係性
第一フォルマントと第二フォルマントは発音の母音(a/i/u/e/o)を決定づける要素となります。 そして第三フォルマント以降の成分は発音には影響しませんが、男女差やそれぞれの人の声の特徴を形作ると言われています。
フォルマントに関する性差については、男性より女性の方が約18%ほど高く、成人男性と子供を比べると子供の方が30数%ほど高くなるという研究結果があります。 ボイチェンにおける妥当なフォルマントの設定値が10~30%であることでも裏付けられそうです。
ピッチ、フォルマント以外の声の性差について
ボイスチェンジャーで設定可能なピッチとフォルマント以外にも、声に関する男女の性差は以下のようなものがあります。
- イントネーション(抑揚)、感情の起伏
- 語彙力、表現力、文法
- 間の取り方、呼吸
- 感嘆やリアクション
- ボディーランゲージ(表情、しぐさ)
今回は詳しく説明しませんが、こちらの要素を女性らしく寄せるだけでも雰囲気が大きく変わります。 男性感の残る喋り方も味はありますが、その分声自体の女性感に大きく依存することになるので、双方のバランスを取っていくとよさそうです。
ピッチシフト/フォルマントシフトって何をしてるの?
ここではピッチシフト、フォルマントシフトに使われている技術の概要を説明します! 使われている技術の概要だけでも知っておくと、うまくボイチェンが効かない時に原因の予測ができたりするかもしれません。
ピッチシフトやフォルマントシフトは、以下の音声変調技術の組み合わせで実現しています。
リサンプリング
リサンプリングとは元の音声を線形に補完してサンプル数を変えることです。
サンプル数を変えたデータを元の再生サンプリングレートで再生することで、ピッチを変化させることができますが、同時に再生速度も変わってしまいます。
波形を拡大縮小するような変換になるので、高周波成分ほど振幅が増幅されてフォルマントも連動して上がってしまいます。
タイムストレッチ
タイムストレッチとは、音程(ピッチ)を変えずに音声の尺を伸ばす処理のことです。 タイムストレッチには、SOLAを使う方法とフェーズヴォコーダを使う方法などがあります。
SOLA
SOLAは細かい単位で波形をコピーして全体の尺を稼ぐ方法です。
例えば「あいうえお」という音声を「ああいいううええおお」とコピーすることで音声尺が2倍になります。
ピッチを高く変更する場合は、時間当たりのコピーの間隔を増やせばよいです。
リサンプリングのように波形を縮小しているわけではないので、フォルマント成分の比率は変わりません。
実際の音声データは滑らかな波形なので、「あいうえお」のように綺麗に複製できません。 そのためいかにコピーする起点/終点をうまく見つけるか、コピーしたつなぎ目を滑らかにするか、複製の間隔をこまかくするかといった点で、品質に差が出てしまいます。 また処理の品質を上げると、必要な処理は増えて処理遅延が発生するので、遅延やCPU負荷との戦いにもなります。
TD-PSOLA
TD-PSOLA(Time-Domain Pitch Synchronous Overlap and Add: 時間領域ピッチ同期重畳加算
フェーズヴォコーダー
フェーズヴォコーダー(Phase Vocoder)は細かく分けた音声ごとに特徴を抽出して、それに対して数学的な変換をかけるという方法です。
Pitch Shifting and Time Dilation Using a Phase Vocoder in MATLAB - MATLAB & Simulink - MathWorks 日本
フェーズヴォコーダーのタイムストレッチは基音の推定などが不要なため、SOLAに比べて多重音声に強いという特徴があります。
従来フェーズボコーダーでのピッチシフトはリサンプリングのようにフォルマント成分も変わってしまいましたが、2017年にフォルマント構造を維持した高速な処理についての論文が出たようです。もう実用化されているのかな?
https://www.isca-speech.org/archive/Interspeech_2017/pdfs/2028.PDF
また今年の10月に、50年間にわたり解明されてなかった逆高速フーリエ変換がついに解明されたらしいので、更なる高速化に期待です!
50年来の信号処理に関する謎が解かれる、逆高速フーリエ変換がついに一般化 | fabcross for エンジニア
おわりに
ということで、今回はピッチとフォルマントに関するお話しでした!
音声学や音響学の話になってちょっと大変だけど、ボイチェンやるなら知ってるに越したことはないはず!
詳しく知ろうとすると数学とかプログラミングの話が出てきて沼ってしまうので注意です。 記事書くために調べ直してたら大変だった.. (๑°ㅁ°๑)
次回は「オーディオインターフェース」について解説してみるよ!お楽しみに!