声のお話

ピッチってなに？？

ボイスチェンジャーにおけるピッチとは、声の基音(一番強く鳴っている周波数)のことです。

一般的な男性の地声の基音は-1282.8Cent、女性の地声の基音は-23.3Centとなっています。（CentとはHzとは異なる音高の単位です）その差は1259.5Centで、男女の地声はちょうど1オクターブ（1200Cent）離れていると言えるようです。

声の高さの実測調査/愛知学泉大学

つまり「意識して高めに出した地声＋ボイチェン」で基音を1オクターブ上げることができれば、女性のピッチになったと言えます！

ですがこれだけでは女性のピッチになっただけで、女声には聞こえません。
次に説明するフォルマントというものも、声の男女差に大きく影響しています。

フォルマントってなに？？

ボイスチェンジャーにおけるフォルマントとは、声質（男性らしさ、女性らしさ）になります。この仕組みを正しく理解するためには、音声学のフォルマントを説明する必要があります。

音声学の世界ではフォルマントとは、音の各倍音（整数次倍音成分）の大きさ（特性）ことを指します。人間の声には倍音が含まれており、基音と基音の整数倍の周波数帯が大きく鳴っている波形になります。

その大きく鳴っている周波数帯を低い方から順に第一フォルマント、第二フォルマントと名前を付けたものの集合がフォルマントになります。
音楽の世界ではフォルマント特性のことを音色と呼んだりもします。

人間の声とフォルマントの関係性

第一フォルマントと第二フォルマントは発音の母音（a/i/u/e/o）を決定づける要素となります。そして第三フォルマント以降の成分は発音には影響しませんが、男女差やそれぞれの人の声の特徴を形作ると言われています。

フォルマントに関する性差については、男性より女性の方が約18%ほど高く、成人男性と子供を比べると子供の方が30数％ほど高くなるという研究結果があります。ボイチェンにおける妥当なフォルマントの設定値が10~30%であることでも裏付けられそうです。

歌声の科学 - Google ブックス

ピッチ、フォルマント以外の声の性差について

ボイスチェンジャーで設定可能なピッチとフォルマント以外にも、声に関する男女の性差は以下のようなものがあります。

イントネーション（抑揚）、感情の起伏
語彙力、表現力、文法
間の取り方、呼吸
感嘆やリアクション
ボディーランゲージ（表情、しぐさ）

今回は詳しく説明しませんが、こちらの要素を女性らしく寄せるだけでも雰囲気が大きく変わります。男性感の残る喋り方も味はありますが、その分声自体の女性感に大きく依存することになるので、双方のバランスを取っていくとよさそうです。

ピッチシフト/フォルマントシフトって何をしてるの？

ここではピッチシフト、フォルマントシフトに使われている技術の概要を説明します！使われている技術の概要だけでも知っておくと、うまくボイチェンが効かない時に原因の予測ができたりするかもしれません。

ピッチシフトやフォルマントシフトは、以下の音声変調技術の組み合わせで実現しています。

リサンプリング

リサンプリングとは元の音声を線形に補完してサンプル数を変えることです。

サンプル数を変えたデータを元の再生サンプリングレートで再生することで、ピッチを変化させることができますが、同時に再生速度も変わってしまいます。
波形を拡大縮小するような変換になるので、高周波成分ほど振幅が増幅されてフォルマントも連動して上がってしまいます。

タイムストレッチ

タイムストレッチとは、音程（ピッチ）を変えずに音声の尺を伸ばす処理のことです。タイムストレッチには、SOLAを使う方法とフェーズヴォコーダを使う方法などがあります。

SOLA

SOLAは細かい単位で波形をコピーして全体の尺を稼ぐ方法です。

例えば「あいうえお」という音声を「ああいいううええおお」とコピーすることで音声尺が２倍になります。

ピッチを高く変更する場合は、時間当たりのコピーの間隔を増やせばよいです。
リサンプリングのように波形を縮小しているわけではないので、フォルマント成分の比率は変わりません。

実際の音声データは滑らかな波形なので、「あいうえお」のように綺麗に複製できません。そのためいかにコピーする起点/終点をうまく見つけるか、コピーしたつなぎ目を滑らかにするか、複製の間隔をこまかくするかといった点で、品質に差が出てしまいます。また処理の品質を上げると、必要な処理は増えて処理遅延が発生するので、遅延やCPU負荷との戦いにもなります。

TD-PSOLA
TD-PSOLA(Time-Domain Pitch Synchronous Overlap and Add: 時間領域ピッチ同期重畳加算

タイムストレッチ、ピッチシフトのアルゴリズム

PSOLAによる女声変換の実演