「VOICE AVATAR 七声ニーナ」で使われる音声変換の話

by Keisuke Takiguchi | May 20, 2021
artificial-intelligence | #ai #deep learning #voice-conversion #voice avatar

こんにちは、データ統括部 AI 研究開発部第二グループの滝口です。この記事では、DeNA での音声変換に関する取り組みと、「VOICE AVATAR 七声ニーナ」で使われている音声変換がどのような仕組みで実現されているかについて紹介をします。

はじめに

DeNA の音声研究開発チームでは、音声変換や音声合成など、音声に関する様々な研究開発を行っています。 また、研究開発の中で生まれた技術をサービスへと適用する取り組みについても積極的に行っており、2021 年 5 月にリリースした「VOICE AVATAR 七声ニーナ」では、音声研究開発チームが研究開発を行っている音声変換の技術が利用されています。
以降では、DeNA の音声変換に関する取り組みと、音声変換という技術の仕組みについて解説していきます。

音声変換に関しては、過去に投稿されたこちらの記事でも解説を行っていますので、是非ご覧ください。
エンタメ活用へ向けた AI による音声生成(Part2)

音声変換について

音声変換とは、入力された音声を特定の話者の音声へと変換する技術です。例えば、男性の音声から女性の音声へと変換したり、大人の音声を子供の音声に変換したりといったことが可能となります。

似たような技術として、音声合成があります。音声合成と音声変換は音声を生成するという点では似ている技術ですが、音声合成は入力されたテキストをもとに音声を生成する技術であり、音声変換とは区別して扱われます。 以降で詳しく解説しますが、音声変換の手法には現在様々なアプローチが存在しており、最近では深層学習を用いることで、より自然で、かつ変換対象の話者に似ている音声へと変換をすることが可能となってきています。

DeNA での音声変換の取り組み紹介

音声変換の適用について

音声変換のエンタメ領域への適用として、以下のような事が考えられます。

  • ゲームをプレイしながら、特定のキャラクターの声色でボイスチャットをする
  • 好きな声優さんやキャラクターになりきって遊ぶ
  • 動画配信などで、自身の声をかっこよく / 可愛く / 聞きやすい声に変換する
  • 洋画などで、日本語の吹き替え音声を元々の俳優さんの声色へと変換する
  • 好きな歌手の声になって、好きな歌を歌う

また、エンタメ領域以外でも、例えば音声変換による話者の匿名化を行うことでプライバシーの問題を解決したり、オンラインミーティングなどでの心理的な負荷の軽減に取り組むなど、社会課題の解決に向けた適用なども考えることができます。以上のことから、音声変換は現代の社会において、様々な使用用途がある技術であり、今後も発展が見込まれる分野であると言えます。
音声研究開発チームは、エンタメやゲームといった DeNA の強みである事業領域と音声変換を掛け合わせることで新たな価値を提供できないか、日々模索を続けています。
以下では、現在 DeNA で研究開発を行っている音声変換技術が使われている取り組みについて紹介していきます。

VOICE AVATAR 七声ニーナ

「VOICE AVATAR 七声ニーナ」は、DelightBoard の「IP 創造プロジェクト」の取り組みで生まれたサービスで、Web 上で自分の声を七声ニーナというキャラクターの声に変換することができます。
(2021 年 5 月 リリース)
https://nanakoe-nina.dena.ai
「VOICE AVATAR 七声ニーナ」は、入力されたユーザーの音声から話者に依存しない音の情報を抽出し、それをもとにキャラクターの音声を生成します。これにより、誰の声であっても、事前にユーザーの音声を収録をしたり、文字起こしをしたりすることなく、自然なキャラクターの声に変換することができます。
上記に関しては、音声変換の技術解説の項目でより詳細な解説を行います。

バーチャル警備システム

「バーチャル警備システム」は、2021 年の実用化を予定しているセコム株式会社のサービスです。常駐警備員が提供している業務のうち、警戒監視、受付などを、現実空間を映しこむディスプレイ一体型ミラー上に 3D モデルとして表示した「バーチャル警備員」が提供し、対処、緊急対応など熟練した常駐警備員ならではの能力と組み合わせて、新たな警備のあり方を実現するものです。
https://dena.com/jp/article/003659
2019 年 4 月、セコム株式会社、AGC 株式会社、株式会社ディー・エヌ・エー、株式会社 NTT ドコモが協働し、世界初※1 となる AI を活用した警戒監視などの警備や受付業務が提供可能な「バーチャル警備システム」の試作機を開発しました。
音声合成を利用した自律対話だけでなく、監視アプリからバーチャル警備員周辺に向けて話しかけることも可能で、DeNA で開発中の音声変換の技術を用いるべく、現在も開発が続けられています。
また、「バーチャル警備システム」は、2021 年 2 月 17 日に「日本オープンイノベーション大賞」で経済産業大臣賞を受賞しています。
https://dena.com/jp/press/004702
※1 2019 年 4 月現在(セコム調べ)

音声変換の技術解説

ここでは、音声変換がどのように行われているのかの技術的な部分について解説をしていきます。まず、深層学習を用いない従来の音声変換がどのような仕組みで音声を変換しているのかについて解説します。その後、深層学習を用いた近年の音声変換手法について、2 つのアプローチを紹介し、それぞれの処理の違いについて解説します。

従来の音声変換

音声変換の目的は、入力された音声波形から、話している内容を変えずに目標話者の声色の音声へと変換することです。 音声変換では、基本的に入力された音声を波形のまま直接扱うということはしません。なぜなら、波形形式のままでは、話者の情報や音の高さといった音声に関する意味のある情報を抽出することが難しいためです。 そのため、音声を変換する前に、音声を分析し、音声を特徴付ける情報を抽出しています。その後、得られた情報を調整(変換)し、再度音声を復元するという一連の処理を行うことで、音声を変換しています。

一般的に音声を分析する際には、フーリエ変換と呼ばれる処理を行い、音声波形を周波数領域へと変換します。フーリエ変換を行うことで、音声にどの周波数の音がどれくらいの量含まれているのかという、周波数成分の情報を得ることができます。フーリエ変換は、人間の耳が音声を認識する際に行っている処理と同等の処理であり、音声を分析するのに適した処理であると考えられています。
音声の周波数成分の情報からは、音声の音程情報である基本周波数や、話者の声色の特徴を表すスペクトル包絡といった、音声に含まれているに関する情報を抽出することが可能となります。 深層学習を使用しない従来の音声変換では、基本周波数やスペクトル包絡の値を調整し、再度音声を復元することで、入力音声の変換を実現しています。 例えば、入力音声の音程を高くしたい場合、基本周波数の値を増加させ、調整した情報をもとに音声を復元することで、入力音声の音程を高くした音声へと変換できます。 また、声色に関しての情報はスペクトル包絡に含まれており、スペクトル包絡の値を調整して音声を復元することで、声を太くしたり、細くしたり、またはロボットのような無機質な声にしたりといったことができます。


  • 変換前の音声
  • 高い声への変換音声
  • 低い声への変換音声
  • 細い声への変換音声
  • 太い声への変換音声

上記のような変換のアプローチの場合、例えば男性の声を女性らしく変換であったり、ロボットのような無機質な音声へと変換することは可能でしたが、特定の誰かの声色へと変換することが難しいといった問題や、変換後の音声が不自然になってしまうという問題がありました。 以降では、深層学習を使用する音声変換アプローチを紹介していきます。

誰の声でも目標とする人の声に変換する音声変換システムの開発

上記で解説したように、旧来の音声変換手法では、基本周波数やスペクトル崩落などの音響特徴のパラメータを調整することで、声色を変換させていました。しかし、そのような単純な変換では、特定の誰かの声色へと変換することができなかったり、変換後の音声が不自然になってしまうという問題がありました。 現在では、音声分析、音声変換処理、音声復元処理の全ての処理において、深層学習を用いるアプローチが数多く提案されており、旧来の音声変換手法と比べて品質や性能の面で改善がなされています。
深層学習を用いた音声変換の手法は現在非常に多種多様ですが、非常に大雑把に分類すると以下の 2 つに分類できます。

  • 音響情報ベースのアプローチ
  • 言語情報ベースのアプローチ

音響情報ベースのアプローチと言語情報ベースのアプローチでは、音声分析において音声から抽出する情報に違いがあります。 以下では、上記の 2 つのアプローチをそれぞれ解説していきます。

音響情報ベースのアプローチ

音響情報ベースの音声変換では、音声分析の段階で音声から「音響」に関する情報を抽出します。 「音響」に関する情報としては、上記で説明したスペクトル包絡であったり、スペクトログラムという音声波形を一定区間ごとにフーリエ変換した物を時系列で並べたもの(上図)など、手法ごとに様々なものがあります。
音響情報ベースの音声変換では、入力話者と変換目標の話者が同じ内容を話している音声から「音響」に関する情報を抽出し、そのペアのデータを大量に集めて、深層学習でその相関を学習させます。学習により、深層学習モデルは入力話者の音響情報から変換目標の話者の音響情報へと変換を行うことが可能となります。 入力話者と変換目標の話者が同じ内容を話している音声データのことをパラレルデータと呼びますが、音響特徴ベースの音声変換ではこのパラレルデータをどのように用意するかという難しさがあります。近年は、このパラレルデータがないデータを用いて学習を行う手法も数多く提案されてきています。
「音響」に関する情報には、入力話者の声色の他に、どのような発音をしたかといった情報や、イントネーションに関する情報など、多くの情報が含まれています。 そのため、音響情報ベースの音声変換では、音声変換処理を行う際に入力音声の声色の情報が残りやすく、変換後の音声に入力話者の声色が残ってしまいやすいという問題があります。

音響情報ベースの音声変換の特徴をまとめると、以下のようになります

  • イントネーションの情報が残りやすい  →   抑揚の制御が容易
  • 入力話者の話者性が残りやすい     →   変換の品質をあげるのが難しい

言語情報ベースのアプローチ

言語情報ベースの音声変換では、音声分析の段階で音声から「言語」に関する情報を抽出します。 「言語」に関する情報は、文字通り何を話したのかを表すテキストであったり、どのような音素が発声されたかの確率をベクトルにした表現だったりと、こちらも手法によって様々です。
言語情報ベースの音声変換では、音響情報ベースの音声変換とは異なり、パラレルデータの用意をする必要がありません。音声認識を行い、音声データから(テキストなどの)言語情報を獲得することで、言語情報と音声のペアデータを作成することができるためです。 深層学習モデルの学習では、上記により得られた言語情報と音声から得られる音響情報の相関を学習することで、言語情報から目標話者の音響情報を生成することが可能となります。
「言語」に関する情報は、声色やイントネーションなど、何を話しているか以外の情報が全て抜け落ちているため、言語情報ベースの音声変換では変換対象の声色の再現が比較的容易になります。 一方で、入力された音声のイントネーションや音量などのその他の要素を変換音声に反映することが(簡単には)できません。なので、手法ごとにイントネーションや音量を変換音声にどのように反映させるかという点で、様々な工夫がなされています。

言語情報ベースの音声変換の特徴をまとめると、以下のようになります

  • 入力話者の話者性が残りにくい     →   話者性の変換が容易
  • イントネーションの情報が残りにくい  →   抑揚の制御が難しい

「VOICE AVATAR 七声ニーナ」のように、誰の声でも目標とする人の声に変換したいような音声変換システムを実現したい場合は、入力話者の話者性が残りにくいという特徴のある言語情報ベースのアプローチが適しています。そのため、「VOICE AVATAR 七声ニーナ」の音声変換システムはこちらのアプローチをベースに開発を行っています。

2021 年現在の音声変換の主流はこの言語情報ベースのアプローチであり、現在も多くの研究者の方々が日々研究を行い、新たな手法が提案され続けています。 例えば、言語情報から直接目標話者の音声波形を生成する手法であったり、音声変換の際に音程の情報や音量の情報を付随して入力し、入力音声のイントネーションなどを維持する手法、ただの音声だけでなく、歌声にまで変換対象を広げた手法などがあります。

サンプル音声

ここでは、音声研究開発チームが現在研究開発中の音声変換システムによって生成された音声サンプルをいくつか紹介します。


  • 変換目標の女性話者のサンプル音声
  • 七声ニーナのサンプル音声

  • 変換前の音声 その 1
  • 女性話者へ変換した音声
  • 七声ニーナの音声へ変換した音声

  • 変換前の音声 その 2
  • 女性話者へ変換した音声
  • 七声ニーナの音声へ変換した音声

まとめ

本記事では、音声研究開発チームの音声変換に関する取り組みと、「VOICE AVATAR 七声ニーナ」で使われている音声変換の技術的な解説について紹介させていただきました。 音声研究開発チームでは、今後も音声に関する研究開発を行っていき、新たな価値を提供していきます。
最後まで読んでくださり、ありがとうございました。