NTT、声と“話し方”を一瞬で変えるリアルタイム変換技術

AI要約

NTTが高品質・低遅延のリアルタイム音声変換技術を開発した。Web会議やライブ配信で活用が期待される。

技術的には、話者の音声特徴量を別の話者の音声特徴量に変換する際、残留情報を低減する技術を活用し、高品質な特徴量変換を実現している。

開発されたリアルタイム音声変換は高品質と低遅延を両立し、事例として発声機能障害への活用やビジネス・実生活での音声コミュニケーションを豊かにする可能性がある。

日本電信電話(NTT)は、ある話者の声を、まるで他の話者が話しているかのように高品質・低遅延に音声変換する技術を考案した。Web会議やライブ配信などでのリアルタイム音声変換が可能で、今後はスマートフォンやVRデバイス上での利用など、さまざまな場面での応用が期待されるとしている。

NTTでこれまで、声質だけでなく抑揚やリズムなどを柔軟に変換できる、特徴量変換技術などの研究に取り組んできた。今回は、こうした研究成果に、独自に進めてきた音声特徴から音声波形を生成する「波形合成技術」の研究成果を融合したもので、Web会議を含むさまざまな音声コミュニケーションで使用可能な、低遅延なリアルタイム音声変換技術として開発された。

技術的には、話者の音声特徴量(話し方)を別の話者の音声特徴量へ変換する際に、話者に依存する情報の残留を低減する技術を開発、「高品質な特徴量変換」を実現している。これに、NTTが独自に進めてきた軽量・高速動作可能な波形合成器に入力することで、最終的な変換音声の波形を得ている。

会話の際には、自分の声を自分で聞く「フィードバック音声」が大きく遅れると、喋りづらくなることが知られており、音声変換技術においても遅延は数十ミリ秒に抑える必要がある。今回開発されたリアルタイム音声変換では、当該時刻と過去の音声フレームのみから変換音声を生成するモデルを採用し、通常は起こる変換精度の劣化は上記の「高品質な特徴量変換」などと組み合わせて解決し、高品質と低遅延を両立したリアルタイム音声変換を実現した。

本技術により、例えば、無喉頭音声の聞き取りやすさの改善といった発声機能障がいへの活用が可能。また、ネイティブに近い流暢な英語の発音、説得力のあるスピーチ、緊張による声の震えの解消など、対面・遠隔を問わず、ビジネスや実生活のさまざまなシーンにおいて、音声コミュニケーションを豊かにすることが期待されるとしている。

今後は、実環境使用を想定した対雑音性向上や、安定性向上などに取り組む。加えて、なりすましへの対策などにも取り組み、より安心して好みの音声でコミュニケーションできる未来をめざす。

この技術と成果は、6月24日から開催される「コミュニケーション科学基礎研究所オープンハウス2024」に出展される。