AI音声のリーディング企業Supertoneが日本市場進出　革新的音声変換技術が切り開く、”コンテンツ市場の未来”

AI要約

Supertoneは、韓国のAIオーディオ企業で、日本市場に初進出した。

同社はAI音声技術を活用し、リアルタイム音声変換やTTSなどの革新的な技術を展開している。

Supertoneの製品「Supertone Play」と「Supertone Shift」は、コンテンツ制作に革新をもたらす可能性を秘めている。

AI音声のリーディング企業Supertoneが日本市場進出　革新的音声変換技術が切り開く、”コンテンツ市場の未来”

　2024年7月3日～5日にかけて、東京ビッグサイトで開催された『第15回コンテンツ東京』。日本最大規模を誇るこのコンテンツ総合展示会に、日本市場に初進出となる韓国のAIオーディオ企業・Supertone（スーパートーン）が初出展した。

　Supertoneは、2020年に設立されたAIオーディオ技術のリーディングカンパニーだ。2023年にはBTSやNewJeans、LE SSERAFIMなど人気K-POPグループを多数擁するHYBEの傘下となった。その後、HYBEと協業して音楽と技術を融合したアーティスト「MIDNATT」プロジェクトを展開。さらにDisney+のドラマシリーズ「カジノ」やNetflixの『マスクガール』、また故人である韓国のレジェンド歌手の音声再現コンテンツなど、クリエイティブな技術適用事例を次々と披露してきた。このようにSupertoneは現在、エンターテインメント業界との強い結びつきを持つことでも知られている。

　今回のコンテンツ東京では、同社はコンテンツ制作に最適化されたTTS（Text-to-Speech）技術とリアルタイム音声変換サービスを出展。来場者に最先端のAI音声技術を直接体験する機会を提供した。

　本レポートでは、Supertoneの展示ブースでの体験と担当者へのインタビューを通じて、同社の革新的な技術と日本市場における展望について紹介する。

■これまでのSupertoneの歩みと、代表的な技術

　Supertoneは、AIを活用したリアルタイム音声変換、TTS、ノイズ除去、言語ローカリゼーション技術などを独自に研究し保有している。その革新的なAI音声技術の中核を成すのが「NANSY（Neural Analysis & Synthesis）」と呼ばれる基礎モデルだ。

　NANSYは、音声の構成要素である音色、言語特性、ピッチ、ラウドネスなどを分解し、再構成することに特化したモデルである。この技術により、Supertoneは無限のバリエーションを持つリアルな音声を生成することが可能となっている。

　NANSYを基盤として、Supertoneは複数の先進的な音声技術を開発している。その代表的なものとして、「CVC（Controllable Voice Conversion）」、「RTSE（Real-Time Speech Enhancement）」、「RTVC（Real-time Voice Conversion）」が挙げられる。

　CVCは、Supertoneが誇る高忠実度音声変換技術だ。この技術は、NANSYを用いて提供された音声の各構成要素を個別に制御・分析し、ユーザーの意図に沿った音声を合成する。特に高品質な音声が求められるメディア業界において、クリエイターの意図を忠実に反映した音声制作に活用されている。

　RTSEは、Supertoneが開発した世界最先端のノイズキャンセリングソリューションだ。この技術は、入力された音声をリアルタイムで「音声」「音声残響」「ノイズ」の3つのチャンネルに分離する。Supertoneの最先端ニューラルネットワークモデルを基盤とするRTSEは、音声の明瞭さを大幅に向上させることができる。2023年11月には、この技術を応用したオーディオプラグイン「Supertone Clear」がリリースされている。

　RTVCは、今回展示されたリアルタイム音声変換サービス「Supertone Shift」の基盤となる技術だ。RTVCは、ユーザーが自分の声をリアルタイムで別の声に変換し、話したり歌ったりすることを可能にする。これにより単に声を変換するだけでなく、ユーザーの声と変換後の声をブレンドしたり、ピッチや他の音声成分を調整したりすることで、リアルタイムで理想の声をデザインできるというわけだ。また、わずか47ミリ秒（0.047秒）という、聞き手が認識できないレベルのレイテンシー（遅延時間）で声を変更できる点が大きな特徴に挙げられる。

■多彩なバリエーションを備え、複数言語に対応するTTS技術「Supertone Play」

　今回、Supertoneが出展したのはTTS技術「Supertone Play」と先述したSupertone Shiftの2つ。当日の展示ブースでは、来場者が実際に両製品を体験できるデモコーナーが設置されており、多くの来場者の関心を集めた。このことからAI音声技術に対する高い注目度が伺えた。

　現在クローズドベータ版として提供されているSupertone Playは、テキスト入力による簡単な台詞編集だけで自然な音声コンテンツを生成できる創作ツールだ。これはナレーションやゲーム、広告など、あらゆるコンテンツ制作に適用できる自然な音声を複数言語で生成できるという特徴を持つ。特に韓国語と英語での音声変換の精度はグローバルで最高レベルと評価されるほどの高精度を誇る。

　Supertone Playでは、あらかじめ用意されている複数のキャラクターの音声を選択できるほか、言語（日本語、韓国語、英語）、スタイル（幸福、悲しみ、怒り、穏やかなど）、ピッチシフト（音声の高さ）、ピッチバリエンス（音声の相違）、スピード（音声が再生される速さ）など、各種パラメーター設けられている。これらを調整することで音声の高さや抑揚などを細かく設定できる。なお、今回展示されていたバージョンでは一度の音声出力時に入力できるテキストの文字数は200文字以内となっていた。

　実際に使用してみると、同じテキストに対して異なる設定パターンで音声を生成して比較することができた。スタイルの変更による感情の再現度が高く、ピッチシフトやピッチバリエンスの細かい調整で好みの音声を作成できる点が印象的だった。

　生成された音声の品質については、日本語はまだ開発中のため、一部のキャラクターでイントネーションに若干の違和感があった。しかし、日本語の精度の高いキャラクターの音声に関しては、かなり自然なイントネーションで出力が可能だった。Supertone担当者によると、年内には日本語の精度も韓国語と英語と同じレベルにまで引き上げられる予定だ。さらに来年中にはスペイン語や中国語などが追加され、より多くのグローバルコンテンツクリエイターをサポートしていくという。

　また、生成した音声はダウンロードして外部の映像編集ソフトや音声編集ソフトにインポートできるほか、ツール内のタイムラインに並べて連続再生も可能だ。さらにBGM音源もツール内のライブラリから選択して使用できるため、簡単なBGM付きナレーションであれば、Supertone Playのみで完結できる点も魅力的だ。

■本当に“リアルタイム”なボイスチェンジャー「Supertone Shift」

　一方、現在オープンベータ版として公開中のSupertone Shiftは、いわゆる「リアルタイムボイスチェンジャー」だ。ユーザーは、あらかじめライブラリに搭載された10種類のキャラクターの音声から任意の音声に即座に切り替えて使用できる。また、音声変換時のブレンド率やピッチ、ジョイ、リバーブなどのボイス・パラメーターを調整することで、変換される音声をカスタマイズし、独自のスタイルを作り上げることも可能だ。

　実際に使用してみて、まず驚いたのは、10秒以内というサンプルボイスの分析に要する時間の短さだ。これは触れ込みどおりとはいえ、実際に体験してみると本当に少し話すだけで初期設定が完了するというスピード感に圧倒された。また、変換された音声の精度の高さも印象的だった。子供や女性、老人、あるいはアニメルックなキャラクターなどひととおり、試してみたが、いずれも音声変換の品質は非常に高かった。

　視覚的に認知しているキャラクターのビジュアルのイメージどおりの音声が出力されるため、自分がまさにそのキャラクターに“転生”しているかのような気分が味わえるのも面白いポイントだ。このようなユーザーの心情に作用するところからも、Supertoneが掲げる「多様で表現力豊かな声の無限の可能性」というモットーを強く実感した。

　また、先述のSupertone Play同様、各種パラメーター調整による音声カスタマイズの効きも良好だった。たとえば、「ブレンド」では、本人の声とキャラクターの声の比率をリアルタイムで調整することができる。「ジョイ（よろこび）」のパラメーターは、最大値と最小値では、感情の変化による声のトーンの抑揚はかなり違う。なお、リバーブのパラメーターは、最初の設定のまま使い続けることもできるが、会話のシチュエーションに応じてユーザー自身がリアルタイムで変更することでインパクトのある音声効果を作ることも可能だ。

　各種パラメーター操作はスライダーの上げ下げで行えるため、たとえばライブ配信中にリアルタイムで設定を変えたい場合も手軽かつ感覚的に行える。このようなユーザビリティの高さにも魅力を感じた。

　そんなSupertone Shiftで特に注目すべきは、やはり先述した音声が出力されて聞き手に届くまでの遅延時間を、人間が認識できないレベルである47ミリ秒まで短縮している点だ。実際に体験すると、本当に変換後に出力されるまでの時間にタイムログを感じない。まさに“リアルタイム変換”と言って過言ではないほどだった。そんな体験を可能にする世界的にも非常に優れたこの技術における優位性について、Supertone担当者は次のように説明する。

「Supertoneの基盤技術のひとつ、リアルタイム音声変換には、“低遅延”、“自然なサウンド（音声）の生成”、“少ない学習データ”、“GPUを使わずに変換できるハードウェアソリューション”という4つの重要な特徴があります。また、当社の社員の半数を研究開発者が占めており、より効率的にAIを活用するための研究に取り組める環境を整えています。しかもその研究開発者の中には音楽家から研究開発者に転身した人も多く、そのような音声変換に強み持つ研究開発者が多数所属していることも、当社の他社にはない強みになっています」

■Supertone担当者が語る、今後の戦略や展望

　展示ブースでの体験の後、Supertone担当者にインタビューを行い、同社の戦略や展望についてさらに詳しく聞くことができた。まず、Supertoneが日本を初のグローバル進出地として選んだ理由について、担当者は次のように語った。

「Supertoneの技術の特徴は、コンテンツ制作に特化しており豊かな表現力とリアルなAI音声を提供できる点にあります。今回、当社が日本進出を決めたのは、日本はグローバルコンテンツ大国として、Supertoneの技術を活用した多様なコンテンツ制作機会が多いことが理由です。そして、もうひとつは、社内の話ですがSupertoneには日本のコンテンツ、アニメ、日本の映画やJ-POPを好きな人が数多く勤めていることも日本進出の理由です」

　その発言を受けて、Supertoneの技術の需要が高いと思われるVTuber市場における同社製品の可能性について尋ねたところ、特にSupertone Shiftはこの市場に非常に適した製品であるという認識が示された。

「Supertone Shiftはまだオープンベータ期間中ではあるものの、すでにダウンロード数は13万回を突破しています。しかもそのうちの3割～4割は日本のユーザーによるものです。現在、日本はVTuber市場をリードしており、そのような市場を持つ国でこのような反応があることは、我々の技術が日本のVTuberから認められているということだと考えています」

　現在、多くのAI企業が直面している倫理的な課題の解決に向けた取り組みについては、次のような答えが返ってきた。

「まずSupertoneは、いかなる場合においても、権利者の許可なく音声を収益化することはありません。これまでは主にレジェンドと評されるアーティストや有名な俳優の声でコンテンツを制作してきましたが、今は声の持ち主と共存していける生態系を目指しています。さらにトレーニング音声や合成音声データへのアクセス権限を少数の研究開発者のみに限定するなど最小限に抑えています。

　また、当社はAI音声であることを検出する技術を開発することでセキュリティ対策に取り組んでおり、何か問題があった場合に、音声の透かし（ウォーターマーク）技術を使って、追跡ができるようにデータを管理しています。なによりも、当社が最も重要視していることは、アーティストや権利者、クリエイターの尊重を最優先にしながら、クリエイティブ業界とともにビジネスを行なっていくことです」

　Supertoneの技術は、コンテンツ制作の現場に革命をもたらす可能性を秘めている。特に先述したように業界をリードする日本のVTuber市場においては、その影響は計り知れない。おそらくリアルタイムで高品質な音声変換が可能になることで、さまざまな音声コンテンツの表現の幅が大きく広がるだろう。

　最後に担当者は、今後の同社のAI音声技術のさらなる活用可能性についても言及した。

「Supertoneの技術は音声や音響が必要な産業には全て適用できると思っています。コンテンツ業界の話になりますが、現時点でもAIアフレコ（音声合成）や音響特殊効果を通じて、映画やアニメといった放送コンテンツなどに活用できています。既にNetflixやDisney+などの会社とのコラボレーションを通じて様々なコンテンツを制作しています。

　今後はHYBE傘下企業の一員であることを活かし、エンターテインメント業界でのさらに幅広い展開も視野に入れています。HYBEグループが持つ多様なIPコンテンツの制作経験やグローバルネットワークを通じて、当社の技術はより多様な形で応用され、成長していく可能性を秘めています」

　そして、このインタビューでは“ブランドボイス”という新規事業を日本でも展開していきたいという構想も明かされた。ブランドボイスでは、企業がオーダーメイドで作成したAI音声を活用し、広告をはじめとする様々なコンテンツに一貫して同じ音声を使用することが可能になるという。これにより、企業は統一された音声アイデンティティを持つコンテンツを一般消費者向けに発信できるようになると示唆された。

　AI音声技術は日々進化を続けており、その応用範囲は今後、我々の想像を超えてさらに広がっていくだろう。Supertoneの日本市場参入は、日本のコンテンツ産業に新たな可能性をもたらすとともに、AI技術と人間の“創造性の共生”という新たな課題も提示している。技術の進歩と倫理的な配慮のバランスを取りながら、この新しい技術がどのように社会に受け入れられ、発展していくのか。今後の動向に注目していきたい。

（文・取材＝Jun Fukunaga）