「ChatGPT」が人のように会話する“高度なボイスモード”がついに提供開始、まずはアルファユーザーから

AI要約

OpenAIはAIチャットボット「ChatGPT」に新しい高度なボイスモードを提供開始した。

「GPT-4o」をベースとしたこのモードは、感情や非言語的なサインを理解して自然な会話体験を提供する。

ボイス機能は45の言語に対応し、プライバシー保護や不適切なコンテンツをブロックするシステムも構築されている。

「ChatGPT」が人のように会話する“高度なボイスモード”がついに提供開始、まずはアルファユーザーから

 米OpenAIは7月30日(現地時間)、AIチャットボット「ChatGPT」において、同社の最新AIモデル「GPT-4o」をベースとした高度なボイスモード(advanced Voice Mode)の提供を開始した。現在はアルファ版として、メールまたはアプリ内通知が届いた一部のChatGPT Plus(有料版)ユーザーが利用できる。今後も順次対象ユーザーを追加し、今秋頃には全Plusユーザーがアクセス可能になる予定。

 新たに提供される“高度なボイスモード”は、「GPT-4o」のお披露目の場となった、今年2024年5月に実施された発表イベントにて披露されたもの。発表当初、この新モードは今年6月下旬に提供開始予定とされていたが、のちに同社のローンチ基準に到達していないとの理由でリリース延期に。約1カ月遅れでの提供開始となる。

 ボイスモード自体はすでに全ユーザーが利用可能な機能ではあるが、今回のモードでは、AIがユーザーの感情や非言語的なサインを理解して反応できるようになり、より自然でリアルタイムな会話体験が提供可能になる。リクエストによってはキャラクターの声を演じ分けるといった芸当も披露してくれる。なお、動画機能および画面共有機能については後日リリースされる予定となっている。

 また、「GPT-4o」のボイス機能は、45の言語にわたり、100人以上からなる外部レッドチームとテストを実施。ユーザーのプライバシーを保護するため、あらかじめ設定された4つの音声のみで会話するようモデルを訓練し、これらの音声と異なる出力をブロックするシステムを構築したとのこと。暴力的なコンテンツや著作権のあるコンテンツのリクエストをブロックするガードレールも実装されている。