「登山はこの靴でいいかな?」に答えてくれるAI。買い物に悩んだら頼りたい #MicrosoftBuild
マイクロソフトが開催したBuildイベントで紹介されたマルチモーダルAIについて。AIが音声と映像で買い物助言をする仕組みや、例として紹介されたハイキングシューズ選びのシーンに驚きを覚える。
AIが自然な会話形式で指示を理解し、ユーザーの要望に応じて買い物を手助けしてくれる様子。言葉や画像を用いずに、リアルタイムで意思疎通が可能。
GPT-4oのマルチモーダルAIが提供する機能性により、日常的な買い物や出かける際の服装選びなどにおいて、手間を省く新たな体験が可能になる。
![「登山はこの靴でいいかな?」に答えてくれるAI。買い物に悩んだら頼りたい #MicrosoftBuild](/img/article/20240522/664d6f3d0c600.jpg)
Microsoft(マイクロソフト)が開催したイベント、「Build」をオンライン視聴しました。
開発者向けの高度な話が続くなか、自分が使っている未来を想像してワクワクしたのは「マルチモーダルAI」というもの。声と映像で、ビデオ通話をしているかのように買い物の助言をしてくれるんです。
イベントで例として出されていたのは、ハイキングシューズ選び。
「登山に行くけどこの靴にするべきかな? 寒くなりそうだ」と靴を見せると「それはハイキングサンダルだね、最善ではないかも」とAIが答えます。もうこの時点で驚きですが、さらにすごいのは「最善のものを選んで1つカートに入れてくれる?」と言うとそのとおりになるのです。
しかも、指示する話し方も、AIのために話し方を無理に工夫したコマンドっぽい感じではなく、まるで友だちと話しているようなラフな感じ。しかもAIが話しているところに被せて話してもきちんと返してくれます。
文字も打ち込まなくていいし、画像も必要ない。「これどう?」とカメラに向かって話すだけで判断してくれるから、機能性を重視した買い物や急いで決断したい時にも、考える手間がなくてすごく良さそう。
言葉も視覚情報も理解して、リアルタイムに声で答えてくれるGPT-4oのマルチモーダルAI。
家を出る前に「今日、東京でこの服装だと寒い?」とか聞いて全身を写したら「それだと薄着すぎるから羽織を持っていった方がいい」とか教えてくれるのかな。
Source: Microsoft