AIが考える“アイドル”がリアルすぎた　グーグル「Imagen 3」なぜ高品質?

AI要約

グーグルが8月中旬、チャットAIサービス「Gemini」で使える画像生成AIモデルを「Imagen 3」に更新。画像生成AIサービス「ImageFX」でImagen 3を試した結果、高性能であることが確認された。

生成AIにおける性能や制約、安全性や公平性に関しての詳細。Imagen 3は画像生成の分野で注目を集めている。

Imagen 3の学習データに関する推測やGoogleフォトなどの個人データを用いた可能性について。Imagen 3の強力な性能の裏にはどのような技術が使われているか考察。

AIが考える“アイドル”がリアルすぎた　グーグル「Imagen 3」なぜ高品質?

グーグルが8月中旬、チャットAIサービス「Gemini」で使える画像生成AIモデルを「Imagen 3」に更新。グーグルの画像生成AIサービス「ImageFX」でImagen 3を試した人たちが驚き、「これはとんでもない」と騒ぎになりました。

　グーグルが8月中旬、チャットAIサービス「Gemini」で使える画像生成AIモデルを「Imagen 3」に更新。グーグルの画像生成AIサービス「ImageFX」でImagen 3を試した人たちが驚き、「これはとんでもない」と騒ぎになりました。実際にImageFXを試してみると、性能が高いことは間違いありません。現在は、1日40回程度までは無料で使用することができます。

※一部の配信先では画像や図表等が正確に表示されないことがあります。その場合はASCII.jpに掲載の記事をご確認いただければ幸いです

フィルターはとても厳しく、女性を出すのは難しい

　ただし、コンテンツフィルターがとても厳しく、暴力的な画像や性的な画像、また未成年者に見えるような画像を出すこともできないようになっています。2023年12月に前バージョンの「Imagen 2」が出されたときも「厳しすぎる」と評価がありました。特に女性を出すときが厳しかったと報告される一方、男性の画像は比較的出やすいという情報はあります。このフィルターを回避するために絵文字を使うなどの様々なテクニックが開発されつつありますが、正攻法ではうまくいきません。女性を描くにしても、「girl」などの直接的なワードを避けたりすると成功率が上がるようです。

　実際に試したところ「ペットボトルの水を飲んでいる女性」は弾かれました。試行錯誤して、性別を区別するワードを消したところ、代わりに男性が出てきました。何回も生成を試すと「ペットボトルを持っている女性」の画像は出せたものの、今度はすべてが同じ女性の顔になってしまいました。特に鼻がそっくりです。どうも日本人顔は意図的に同じような顔が生成されるように調整されているように思えます。

　ただ、ランダム性を前提としていますが、プロンプトをうまく設定できれば、写真と見間違えるような画像が生成されます。コンサートでの日本のアイドルをテーマにした画像は、とてつもなくリアルなものが生成できることも話題になりました。

「安全性」の担保に力を入れて設計

　Imagen 3は「安全性」の担保をするために、かなり力を入れて設計されています。プレスリリースでは「データおよびモデルの開発から生産に至るまで、最新の安全性と責任に関するイノベーションを駆使して構築」したとしています。同様の記述は8月の技術解説論文にも説明されています。

　グーグルは生成AIによる有害なコンテンツの生成を禁止する原理（Principle）を決めているのですが、Imagen 3もそれに従っているとしています。プライバシー保護と暴力、ヘイト、露骨な性描写、過剰な性描写といった有害な出力の最小化を確実にするためのプロダクション・フィルタリングや、誤報リスクを減らすための電子透かしの適応をしているとしています。

　また、同程度に「公平性」を重視しているとも述べられています。あいまいなプロンプトからシーンを生成するプロセスで、その画像に偏りをどう生まないようにするかという問題です。特に人物の出現分布に注意をはらっているとしており、「知覚される年齢、性別、肌色の分布に基づく自動化された測定基準により、公平性を評価する」としています。具体例としては、「性別に関係なく医師や看護師になれる」ということを的確に画像に反映するようなことが目指されており、ステレオタイプなイメージが生み出されないようにしているようです。

　この過剰とまで感じられる制限は意図的に掛けられています。表現の自由さよりも、グーグルの生成AIについての原則が優先しているためです。利用時には、こうしたグーグルの設計の意図を読み取って、プロンプトを組み立てることで、的確な画像を生み出しやすくなると考えられます。

　一方で不思議なのは、「RX-78 gundam」とプロンプトを指定すると、かなり正確なガンダムの画像が出てくるという点です。アニメというよりも、プラモデルの画像を学習したと感じられるような画像なのですが、IPに対するコンテンツフィルターは人物に比べると現状は厳しくないようです。

　技術論文の中で興味を引くのが、約3000人あまりの人間が画像の品質を評価した結果です。Imagen 3が特に優秀なのは、テキストプロンプトに対する追従性。Stable Diffusion 3やMidjourney、DALL-E 3などに比べても上だとしています。一方、敗北を認めているのは「絵的な魅力」で、Midjourney v6.0には若干劣るとしています。

　Imagen 3がどんなトレーニングをしているのかは不明で、論文では「私たちのモデルは、画像、テキスト、関連するアノテーションを含む大規模なデータセットで訓練されています」としています。グーグルは以前から、どのようなデータセットを使い、どのような方法で学習を進めたのかということを、ほとんど公開していません。データは、「品質と安全性の基準を確保するために、複数段階のフィルタリングプロセスを採用しています。このプロセスは、危険、不適切、または低品質な画像の除去から始まります。その後、AI生成画像を排除し、モデルがこれらの画像に特有のアーティファクトやバイアスを学習するのを防ぎます」という説明がなされており、データをふるいにかけたうえで学習させていることはわかるものの、その詳細の説明はなく、これほど高性能な画像が、どのような技術に支えられているのかは、よくわからないという状況です。

日本の風景にもすさまじく強い

　Imagen 3は、日本の風景にも強いことも話題になりました。実際に「日本の雨あがりの坂のある街」をテーマに画像を生成してみたところ、いかにも日本のどこかにありそうな風景画像が生成されました。雨が降ったあとの路面の光沢感にしても、歩道の行き先が、別の曲がった道につながっているように見えるのも、他の画像生成モデルでは見たことがない特出したクオリティーの高さです。

　もちろん、細かいところを見ていくと柱の位置がおかしかったり、道幅に対して柱の置かれている場所が変だったり、遠くの町並みの過密度が高すぎる気もしますが、神奈川あたりのような雰囲気で、パッと見では見抜けないレベルです。これはすごいですね。

　どれくらいImagen 3の性能が高いのか、他の画像生成AIとも比較してみました。Imagen 3が比較的短めのプロンプトでも画像を形成できるということもあり、より似せた画像を出すためImagen 3の画像を解析してプロンプトを作成しています。そのため、厳密には同じプロンプトの比較ではないことはお断りしておきます。

　まず、OpenAIの「DALL-E 3」は、特有のイラストよりの画像で出るのですが、細かいところがぐちゃぐちゃになっていたり、行くことができない階段が生まれたり、AI特有の構造上のおかしなものが出ています。

　絵的な魅力でImagen 3を上回ったMidjourneyは、確かに趣きはあるものの、沖縄あたりを思わせる風景になりました。注目すべきは、道路の左右に出ている手すりで、現実にはありえないおかしな形状をしています。これもAIで起こりがちな失敗です。

　話題のオープンモデル「FLUX.1 dev」で生成したところ、日本から少し離れているような印象の画像になりました。FLUX.1は写真画像も強いのですが、筆者が1ヵ月月あまり使ってきた印象では、日本という地域性を絞った画像はあまり得意ではないように思えています。ドイツで開発されたということもあり、学習している情報のなかに、日本の画像が少ないのではないかと推測しています。

　ついでなので、Xに搭載されたFlux.1の軽量版で生成された「Grok」でも生成してみました。さらに日本の風景から離れ、韓国や中国の風景が混じってきているように感じられます。やはり総合的に見て、Imagen 3の優位性を感じることができます。

京都や広島も「それっぽい」風景が出てくる

　さらに、地名を絞ると面白いことになります。どうも、Imagen 3は日本の地方都市もきちんと認識して生成できるようなのです。

　例えば「京都」と入れると、ぱっと見ると「京都らしい」と認知してしまう知ってるような知らないような不思議な風景が出てきます。五重の塔らしきものが写っていて、観光地として有名な産寧坂（三年坂とも呼ばれる）のようにも見えるのですが、実際に山は見えません。ただ、山の上に鉄塔のようなものが見え、日本風の雰囲気を感じさせるのがポイント高いですね。

　そして、筆者の出身地でもある「広島」を入れてみたところ、見おぼえのある川べりの風景に貸しボート小屋っぽいものが生成されました。広島ということで、かなりの確率で原爆ドームも出てきます。もちろん位置関係はデタラメなのですが、かなり雰囲気が出ています。

　面白いのは、原爆ドームと一緒に黒い四角いビルが出てくること。実はこれ、広島商工会議所なんですよね。原爆ドームの写真を平和公園側から撮るとき、必ずと言っていいほど後ろに写り込むんです。恐らく原爆ドームの写真を学習したとき、一緒に商工会議所のイメージも学習しているのではないかと思います。

　なぜこんなにもしっかりと日本の地方都市が出せるのか。

　少なくとも、LAIONデータベースなどの情報で学習したものではデータ量が限られるので不可能だと考えられます。実際に、MidjourneyやFlux.1ではこうした精度で出力することはできません。

Googleフォトなどの個人データからも学習か

　グーグルが他社のサービスを圧倒するリアリティをどうやって実現しているのかが気になってきます。

　ここからは筆者の推測になりますが、ネットから収集した公開情報だけでなく、Googleフォトなどの個人データからも学習していると考えられます。Googleフォトは2015年にサービスとして開始され、2021年5月までは無料・無制限で画像をアップロードできるサービスとして展開、2021年6月からは15GBまでは無料という方針で運営されています。当初無料で運用された重要な目的には、グーグルがAI用の学習データを収集するという目的があったのではないかと推測されています。

　現在のGoogleフォトには機能追加されてきた顔認識や場所のカテゴライズ、被写体の中身が何であるのかといったタグ付けが自動でされるようになっています。これらの技術は生成AI関連の技術が多く含まれます。

　グーグルはGoogleフォトをAI学習に利用しているかどうかを一切明らかにしていません。

　ただ、利用規約には、グーグルの権利として「ユーザーのコンテンツに対する使用許可」という項目があります。そのなかで「ユーザーのコンテンツに修正（形式の変更、翻訳など）を加えて二次的著作物を作成すること」があり、目的として、「サービスを運営し改善するため」としており、「これには、自動化されたシステムやアルゴリズムを使用してユーザーのコンテンツを分析することも含まれます」となっています。もちろん、この項目以外に「プライバシーポリシー」が定められており、グーグルが安全性に配慮しているということもアピールされています。

　そのため、基本的にはGoogleフォトに投稿されているデータを使う権利をグーグルが持っていると読める内容になっています。Midjourneyなどと比べても圧倒的にリアルな画像を出せているのは、それだけ、手元で使うことができる学習データに規模の差があることが推測できます。

　ただし、グーグルはMidjourneyやFLUXなどと異なり、Imagen 3をアートやホビー向けに出しているわけではないでしょう。グーグルはImagen 3を、広告などの法人向けのビジネスなどに使うことを想定しているのだと思います。フィルターの強さを見ても、画像生成AIとしては使いにくく、直接的な競合として競争するのは難しいと思えます。ただ、世界で最も強力な画像生成AIの一つを持っているという意味は、マイクロソフトやアップル、フェイスブックと争う上で非常に強力な武器であることは間違いありません。

筆者紹介：新清士（しんきよし）

1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』（NHK出版新書）がある。

文● 新清士　編集●ASCII