危機的状況の画像生成AI「Stable Diffusion 3」立て直しへ

AI要約

SD3Mの失敗や信頼回復の取り組み

コミュニティーとの対立や開発者の離脱

新CEO就任やライセンス変更による立て直し

危機的状況の画像生成AI「Stable Diffusion 3」立て直しへ

発表後、悪い意味で話題になってしまっていた画像生成AI「Stable Diffusion 3 Medium(SD3M)」に動きがありました。果たして失われた信頼は取り戻せるでしょうか。

 発表後、悪い意味で話題になってしまっていた画像生成AI「Stable Diffusion 3 Medium(SD3M)」に動きがありました。開発元のStability AIは、Weta Digitalの元CEOのプレム・アッカラジュ(Prem Akkaraju)氏がCEOに就任し、新たな資金も調達しました。これで組織として当座の危機は脱したと言えそうです。また、Stable Diffusion 3(SD3)のライセンスについての変更を打ち出してきました。果たして失われた信頼は取り戻せるでしょうか。

 

人気モデル「Pony Diffusion」開発者との対立

 基本的な情報からすると、やはり、SD3Mはコケたと言っていい状況です。参考情報となりますがGoogleトレンドを見てみると、6月12日のリリース直後は1日で150万ダウンロードされるほど注目を集めていたものの、すぐにシュリンクしてしまっています。直後に出てきたLuma AIやRunway Gen3といった動画生成AIに話題を持っていかれてしまいました。その後、SD3Mの性能検証をしている人も少なくなり、性能に課題を抱えていることが急激に知られ、失望感が広がったことがわかります。

 

 SD3Mにまつわる問題のひとつとして挙げられるのが、ユーザーコミュニティとの関係悪化です。それが顕在化したのが、Stable Diffusion XL(SDXL)向けのチェックポイントの人気モデル「Pony Diffusion(ポニー・ディフュージョン)」開発者であるPurpleSmartAIt氏の発言です。

 

 Pony Diffusionはかわいいポニーのイラストが生成できるモデルです。しかし、実際にはポニーだけではなく実写系に強く、アニメ系の描写もできることがわかったため、様々な派生モデルが登場しています。現在のSDXLで実写的な画像を生成している人は、ほぼこの派生モデルを使っているのではないかというほどの人気モデルになっています。

 

 そんなPony Diffusion開発者のPurpleSmartAIt氏が、SD3に疑問の声をあげたのがライセンス条項の問題でした。SD3Mのリリース日の6月12日に発表したブログ記事のなかで、SD3向けへのPony Diffusionの開発を当面はしないことを明らかにしたのです。

 

 記事によれば、SD3が「コミュニティーやファインチューニングへの支援が不十分」であり、「私の当初の目標は、これらの課題に真正面から取り組み、早期にSD3ベースのモデルを提供すること」としていました。しかし、SD3の商用ライセンスの内容は曖昧で、不安を感じる内容であったとしています。その後、問題を解決しようと、Stablity AIの技術チームと話す機会があったようですが、会話は「後味の悪いものだった」と述べています。

 

 「Ponyの目的や技術的な裏付けを理解しているとは思えず、予想外に高圧的な態度でした。問題の核心は、彼らがPonyをニッチに特化した(手間のかからない)ファインチューンに過ぎないと一蹴し、私の技術的な取り組みに興味を示さないことにあるように思えます」(PurpleSmartAI氏)

 

 SD3リリース後、ライセンスは「クリエイターズライセンス」にあらためられ、月6000枚の制限が付くようになり、それ以上の枚数を生成するには企業向けライセンスが必要という条件になりました。しかし、エンタープライズ(企業向け)ライセンスの具体的な内容は明らかにされず、問い合わせても、その時点では返答や情報が得られなかったと言います。そのため利用規約を通じて「恣意的な取り締まりによってSD3ベースモデルの種類を管理しようとする試みである可能性」があるとして、SD3用Pony Diffusionの開発へは「熱意が薄れた」と述べていました。

 

重要な開発者が去り、独立

 Stablity AIが社内で何らかの課題を抱えているということが、さらに顕在化する動きが出てきました。Stable Diffsionの生成環境として人気が高く、Stable Diffusion公式アプリでもあった「Comfy UI」の開発者comfyanonymous氏が、Stability AIを退職してしまったことです。

 

 Comfy UIはノードベースの生成環境として人気を獲得し、comfyanonymous氏がStability AIに採用されたことから、Stable Diffusionの環境として広く普及しています。SD3Mの公式環境としても、早い段階から準備が進められており、ローンチに合わせて対応版のアップデートがなされていました。

 

 comfyanonymous氏は6月17日に、ComfyUIのDiscordのチャットで、ユーザーからの質問に答える形で、SD3Mのリリース過程のトラブルの一端を明らかにしました。Redditに転載されたチャットによれば、comfyanonymous氏は「2Bモデル(SD3M)は辞めてしまった研究者による失敗作だった。しかし、4Bと8Bモデル(最高品質のSD3)をリリースする代わりに2Bをリリースすることに会社トップからの強い圧力があった」と明かしています。さらに「Stablity AIをやめようと思った1つの理由は、ベストなモデルを作ろうとすることに集中していないように見えるから」とも書いています。

 

 加えて、Stablity AIの公式の生成環境の1つだった「StableSwarmUI」の開発者のmcmonkey4eva氏もやめてしまったことが明らかになりました。Stablity AIは、ローカルPC向け環境の開発者2人をSD3Mのローンチという重要なタイミングで失ったのです。

 

コミュニティーが離れる

 翌日の18日、comfyanonymous氏やmcmonkey4eva氏を中心とした8名のComfyUIや関連技術の開発者によって、「ComfyUIのエコシステムをサポートする」という目的のComfy Orgという団体の設立が発表されました。「AIツールの進化と民主化」をミッションに掲げ、「オープンソースとコミュニティー主導であることを信じる」としています。

 

 オープンソースを維持するために、ComfyUI自体からの収益は得ないが、Linuxで確立されたようなコンサルティングやエンタープライズサポートで将来的には稼ぐとしています。「私たちは、有料の壁やライセンスの後ろにソースの機能を隠したり閉じたりすることは決してありません」ともしており、有償のクラウドビジネスへのシフトが顕著になってきているAIサービスとは違うアプローチを取ることを鮮明に打ち出しています。このあたりも、有償のサービスへのシフトを進めていたStablity AIとの考え方のズレが顕著になっていたと言えるのかもしれません。

 

 さらに同じ18日に、画像生成AIのモデルやLoRAなどを共有するプラットフォーム大手のCivitAIがSD3関連モデルの投稿を一時的に禁止しました。

 

 CivitAIは今年3月時点で月間アクティブユーザーが約410万人を超える人気サイトです。著作権やアダルトコンテンツの問題もたびたび指摘されていますが、運営方針を修正しつつ、大手ベンチャーキャピタルの投資を受けてサービスの規模拡大を続けています。ユーザーがアップロードしたデータが利用された場合には収益化も可能にするクリエイタープログラムも展開しており、その利用者も1万人を超えているとされています。

 

 SD3Mの登場後、数日内にLoRAやControlNetの投稿も登場してきている状況でしたが、やはりライセンスの疑問が解消されていないことを禁止の理由としました。22日にさらに詳しい理由を解説した投稿もされていますが、弁護士に確認したところ、懸念はより強まったとしています。

 

 「(Stablity AIの)クリエイターライセンスは、Stability AIがSD3でトレーニングされたリソースだけでなく、その出力をデータセットに使用したリソースに対しても編集や削除の権限を持っていることを暗示しているようでした。(中略)SD3ベースだけでなく、多くのモデルがこの影響を受ける可能性があり、SAIがオープンソースの育成はもはや彼らの最善の利益にはならないと判断した場合、安定した普及コミュニティ全体が危険にさらされる」

 

 データをアップロードするクリエイターの作品の収益化を積極的に支援する仕組みを整えている以上、現状のライセンスのままでは受け入れることが難しいという判断がされたようです。

 

 CivitAIにアップロードされているデータは様々な問題を潜在的に抱えているとの指摘があるのは前述の通りです。現在もいわば「闇鍋」状態的な性質はありますが、Stable Diffusionを全世界の一般ユーザーに普及するドライバー的存在になっているのは間違いありません。そのCivitAIがサポートしないということで、SD3Mはコミュニティーからの支援を受けられないことが明確となり、急激に利用者が減る要因にもなりました。

 

 そして、とどめとして出てきたのが6月25日に発表された「Open Model Initiative」です。

 

 先ほどのComfy Orgと、画像生成アプリのInvoke、そしてCivitAIなどが連携。「オープンライセンスのAIモデルの開発と採用を促進する、コミュニティー主導の新しい取り組み」と方針と掲げ、オープンな状態を維持して、より競争力のある独自のオープンモデルの環境を整えていこうという団体のようです。今後は、コミュニティーイベントや関係者が集まっての会議といったものを予定しているとのことで、クローズドモデル化が進む動きへの対抗手段の一つになるかもしれません。

 

代表交代、資金注入で立て直しはかる

 苦しい状態に直面していたStablity AIですが、変化の動きもありました。25日、新CEOにプレム・アッカラジュ氏が就任したと発表が行われました。元々現在のCEOは、投資家筋から評判が悪かったと言われる創業者のエマド・モスタク(Emad Mostaque)氏の3月の退任後、追加の資金調達なりが決まるまでの暫定CEOという位置づけでした。

 

 アッカラジュ氏は、「ロード・オブ・ザ・リング」などで知られるニュージーランドの映画スタジオWeta DigitalのCEOも勤めたことのあり、その後、Unity Softwareが買収する部門のWeta Cloudの創業者でもあり、映像業界で長年のキャリアを積んできた人物のようです。

 

 これに合わせて、AI関連にも積極投資をしている米大手ベンチャーキャピタルのGreycroftを始めとする4社に加え、ナップスターで知られるショーン・パーカー氏、グーグル共同創業者エリック・シュミット氏などの個人投資家、さらに、アッカラジュ氏自身も投資したと明らかにされました。「世界トップクラスの投資家グループからの初期投資ラウンドを完了した」と発表があったのみで、投資金額は明らかにされていませんが、倒産の危機にさえ直面していると見られていたStablity AIの財務問題は、当面は解決されたと考えてよさそうです。

 

 そして、早速、アッカラジュ氏は、7月5日にライセンス問題に手を打ってきました。これまでは、非商用/クリエイター(月20ドル)/エンタープライズの3種でしたが、クリエイターライセンスを廃止して「コミュニティライセンス」とし、100万ドル以下の年間売上の場合は無償とシンプル化しました。100万ドルを超えているかどうかも自己申告制とし、その場合にはエンタープライズライセンスに移行してもらうというものです。

 

 リリースでは、SD3Mの継続的な改善を約束し、「今後数週間のうちに大幅に改善されたバージョンをリリースすることを目指しています」ともしました。「私たちは私たちの発見とコミュニティ内の他の人たちの発見を共有していきます」とも述べており、コミュニティとの関係改善を図ることも明らかにされました。

 

 まだ、新体制となって以降、CivitAIなどの各社やユーザーに新しい動きはでていませんが、エンタープライズライセンスについても関係者間での議論がされているのではないかと推察されます。

 

 Stablity AIの社内が混乱状態にあったのは、間違いないでしょう。結果的に、SD3Mを通じてコミュニティとの関係も悪化させる要因になってしまいました。オープンソースモデルと収益性のバランスを取りながら技術開発と普及とを実現するのが、いかに難しいかを示しているとも言えます。ただ、Stablity AIは、新CEO体制に切り替わり、戦略の巻き直しが図られることで、状況改善にも期待が持てそうにもなってきました。

 

 

筆者紹介:新清士(しんきよし)

1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』(NHK出版新書)がある。

 

 

文● 新清士 編集●ASCII