人が絵を描く“工程”をAIで再現 タイムラプス風動画が炎上した「Paints-Undo」

AI要約

イラストが完成するまでの過程を生成できる画像生成ツール「Paints-Undo」が発表され、騒ぎとなりました。

今後、AIが「工程を生成する」という考え方は様々なところに波及すると思います。

7月9日、イラストが完成するまでの過程を生成できる画像生成ツール「Paints-Undo(ペイントアンドゥ)」が発表され、騒ぎとなりました。

話題となったのは、人間がイラストを描いている様子をタイムラプスでとらえたかのように見えるデモ動画です。

それを真っ向から否定することになりかねないという技術にも見えたことから、反発を含めて注目が集まったという印象です。

時間の流れを“逆転”させた動画を生成するPaints-Undoは、1枚の完成画像から画像が完成するまでの過程を動画として生成するStable Diffusionベースのツールです。

イラストを下描きから、線画、着彩という流れにしたがって描いているかのようのようなタイムラプス風の動画が生成されます。

人が絵を描く“工程”をAIで再現 タイムラプス風動画が炎上した「Paints-Undo」

イラストが完成するまでの過程を生成できる画像生成ツール「Paints-Undo」が発表され、騒ぎとなりました。今後、AIが「工程を生成する」という考え方は様々なところに波及すると思います。

 7月9日、イラストが完成するまでの過程を生成できる画像生成ツール「Paints-Undo(ペイントアンドゥ)」が発表され、騒ぎとなりました。話題となったのは、人間がイラストを描いている様子をタイムラプスでとらえたかのように見えるデモ動画です。これが大きな反響を呼び、特に日本では"炎上”ともいえる状態になりました。日本では「タイムラプス動画を記録しておけば、“人間が描いた”と証明することができる」という話題が昨年からSNS上で出ていました。それを真っ向から否定することになりかねないという技術にも見えたことから、反発を含めて注目が集まったという印象です。よくよく見ると人間が描いているものとはかなり違い、また、技術の意図そのものも違っているようなのですが。

 

時間の流れを“逆転”させた動画を生成

 Paints-Undoを開発したのは、「ControlNet」など画像生成AIツールの研究開発で知られるスタンフォード大学の研究者lllyasviel(イリヤスフィール)氏。またもや、新しいアプローチの研究で画像生成AIに切り込んできました。

 

 Paints-Undoは、1枚の完成画像から画像が完成するまでの過程を動画として生成するStable Diffusionベースのツールです。イラストを下描きから、線画、着彩という流れにしたがって描いているかのようのようなタイムラプス風の動画が生成されます。デフォルトの設定だと、NVIDIA RTX 4090の環境では、3分間程度で、27秒ほどの動画が作成されます。

 

 Paints-Undoは、3つのステップで動画を生成します。

 

 ステップ1で画像からプロンプトを生成し、ステップ2でキーフレームと呼ばれる生成の途中工程の画像を生成します。デフォルト設定では、最初の完成画像と最後の真っ白な画像を含めて6枚が追加で生成されます。そしてステップ3でキーフレームの間を補完するアニメーションを生成し、最終的な動画が完成します。もちろん各種設定を変更すると生成に必要な計算時間は変わってきます。

 

「PaintsUndo」のインストールうまく行った。なんのことはないインストールはうまく行っていたのに、gradioのローカルURLの設定を間違えていただけだった。ディフォルト設定で4090で27コマとコマ補完3分程度。 pic.twitter.com/gvsDoG00BD

 

― 新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin) July 9, 2024

▲筆者がcopainterの記事の作例を使って、Paints-Undoの動画を生成した動画

 

 動画の生成はランダムなので、シード値(ランダムに割り振られる数字)を変えると、かなり違うものが出力されます。そのため、妙に下描きパートが長くて突然色がついたり、おかしな形状で生成されたものが突然完成形になったりしてしまい、自然に感じられる動画を生成することは簡単ではありません。また、アニメ風のキャラクターは得意ですが、実写系や構造の情報量が多すぎる画像は苦手。液体のように何なのか認識しにくいものや、デザイン系も苦手であることが限界として説明されています。

 

 今回、イリヤさんが革新的な手法として持ち込んできたのが、動画生成AIを使うとき、時間の流れをひっくりかえして生成するという方法です。これまでの動画生成AIは、ある画像を入力画像として設定した場合に、その画像がどう変化していくのかという時間を“前に”進めてきました。それを“後ろ”に進めるようにしたんです。

 

 つまり、「完成した画像」と「白いキャンバス」から工程を逆算させるという方法をとったことで、新たな生成動画の利用方法を発見したということです。これが「あ~っ!」と驚かされたことでしたね。できあがった動画を逆回しにして出力することで、あたかもタイプラプスのように見えるようにしていた。わかってしまえば「あーなるほど」と思うわけですが、最初にそれを技法として発見したのがすごいといころです。

 

人間が1000回操作したと仮定して画像を生成する

 Paints-Undoはどんな仕組みで動いているのか。

 

 Paints-Undoはまだ論文として発表されていません。イリヤさんがGithubに発表している情報と、公開しているソースコードがすべてで、全体像は不明です。動画の学習済みデータも付属していますが、どのような特性をもつのかは部分的にしかわかりません。

 

 情報が限られるなか、技術を理解するためには、抹茶もなかさんの詳細な解説記事がわかりやすいです。世界的に見てもここまで詳しい記事は他にないのではないかと思います。

 

 筆者が記事を理解した範囲では、Paints-Undoの中核をなす技術は、キーフレームの生成過程を複数枚に生成する段階で使用する「シングルフレームモデル(single-frame model)」と、生成した画像の間を補完する動画を生成する「マルチフレームモデル(multi-frame model)」という2つのモデルです。

 

 キーフレームを生成するために使われるシングルフレームモデルは、1つのイラストが完成するまでに人間が1000回操作する(過程段階の画像を作る)という前提で推論をさせています。最初の完成画像から、ひたすら「Ctrl+z(つまりUndo)」を1000回繰り返したら、最後は白紙の画像になるという想定です。デフォルトでは「400、600、800、900、950、999」の6枚が指定されており、数値が大きいほど、白紙に近づいた状態を推定して画像を作っていきます。そして指定した枚数の画像を推論し、生成します。

 

 このなかで抹茶もなかさんが「こんなことができるんだ」と驚かれていたのは、過程段階の画像を生成している最中に、最初の画像を介入させられるということ。つまり、デノイズ途中の画像に「完成した画像」をはさむことで、最初の画像に近いものを常に生成し続けられるようにコントロールしているのではないかというわけです。

 

生成した画像同士を“中割”的につないでいく

 そして次にマルチフレームモデルを使い、画像と画像の間を補間して動画にする形で画像を追加生成します。ここで使われるのが、今年1月に登場した「Video Crafter」と呼ばれる系統の動画生成技術。ただ、基本部分はすべて実装しなおしたとイリヤさんは明らかにしています。さらに、この派生技術で5月に登場した「ToonCrafter」というアニメ系に特化したモデルがあるのですが、その技術の一部をそのまま使ってもいるようです。

 

 ToonCrafterは、2枚の画像を使い、その間を補完する画像を生成する技術。アニメの中割りを自動生成する可能性が模索されています。

 

 

 ただ、日本では発表当初はあまり話題にならなかった技術です。アニメの中割を本格的にやらせるには、全然違う絵が出してしまったり、アニメーションのパターンが少なく、きれいに出ない傾向があり、まだまだ実用的には感じられなかったためです。イリヤさんは、これをイラストの作成過程という、対象がほとんど動かないというものに使うことで効果的にすることを思いついたようです。そこにタイ厶ラプス的なランダムさを混ぜることで、逆により真実味を感じさせる動画になるのだろうと。

 

 最終的にそれをつないで出力すると、あたかもタイムラプス動画が作られたように見えるというのがPaints-Undoのからくりです。実際のところは、ToonCrafterが簡単に破綻するように、人間が描くタイムラプスとはかなり違ったものができあがり、破綻する場合も多いのですが、一見破綻してもわかりにくい動画であるために、真実性が感じられるようになっているのがミソです。

 

タイムラプス動画で学習?

 完全に筆者の推測ではあるのですが、イリヤさんが作り上げた2つのモデルは、ネット上に公開されている絵を描くタイムラプス動画を使って学習させたのかなという予感があります。かなり様々な独自改造が施されているようなのですが、それでも、これは実際のタイムラプス動画を学習に使わないと生み出せないのではないかと思えるからです。

 

LumaAIで着彩過程を表現できないかと思ったが流石に無理があった。着彩のエフェクトにはなっているが、過程はもっと分割してランダムさがでないと無理かな。でも、やっていることは根本的には違わないと思う。細かく過程を生成しているかという違い。 pic.twitter.com/sW3phWoI1b

 

― 新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin) July 10, 2024

▲筆者が別の動画生成AIサービスLuma AI Dream Machineで、塗りがない状態と着彩画像を試しに設定してみて作成した動画。色を塗る効果は出ているが、着色過程を再現しているとはまったく言えない。このサービスではタイムラプス動画を学習していないように思える

 

 連載第62回で紹介した「MagicTime」のように、タイムラプス風の動画を生成する研究は2024年に入って出てきています。 タイムラプス動画を学習させれば、タイムラプス風の動画を生成することが実際に可能であることはすでに証明されています。MagicTimeはタイムラプス風の動画を約2200個学習させて作られおり、まだまだ品質には限界があるものの、植物の成長や、氷の融解、「マインクラフト」の建物建設の動きといった、物理法則を再現しする動画の生成を実現に成功しています。

 

 ただ、次々に新しい研究トピックを探求し、少ない労力で効果的な手法を探っていくイリヤさんの性格を考えると、学習させたのはせいぜい数百点程度と限られるのではないかとも推測しています。何を動画の学習元としたのかは、動画生成AI各社でも権利問題が争点となっている部分なので、論文の発表時には明らかにする点かもしれませんが、現状は情報を意図的に公開していないのだろうと見ています。証拠はないので、確定とは言えませんが。

 

重要なのはAIが「工程」を理解すること

 イリヤさんがこの技術で狙っているのは、「人間の絵を描く動作」のモデル化です。

 

 この研究の副題は「デジタル絵画における描画動作の基本モデル」で、「Paints-Undoをベースモデルとして人間の行動を分析」することが目的に掲げられています。

 

 AIというのは基本的に「人間の行動をいかにモデル化して、コンピューターで再現可能にするか」ということを大きな目標として持っています。今の画像生成AIの限界は、最終的な完成画像をいきなり出すところにありますが、絵として考えた場合に、人間は絵を完成させるまでに、下描きをしたり、着彩をしたりと、中間段階のことをやっていますよね。その作業そのものをAIでモデル化できないかということを目指しているわけです。

 

 そしてイリヤさんは、さらに大胆な目標も掲げられています。

 

 「Paints-Undoをスケッチガイド付き画像ジェネレーターと組み合わせて『Paints-Redo』を実現し、完成/未完成の作品を任意に前進/後退させ、人間の創造力を高めます」(イリヤさん)

 

 Paints-Undoが「過去」の過程に戻すことができるのならば、それらを発展させ、絵を描いている最中に、「次に何をすればいいのか」ということをAIが補助して提案してくれるようになるということです。ある線を描いたときに、「次の線はここです」とガイドする。将棋で言えば「次の手はここです」ということをAIにサジェストさせるようなことをクリエイティブ向けにやりたいと言っているわけです。

 

 イリヤさんが実際にPaints-Redoを作り上げるまでやるのかはわかりませんが、そういう事ができる可能性があることを具体的に示したということは、ブレイクスルーと言ってもいいでしょう。

 

Paints-Undoは新たな方法の始まりにすぎない

 Paints-Undoの公開されたソースコードを使って、可能性を広げる試みも始まっています。琥珀青葉さんはステップ2で生成した画像を組み合わせることで、線画を生み出すスケッチジェネレーターを作成しました。

 

Making something interesting pic.twitter.com/TRWMZTDusJ

 

― 琥珀青葉@LyCORIS (@KBlueleaf) July 11, 2024

 toyxyzさんは、ステップ2で生成する画像をすべて自分で指定することができるように改造して、ステップ3の動画を自分でコントロールすることができる仕組みを公開しました。マルチフレームモデルが、ToonCrafterの進化版としても、優れているという評価もあり、実際にそれを実践してみたもので、動画では次々に服がアニメーションをして切り替わっているように見えます。

 

Paints-Undo test #stablediffusion#AIイラスト#AIpic.twitter.com/UDsqdZ4Hjj

 

― toyxyz (@toyxyz3) July 12, 2024

 今後、Paints-Undoの「工程を生成する」という考え方は、様々なところに波及すると思います。Paint-Undoの生み出す動画の品質は、あくまでタイムラプス風でしかなく、まだまだ大したものではないとも言えます。ただ、一度方法が確立されると、品質は上昇していくのは、技術分野での常であります。そのため、時間が経つほど、人間の実際の描画の再現を生成AIが実現するようになる可能性は十分にあります。それが、人間の創造性の補助としてどのように機能していくのかは、時代が進んでみないと、わからないことではありますが。

 

 

筆者紹介:新清士(しんきよし)

1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』(NHK出版新書)がある。

 

文● 新清士 編集●ASCII