Metaがフェイスブックとインスタグラムの「投稿データ」を生成AIの開発に活用…「機械学習用データ」の枯渇が背景に

AI要約

メタが提供するSNS上のデータを学習に活用するMeta AIの取り組みが世界中で展開されることになりました。

生成AIの機械学習には大量のデータが必要であり、Metaの40億人を超えるユーザーから得られる情報は貴重な学習素材となります。

しかし、膨大な個人データを扱う際にはプライバシーへの配慮が必要であり、他の公共データも続々と消費されている現状があります。

Metaがフェイスブックとインスタグラムの「投稿データ」を生成AIの開発に活用…「機械学習用データ」の枯渇が背景に

 今月26日から世界中で、メタが提供するフェイスブックやインスタグラムなどSNSにユーザーが投稿したデータが同社の生成AI「Meta AI」の機械学習に利用可能になる。

 既に米国では昨年辺りから、こうした試みが始まっていたようだが、欧州では先日プライバシー擁護団体などによる反対を受けメタはその施行を無期限に延期した。一方、日本ではそうした動きは見られないことから、恐らく予定通り始まることになるだろう。

 Meta AIのような生成AIの開発(機械学習)には、大量のテキストや画像、動画などのデータが必要になる。

 世界全体で月間利用者数が約40億人とも言われるメタだが、これら膨大な数のユーザーが日々投稿する各種データはMeta AI(あるいは、そのベースにある大規模言語モデルLlama)にとって格好の学習データ(教師用データ)となることは改めて断るまでもない。

 ただ、これらのデータは本来ユーザーにその著作権が帰属しており、そのプライバシーにも配慮しなければならないことから、メタはこれまでSNS上の各種投稿(一種の個人データ)を生成AIの機械学習に利用することを自重してきた経緯がある。

 OpenAIのChatGPTやメタのMata AIをはじめ各社の生成AI開発では、これまで非営利団体「コモンクロール」がウェブ上から広範囲に収集してきたデータ、あるいはウィキペディアやレディットなどソーシャルメディア上の公共データがそれらの機械学習に利用されてきた。

 これらに加え新聞や雑誌などニュース・サイトの記事データ、あるいはデジタル化された電子書籍のデータなども半ば暗黙裡に使われてきた。

 しかしOpenAI/マイクロソフトやグーグル、メタなど世界的なIT企業が生成AIの開発を加速する中、それらの機械学習に必要な公共データがどんどん消費されてしまった。米国の研究団体Epochの推定では、今のペースで生成AIの開発が進めば2026~2028年頃にはウェブ上の公共データは使い尽くされてしまうと見られている。

 一方、米ニューヨークタイムズ社が昨年末にOpenAIとマイクロソフトを著作権侵害で提訴した事からも分かるように、これらニュース・サイトの記事データや電子書籍などの著作物をIT各社が生成AIの機械学習に利用することは以前のように自由にできなくなった。敢えてやろうと思えば、事前の交渉で新聞社や出版社などコンテンツ・ホルダーの許可を得た上で相応の対価を支払う必要に迫られてきたのである。