マイクロソフト「MInference」はオンプレでの推論スピードを10倍アップ、クラウドに依存しない生成AI利用を促進する技術開発が加速

AI要約

AI利用のトレンドにおいて、コンシューマと企業で異なる方向性が見られる。

企業では機密性の高い情報を扱うため、オープンソースモデルの利用が増加している一方、小型言語モデルの開発が活発化している。

企業がオープンソースモデルをオンプレミスで利用する傾向が強まりつつある。

マイクロソフト「MInference」はオンプレでの推論スピードを10倍アップ、クラウドに依存しない生成AI利用を促進する技術開発が加速

コンシューマと企業、ともに生成AI利用が拡大しているが、それぞれに異なるトレンドが形成されている。

コンシューマ側では、ChatGPTやClaudeなどチャットツールに加え、これらの開発企業が提供するAPIをベースとするサードパーティツールの利用が広がりを見せる。一方、企業においては、同じくChatGPTやAPIの利用が散見されるものの、扱う情報の機密性が高い場合、情報漏洩などの懸念から、カスタマイズしたオープンソースモデルをオンプレミスで利用するケースが増えているのだ。

こうした企業の需要を反映する形で、小型言語モデル(SLM)に関連する動きが活発化している。たとえば、小型言語モデルの開発に特化したAIスタートアップAcree AIは、2024年1月に500万ドルのシード資金を調達したばかりだが、2024年7月にシリーズAの資金調達を実施、2,400万ドルを獲得した。

同社は、特定分野に特化した小型モデルの開発を強みとしており、短期間で、人事、税務、教育、医療分野における専門小型モデルの開発を担ってきた実績を持つ。これらの小型モデルは、70億パラメータほどでうまく機能するモデルであるという。ChatGPTのGPT-3.5のベースとなっているGPT-3️のパラメータ数1,750億と比較すると、サイズは25分の1だ。

2024年7月18日、NVIDIAとフランスのスタートアップMistral AIが共同で発表した「Mistral-NeMo」も小型言語モデルトレンドの強まりを示す事例といえるだろう。

このモデルは120億パラメータを持つ比較的小さなモデルで、クラウドではなく、企業のデスクトップでの利用が想定されている。特徴は、グーグルのGemma2️ 9B(90億パラメータ)やメタのLlama3 8B(80億パラメータ)など同サイズのモデルと比べて、圧倒的に多いコンテキストウィンドウだ。コンテキストウィンドウとは、プロンプトに入力できるデータの量。英語であれば100トークン、75ワードほどに換算される。

前者2モデルのコンテキストウィンドウがそれぞれ8,000トークンであるのに対し、Mistral NeMoは12万8,000トークンを誇るのだ。企業はクラウドに接続することなく、自社のオフラインPCでセキュアに、大量の文章を読み込ませ、さまざまなタスクを遂行できるようになると期待される。