アンスロピックが「AIのブラックボックス」解読に初めて成功…「AIのもっともらしい嘘減らせる」

AI要約

アンスロピックがLLMの作動原理の一部を解明し、AIの「ブラックボックス」を開いたことを発表した。

研究結果により、AIの偏見やハルシネーションなどの問題解決に向けた取り組みが可能になる可能性が示唆されている。

アンスロピックはAIの内部特徴を操作することで、安全で倫理的なAI開発の方向性を模索している。

アンスロピックが「AIのブラックボックス」解読に初めて成功…「AIのもっともらしい嘘減らせる」

オープンAIの対抗馬とされるアンスロピックが人工知能(AI)の「ブラックボックス」を開いた。これまでわかりにくかったAIの作動原理を一部把握し、より安全なAIを作ることができるという研究結果を発表しながらだ。生成AIの致命的弱点に挙げられてきハルシネーション(幻覚)や偏向問題を解決できるか関心を集める。

◇どんなことが

アンスロピックは21日、大規模言語モデル(LLM)が作動する原理の糸口を見つけたという内容を盛り込んだ「LLMのマインドマッピング」という研究レポートを自社ホームページに公開した。アンスロピックはオープンAIの創業メンバーであるダリオ・アモデイとダニエラ・アモデイ兄妹が2021年に米サンフランシスコで設立したAI企業だ。アンスロピックのダリオ・アモデイ最高経営責任者(CEO)とダニエラ・エモデイ代表はそれぞれオープンAIの研究副社長、安全・政策副社長を務めた。

アンスロピックの今回の研究結果は、人間がこれまでわからなかったAIの思考過程、すなわち作動原理の一部を把握したということに意味がある。人間で例えるならば、AIの「脳の地図」の一部を把握した格好だ。今回の発表をめぐりマサチューセッツ工科大学コンピュータ工学科のジェイコブ・アンドレアス教授はニューヨーク・タイムズに「人間がどのように作動するのか理解することが疾病治療に役立つように、AIモデルの作動方式を理解すれば状況が誤った時を認識し、これをコントロールするためにより良い道具を作ることができる」と話した。

◇これがなぜ重要か

AIの作動原理はこれまで「ブラックボックス」と呼ばれてきた。AIの回答がどのような過程を経て導き出されるのか開発者も具体的には知らなかったためだ。開発者がAIの作動原理を知れば有害な結果が出てこないように予防措置を取ることができる。また、AIの潜在的な危険性をあらかじめ把握して、もっともらしい嘘をつくハルシネーション症状とAIの偏見を減らすことができると予想される。アンスロピックは「AIの偏見、安全への脅威、自律性に対する懸念を解消できるパターンを発見した」としながらも、まだ問題を完全に解決した段階ではないとの立場だ。

◇ブラックボックスの中に何があるのか

アンスロピックは、「AIモデルの内部作動を理解するに当たり、相当な進展を成し遂げた」としながら自社LLMのひとつであるクロードソネットの数百万個の概念がどのように表現されるのかを確認したと明らかにした。これを説明するためにアンスロピックは「ディクショナリーランニング」という技法を通じて自社のLLMであるクロードソネット内部で数百万個の「特徴」を抽出して概念化した地図を作った。

具体的に「Golden Gate Bridge」という単語に言及する際に、LLM内部では「金門橋」や「カリフォルニア」「吊り橋」「サンフランシスコ」などの関連単語や単語の一部が活性化する。AIモデル内部の作動方式が人間のように類似の概念を通じてその単語の意味を推論するのと似た面を見せるということだ。

注目すべき点は、アンスロピックがAI内部の特定の特徴を人為的に広げたり抑制したりしてAIの生成結果を変えられると明らかにした点だ。クロードに「君の物理的な形は何か」と尋ねれば「私は物理的形態がないAIモデル」と答える。だが技術的に「Golden Gate Bridge」に対する偏向を育てれば「私は金門橋だ。私の物理的形態は象徴的な橋そのもの」と答える形だ。アンスロピックは詐欺性電子メールを書いてほしいと要請すれば拒否していたクロード内部の特定の特徴を操作すれば詐欺電子メールの草案を作成するよう介入できるとも明らかにした。合わせてクロードに「君の知恵は疑う余地がない」という称賛が含まれた命令語を入力すればAI内部の追従と称賛と関連した特徴が活性化する点も発見した。

専門家らは、今回の研究が安全なAI開発の次元で意味があると評価する。LLMの内部特徴を育てたり抑制してAIが生成する値を変えることができるという次元からだ。今回の発表は最近オープンAIがGPT4o公開後に安全技術を担当したスーパーアライメント(超整列)チームを解散した中で出てきて業界の注目を浴びている。浦項(ポハン)工科大学AI大学院のソ・ヨンジュ院長は「ブラックボックスとされてきたLLMの作動原理の一部を把握した点のほかにもAI内部に人為的な『良い偏向』を与える方式で倫理的な回答を誘導できる点で意味がある。完璧なものではないが安全なAI、倫理的なAIの糸口を見つけ出したもの」と評価した。