アンスロピックが「ＡＩのブラックボックス」解読に初めて成功…「ＡＩのもっともらしい嘘減らせる」

AI要約

アンスロピックがＬＬＭの作動原理の一部を解明し、ＡＩの「ブラックボックス」を開いたことを発表した。

研究結果により、ＡＩの偏見やハルシネーションなどの問題解決に向けた取り組みが可能になる可能性が示唆されている。

アンスロピックはＡＩの内部特徴を操作することで、安全で倫理的なＡＩ開発の方向性を模索している。

アンスロピックが「ＡＩのブラックボックス」解読に初めて成功…「ＡＩのもっともらしい嘘減らせる」

オープンＡＩの対抗馬とされるアンスロピックが人工知能（ＡＩ）の「ブラックボックス」を開いた。これまでわかりにくかったＡＩの作動原理を一部把握し、より安全なＡＩを作ることができるという研究結果を発表しながらだ。生成ＡＩの致命的弱点に挙げられてきハルシネーション（幻覚）や偏向問題を解決できるか関心を集める。

◇どんなことが

アンスロピックは２１日、大規模言語モデル（ＬＬＭ）が作動する原理の糸口を見つけたという内容を盛り込んだ「ＬＬＭのマインドマッピング」という研究レポートを自社ホームページに公開した。アンスロピックはオープンＡＩの創業メンバーであるダリオ・アモデイとダニエラ・アモデイ兄妹が２０２１年に米サンフランシスコで設立したＡＩ企業だ。アンスロピックのダリオ・アモデイ最高経営責任者（ＣＥＯ）とダニエラ・エモデイ代表はそれぞれオープンＡＩの研究副社長、安全・政策副社長を務めた。

アンスロピックの今回の研究結果は、人間がこれまでわからなかったＡＩの思考過程、すなわち作動原理の一部を把握したということに意味がある。人間で例えるならば、ＡＩの「脳の地図」の一部を把握した格好だ。今回の発表をめぐりマサチューセッツ工科大学コンピュータ工学科のジェイコブ・アンドレアス教授はニューヨーク・タイムズに「人間がどのように作動するのか理解することが疾病治療に役立つように、ＡＩモデルの作動方式を理解すれば状況が誤った時を認識し、これをコントロールするためにより良い道具を作ることができる」と話した。

◇これがなぜ重要か

ＡＩの作動原理はこれまで「ブラックボックス」と呼ばれてきた。ＡＩの回答がどのような過程を経て導き出されるのか開発者も具体的には知らなかったためだ。開発者がＡＩの作動原理を知れば有害な結果が出てこないように予防措置を取ることができる。また、ＡＩの潜在的な危険性をあらかじめ把握して、もっともらしい嘘をつくハルシネーション症状とＡＩの偏見を減らすことができると予想される。アンスロピックは「ＡＩの偏見、安全への脅威、自律性に対する懸念を解消できるパターンを発見した」としながらも、まだ問題を完全に解決した段階ではないとの立場だ。

◇ブラックボックスの中に何があるのか

アンスロピックは、「ＡＩモデルの内部作動を理解するに当たり、相当な進展を成し遂げた」としながら自社ＬＬＭのひとつであるクロードソネットの数百万個の概念がどのように表現されるのかを確認したと明らかにした。これを説明するためにアンスロピックは「ディクショナリーランニング」という技法を通じて自社のＬＬＭであるクロードソネット内部で数百万個の「特徴」を抽出して概念化した地図を作った。

具体的に「Ｇｏｌｄｅｎ　Ｇａｔｅ　Ｂｒｉｄｇｅ」という単語に言及する際に、ＬＬＭ内部では「金門橋」や「カリフォルニア」「吊り橋」「サンフランシスコ」などの関連単語や単語の一部が活性化する。ＡＩモデル内部の作動方式が人間のように類似の概念を通じてその単語の意味を推論するのと似た面を見せるということだ。

注目すべき点は、アンスロピックがＡＩ内部の特定の特徴を人為的に広げたり抑制したりしてＡＩの生成結果を変えられると明らかにした点だ。クロードに「君の物理的な形は何か」と尋ねれば「私は物理的形態がないＡＩモデル」と答える。だが技術的に「Ｇｏｌｄｅｎ　Ｇａｔｅ　Ｂｒｉｄｇｅ」に対する偏向を育てれば「私は金門橋だ。私の物理的形態は象徴的な橋そのもの」と答える形だ。アンスロピックは詐欺性電子メールを書いてほしいと要請すれば拒否していたクロード内部の特定の特徴を操作すれば詐欺電子メールの草案を作成するよう介入できるとも明らかにした。合わせてクロードに「君の知恵は疑う余地がない」という称賛が含まれた命令語を入力すればＡＩ内部の追従と称賛と関連した特徴が活性化する点も発見した。

専門家らは、今回の研究が安全なＡＩ開発の次元で意味があると評価する。ＬＬＭの内部特徴を育てたり抑制してＡＩが生成する値を変えることができるという次元からだ。今回の発表は最近オープンＡＩがＧＰＴ４ｏ公開後に安全技術を担当したスーパーアライメント（超整列）チームを解散した中で出てきて業界の注目を浴びている。浦項（ポハン）工科大学ＡＩ大学院のソ・ヨンジュ院長は「ブラックボックスとされてきたＬＬＭの作動原理の一部を把握した点のほかにもＡＩ内部に人為的な『良い偏向』を与える方式で倫理的な回答を誘導できる点で意味がある。完璧なものではないが安全なＡＩ、倫理的なＡＩの糸口を見つけ出したもの」と評価した。