OpenAI、AIによる文章を高精度で検出するツールを開発か

AI要約

人工知能（AI）を使用した不正行為が広まっている大学生に対し、OpenAIがAI生成文章を99.9％の精度で検知する手法を開発したと報じられている。

この新しい手法は、ハルシネーション（AIが事実と異なる情報を作り出す現象）を見破るものではないが、高い精度でAI生成文章を特定することが可能であるとされている。

しかし、一部の改ざんには対応できないことや他のAIモデルによる文章を検知できないことが指摘されている。

　BestCollegesの調査によると、大学生の半数以上が人工知能（AI）を使って不正を働いているという。この割合は、学生の60～70％に不正行為が見つかったとするスタンフォード大学の調査結果と一致している。だが、AIが怠惰な学生の論文作成ツールではなくなる日が間もなく来るかもしれない。「OpenAIは、論文などを書くために『ChatGPT』を利用したことを確実に検知する手法を知っている」と、The Wall Street Journal（WSJ）が報じたからだ。しかも、その精度は99.9％だという。

　OpenAIは、この新たな手法がどのようにAIの書いた文章をほぼ完璧に特定できるのか、詳細を一切明らかにしていない。少なくとも、AIのハルシネーション（幻覚：AIが事実と異なる情報を勝手に作り出してしまう現象）を見破れるようになったからでないことは明らかだ。OpenAIの共同創設者であるJohn Schulman氏は昨年、「われわれの最大の懸念は事実性にまつわるものだ。なぜなら、モデルは事実をねつ造する傾向があるからだ」と語っている。

　この状況が変わることは決してないだろう。機械学習のテストサービスを手がけるKolenaの共同創設者で最高経営責任者（CEO）を務めるMohamed Elgendy氏は、次のように述べている。「ハルシネーションが起きる割合は減少するだろうが、なくなってしまうことは決してない。高度な教育を受けた人でも誤った情報を流すことがあるのと同じことだ」

　どうやらOpenAIは、魔法のような手法でAIの書いた文章を見つけ出すのではなく、はるかにシンプルな方法でAI生成文章を検知しているようだ。このサービスは、出力結果に透かしを入れているのかもしれない。

　OpenAIは、米国時間8月4日に更新した「Understanding the source of what we see and hear online」と題するブログ記事で、AIが作成した成果物を見つけ出すために、分類子、透かし、メタデータを使っていることを明らかにした。もっとも、この透かしを用いた手法がどのように機能するのか、正確なことは分かっていない。

　分かっているのは、この手法が「書き換えなどの部分的な改ざんに対して、極めて正確に機能し、効果的でさえある」とOpenAIが述べていることだけだ。ただし、この透かしを使った手法は、「全面的な改ざんに対してはそれほど強力ではない」という。

　そのため、文章を翻訳するような改ざんや、各単語の間に特殊文字を挿入してから削除するといった単純な改ざんに対しては、この手法はあまり機能しない。そしてもちろん、他のAIモデルで作成された文章を見つけ出すことも不可能だ。例えば、「Perplexity」やGoogleの「Gemini」で作成された文書をこのChatGPTのAI文章検出ツールに取り込んでも、おそらくAIによる文章とは識別できないだろう。

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。

教育技術 AI セキュリティ OpenAI 不正行為検知改ざん