そろそろ「日本語入力」にもAIパワーを注入してみないか?

AI要約

AI業界が活気づく中、日本語入力のAI活用が不十分であると指摘。

日本語入力の効率向上に向け、漢字変換の文脈読解や予測変換、英語混じり入力対応が必要。

GoogleやMicrosoftが進化につながる可能性があるが、Appleやジャストシステムにも期待。

そろそろ「日本語入力」にもAIパワーを注入してみないか?

 5月13日(現地時間)に米OpenAIが「GPT-4o」を発表したかと思えば、翌日のGoogle I/Oでは「Gemini 1.5 Pro」のアップデートと「Gemini 1.5 Flash」のリリースを発表するなど、AI業界がにわかに活気づいている。

 その他生成AIでも画像、音楽、動画といった分野で次々に画期的な機能が実装され、多くの人がその恩恵に預かろうという直前まで来ている。

 ただそれを横目に、AIの活用が十分になされていないのではないかと思われる分野が、「日本語入力」だ。OS標準の入力変換エンジン以外にも、Google日本語入力やATOKといった選択肢もあるが、AIの華々しい進化の恩恵にあずかっているようには思えない。「AIが自然な言葉で受け答え」も結構だが、まずは同音異義語の正しい選択や誤変換はどうにかならないのか。

 まだ組み込まれるのはこれからだと思いたいが、AIが組み込まれた日本語入力はどのようなものになるだろうか。今回はその期待も込めて、近い将来の日本語入力像を想像してみたい。

 日本語入力の効率が特に問題になるのは、論文や論考、研究レポート、あるいは小説や脚本といった長文を書くときであろう。これらは考えながら文章を練っていくので、誤った日本語変換の結果を修正するという余計な作業が入ってくると、その場で思い付いたなにかを取り逃してしまうことになりかねない。

 「効率が上がらない」とは、一般に修正に対する手作業が多くなることのように思われがちだが、問題の本質は、考える速度に対して文字化が追い付かないことである。キーボードをたたくスピードはトレーニングすれば済むだけの話だが、誤変換の箇所まで矢印キーで戻って変換し直すといった作業の発生は、人間の努力ではどうにもならない。

 われわれが日本語入力エンジンにサポートしてほしい機能にはいくつかある。順にあげていこう。

1.前後の文脈を読み取る漢字変換

 まず1つ目は、前後の文脈を読み取って同音異義語から適切な漢字を選択してくれることである。

 AppleがmacOSに提供している日本語入力エンジンには、「ライブ変換」というオプション機能がある。これは単語や連文節ごとに確定せず、なるべく未確定のままで長文入力することで、その未確定範囲内の文意を読み取り、正しい変換候補に後追いで変えるというものだ。

 これはおおむね正しく変換できるが、どちらでも意味が通る同音異義語に対しては無力である。つまり未変換の範囲しか見ていないため、文章全体で語られる内容までは把握できないという弱点がある。

 この機能を拡張し、すでに入力済みの文章全体を参照するとか、タイトルやサブタイトルとして入力した見出しや、そのファイルが保存されているディレクトリの名称などから、どういった内容や方向性で文章を記述しようとしているか、そうした文章全体の傾向を把握する機能は、将来的にあってもいいのではないか。

 もちろん作成中の文章は、表に出るまでは非公開の情報なので、AI経由で外に漏れてしまうのはまずい。ユーザーアカウントとひも付いた限定的な解析の実装が必要であろう。

2.広範囲に対応できる予測変換

 macOSのライブ変換では、一文全てを入力しきってしまわないと、正しく変換されないという弱点がある。つまり頭から尻尾まで、全文字をきっちりタイプしないと文にならないので、やたらとタイプ数が増える。

 一方でATOKは予測変換が優れており、文章を全部入力してしまわなくても、この先はこんな事を書くだろうと予測して変換候補を出してくれる。挨拶文や「よろしくお願いいたします」的な定型文などの決まった文言の入力なら、最初の数文字を入力したのち、出てきた予測変換で良ければTABキーを押すだけで入力完了できる。つまり全文をタイプしきらなくてもいいことになる。

 同じAppleの日本語変換でもiOSに実装されているものは、予測変換を強めにチューニングしてあるようだ。ただこれは、メッセージやSNS投稿など比較的短文で、予測しやすい内容であることが大きいだろう。

 現時点では、定型文ではない自由文入力では、この予測変換はうまく働かない。予測範囲が狭いのである。つまりこうしたコラムを書いている筆者には、余り恩恵がなく、せいぜい1文字とか2文字が節約できる程度である。

 書きかけの文の続きを作るといったことこそ、AIが得意とする分野ではないか。もちろん文章の論旨は人が書くにしても、文章の着地やむすび、送り仮名のようなものは予測変換で行けるはずだ。日本語の分の結びには、それほどバリエーションがいっぱいあるわけではない。

 これを実装する際の課題は、候補が出てくるスピードである。現時点のATOK予測変換のデメリットは、候補が出てくる前にタイピングが最後まで行ってしまって、使うチャンスがないということだ。

 現時点で日本語入力はコンピュータ内のリソースをあまり食わないが、こうした機能が実装されれば、常にオンライン上のAIと情報をやりとりするか、ローカルにある程度のサイズのデータベースを構築して使うことになるだろう。文章を書いているだけでCPU・GPUリソースが爆上がりするといったこともありうる。

3.英語混じりの入力対応

 技術系の文章を書く人を悩ませているのが、OS名や企業名など英語の固有名詞を文章の中に入れ込むことが多いところである。広く認知されれば片仮名でも理解してもらえるようになるが、なじみがない名称の場合は片仮名表記ではいまひとつパッと認識してもらえないということが起こるからだ。

 例えば「Apple」は「アップル」と書いても多くの人には問題なく認識してもらえるが、「エヌヴィディア」ぐらいになると微妙だ。「NVIDIA」と表記した方が、スッと目に入るだろう。

 こうした英単語混じりの入力を行う場合、確実にイメージする英単語を入力するには、日本語変換を切って英語入力モードに切り替えて入力するケースが多い。日本語変換でも、有名企業や汎用的な英単語は問題なく英語変換できるものもあるが、先頭は大文字にしたいとか、全部大文字にしたい場合に変換候補が示されないことも多い。

 こうした変換をスムーズに行うために、ユーザー辞書登録があるだろうといわれるかもしれないが、そうした登録行為をせず、一度入力したならそれをすぐ学習してくれないか、という話である。

 また正しい表記なのかのチェックも必要である。例えばMac用のOSは、正規の表現は「macOS」であり、「MacOS」ではない。だが多くの日本語変換では、「Mac」という固有名詞に引っ張られて、先頭を大文字で変換してしまう。

 macOSの日本語変換では、日本語変換を切らずにそのままつづりを入力すれば英語の候補を出してくれる機能もあるが、先頭が大文字とか小文字とかの融通が効かないため、結局は日本語入力を切って入力し直しになるケースが多い。大文字小文字などの表記が固定していない単語の場合は、ネット上ではどちらで表記する例が多いかといった割合も示してくれるとありがたい。

 こうした進化に一番近いところにいるのは、GoogleとMicrosoftだろう。共にAI開発に熱心に取り組んでおり、IMEも提供しているからだ。とはいえ、Google日本語変換はここのところ進化が見られず、開発が続行しているのかどうかも定かではない。もともとは長文を書くというより、Webテキスト用にフォーカスしているところもあり、今後の発展が見えづらいところだ。

 Microsoft IMEは、Windowsに付属しているということもあり、Windowsのアップデートと一蓮托生になっている。IME固有のバージョン表記も廃止されたので、Windowsのメジャーアップデートがなければ、IMEの大幅アップデートもないと考えるべきだろう。「Windows 12」が現段階ではいつになるのかも予測できないため、近々のIMEのアップデートもなさそうだ。

 Appleとジャストシステムに希望をつなぎたい。