日本初の自動運転向けVLAデータセット「コブラ」　Turing

AI要約

日本初の自動運転向けVLAモデルデータセット「CoVLA(コブラ) Dataset」の開発と公開。

自動運転技術の進展に向けたマルチモーダル大規模言語モデルの重要性と不足している課題。

CoVLA Datasetを活用したモデルの性能検証結果や今後の展望について。

完全自動運転技術の開発に取り組むTuringは、日本初の自動運転向けVLAモデルデータセット「CoVLA(コブラ) Dataset」を開発し、一部を公開した。

経済産業省/NEDOの生成AI開発支援「GENIAC」の開発の一環として実施されたもの。このほかにも、自動運転マルチモーダルモデルのベースとなる日本語LLM「Llama-3-heron-brain-70B,8B」や、高速なマルチモーダル分散学習ライブラリ「vlm-recipes」、大規模視覚－言語データセット「Wikipedia-Vision-JA」「Cauldron-JA」など複数成果を公開している。

複雑かつ予期しない状況下でも適切に対応可能なシステムを構築する必要がある完全自動運転では、画像(視覚)やテキスト(言語)など複数種類のデータを用いて高度な判断を行なうことができるマルチモーダル大規模言語モデル(MLLMs)が重要な技術となる。

しかし、同領域ではAI学習用にアノテーション(AIの学習用データに人間が正解や説明などを付け加える作業)された大規模なデータセットが不足していることがボトルネックで、End-to-End(E2E)自動運転システムの経路計画における応用研究がほとんど見られないのが現状という。

「CoVLA(Comprehensive Vision-Language-Action) Dataset」は、こうした課題を解決するために同社が開発。車載センサーデータを含む80時間以上の運転データで構成され、データの規模とアノテーションの多様さにおいて国外の既存データセットを上回る。

データ処理からキャプション生成まで自動化したスケーラブルな手法で構築しており、同データセットを用いて開発したVLAモデル「CoVLA-Agent」は、画像から得た運転環境を自然言語で詳細に説明し、適切な経路計画を生成することが可能になる。

CoVLA Datasetを活用したMLLMsの能力を検証した結果、同モデルが一貫性のある言語生成と行動出力において優れた性能を示し、視覚・言語・行動データを用いたVLAモデルが自動運転分野において効果的なアプローチであることを確認できたという。

同社は今後、学術機関向けにCoVLA Datasetの全データセットを公開することも視野に、より安全かつ信頼性の高い自動運転システムの実現を目指すとしている。

もう一つの成果の一つである「Llama-3-heron-brain-70B, 8B」は、日本の言語ニュアンスや道路状況を詳細に理解し、対応可能な指示学習済みの日本語LLM。自動運転に向けた視覚－言語マルチモーダルモデルをベースにしており、MetaのLlama-3に対して日本語での継続事前学習を実施した後、さらに追加の指示調整を実施している。

GENIACプロジェクトで言語性能を測る共有ベンチマークにおいてはgpt-3.5-turboを上回る結果を示し、事業者間でも2番目のスコアを記録するなど、高い日本語・英語性能を有している。また、これらをベースとした最大730億パラメータの視覚－言語モデルについても学習を実施しており、開発を進めている。

なお、「CoVLA Dataset」は、コンピュータービジョンの国際会議「WACV 2025(IEEE/CVF Winter Conference on Applications of Computer Vision 2025)」において、同データセットの研究論文「CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving」が採択されている。