AI用語の基礎知識

【第7回】「マルチモーダル」とは――文字だけでなく画像・音声・動画も理解するAI

2026年5月25日 07:00

「マルチモーダル」。マルチなモーさんじゃありません。（筆者がChatGPT Image 2で生成）

　AIは、文章を書くことだけに使われるものではなくなってきました。【第6回】「ディープフェイク」で説明したように、人の顔を合成したり、声をまねたりすることもできます。また、写真や動画の内容を説明するAIも登場しています。

　こうした進化を理解するうえで重要な言葉が「マルチモーダル」です。

文字・画像・音声・動画をまとめて扱うAI

「マルチモーダル」とは、文字、画像、音声、動画など、複数の種類の情報を組み合わせて扱えることを指します。AIの文脈では、テキストだけでなく、写真を読み取ったり、音声を聞き取ったり、動画の内容を説明したりできるAIを「マルチモーダルAI」と呼びます。

　以前から、音声認識AI、画像認識AI、翻訳AI、文章生成AIなどは存在していました。たとえば、

「音声認識」→「文字起こし」→「要約」

　というように、音声をまず文字に変換し、その文字を別のAIが要約する、といった使い方です。同様に、

「画像認識」→「ラベル付け」→「文章化」
「OCR」→「文章解析」

　といった処理もありました。

　これに対し、最近のマルチモーダルAIでは、文字・画像・音声・動画などを、より統合的に扱えるようになっています。たとえば、写真を見せて「何が写っているか」を説明させたり、画面のスクリーンショットから操作方法を尋ねたり、インタビュー音声を聞かせて要点やアクションアイテムをまとめさせたりできます。

　この連載原稿から毎回イラストを生成しているのも、読者のみなさんならお気づきかもしれません（笑）。

そう、この原稿からイラストを生成しております。マルチモーダルの賜物です。（筆者がChatGPT Image 2で生成）

　ただし、これは「AIが人間のように目や耳を持った」という意味ではありません。複数の情報形式をAIが処理しやすい形に変換し、それらの関係をまとめて扱えるようになってきた、ということです。

　たとえるなら、別々の専門家がバケツリレーで処理していたものを、ひとつの頭の中で文字・画像・音声を関連づけながら考えているように見える、ということです。

　人間の仕事や生活は、もともと文字だけで完結していません。資料、グラフ、画面、写真、会議音声、動画、手書きメモなど、さまざまな情報を組み合わせて判断しています。つまり、私たちの日常やビジネスの現場そのものが、もともとマルチモーダルなのです。

　その意味では、AIがマルチモーダルになるのは自然な流れともいえるでしょう。

　マルチモーダルAIは、AIが「文章を書く道具」から、「人間が扱うさまざまな情報をまとめて処理する道具」へ変化しつつあることを示しています。

　ただし、現在のマルチモーダルAIにも弱点があります。AIは画像や音声を扱えるようになったからといって、人間と同じように理解しているわけではありません。

　たとえば、「画像を見間違える」、「図表を誤読する」、「音声を聞き間違える」、「動画の文脈を取り違える」。「もっともらしく説明してしまう」といった問題は、マルチモーダルAIにも起こります。

　【第2回】「ハルシネーション」でも解説したように、AIは便利ですが、常に正しいとは限りません。マルチモーダルAIについても、「見えているものを必ず正しく理解しているわけではない」ことを意識して使う必要があります。