画像認識

マルチモーダルAI

読み方: マルチモーダルエーアイ

マルチモーダルAI とは

テキスト・画像・音声・動画など複数のモダリティを統合処理するAIモデル。GPT-4V・Gemini Ultra・Claude 3などが代表例。「この画像について説明して」「グラフを分析して」など視覚と言語を組み合わせたタスクをこなせる。AIの実用性を大幅に拡張する次世代技術。
用語集一覧に戻る