画像認識ViT(Vision Transformer)読み方: ビジョントランスフォーマーViT(Vision Transformer) とはVision Transformerの略。画像をパッチに分割してトークン列として扱い、NLPで成功したTransformerアーキテクチャをそのまま適用する画像モデル。十分なデータがあればCNNを超える性能を発揮し、DALL-E・Stable DiffusionなどのマルチモーダルAIの基盤技術となっている。関連用語トランスフォーマー自然言語処理CNN(畳み込みニューラルネットワーク)画像認識画像認識画像認識マルチモーダルAI画像認識ViT(Vision Transformer)に関連するAIツールGeminiGoogleが開発したマルチモーダルAIアシスタント。テキスト・画像・音声・動画を統合処理できる次世代AIで、Googl...画像認識の他の用語画像認識CNN(畳み込みニューラルネットワーク)物体検出AI画像生成拡散モデル(Diffusion Model)OCR(光学文字認識)用語集一覧に戻る