画像認識

ViT（Vision Transformer）

読み方: ビジョントランスフォーマー

ViT（Vision Transformer）とは

Vision Transformerの略。画像をパッチに分割してトークン列として扱い、NLPで成功したTransformerアーキテクチャをそのまま適用する画像モデル。十分なデータがあればCNNを超える性能を発揮し、DALL-E・Stable DiffusionなどのマルチモーダルAIの基盤技術となっている。

画像認識の他の用語

画像認識 CNN（畳み込みニューラルネットワーク）物体検出 AI画像生成拡散モデル（Diffusion Model）OCR（光学文字認識）

用語集一覧に戻る

ViT（Vision Transformer）

ViT（Vision Transformer） とは

関連用語

画像認識の他の用語

ViT（Vision Transformer）とは