画像認識

ViT(Vision Transformer)

読み方: ビジョントランスフォーマー

ViT(Vision Transformer) とは

Vision Transformerの略。画像をパッチに分割してトークン列として扱い、NLPで成功したTransformerアーキテクチャをそのまま適用する画像モデル。十分なデータがあればCNNを超える性能を発揮し、DALL-E・Stable DiffusionなどのマルチモーダルAIの基盤技術となっている。
用語集一覧に戻る