画像認識

ViT(Vision Transformer)

読み方: ビジョントランスフォーマー

ViT(Vision Transformer) とは

Vision Transformerの略。画像をパッチに分割してトークン列として扱い、NLPで成功したTransformerアーキテクチャをそのまま適用する画像モデル。十分なデータがあればCNNを超える性能を発揮し、DALL-E・Stable DiffusionなどのマルチモーダルAIの基盤技術となっている。
用語集一覧に戻る

無料診断

あなたに合ったAIツールを今すぐ見つけよう

1,200以上のAIツールから、課題・業界・予算で絞り込み。資料請求不要。

AIツール診断をはじめる