Vision Transformer入門
自然言語処理分野におけるブレイクスルーとなったTransformerをコンピュータビジョンに応用したモデルがVision Transformer(ViT)です。
さまざまなコンピュータビジョンのタスクにおいて,ディープラーニングではスタンダードとなっているRNN,CNN,および既存手法を用いた処理精度を上回ることが確認されています。
本書は注目のViTの入門書です。
Transformerの成り立ちからはじめ,その理論と実装を解説していきます。
今後のViTの活用が期待される応用タスク,ViTから派生したモデルを紹介したあと,TransoformerとViTを分析し,その謎を解明していきます。
今後も普及が期待されるViTを盛りだくさんでお届けします。
更新中です。しばらくお待ちください。