Vision Transformerの“パッチサイズ”を理解する

Transformerはもともと自然言語処理（NLP）向けに設計されたアーキテクチャで、単語の並びを系列データとして処理します。では、画像にTransformerを適用するには？そこで登場するのが パッチ分割（Patch Embedding） の考え方です。

ViT（Vision Transformer）では、画像を固定サイズのパッチ（例：16×16ピクセル）に細かく分割し、それぞれを「単語」のように扱います。たとえば224×224の画像なら、16×16パッチで 14×14 = 196個のパッチトークン に変換されます。

目的に応じてバランスを取る必要があります。

パッチ数Nが2倍になると、Self-Attentionの計算量は N² に比例して増えます。

イメージ：各パッチ（トークン）が、自分を含む全パッチを見渡して「どれをどれだけ重視するか」を学び、その重みで情報を混ぜ合わせる仕組みです。

技術的説明：各パッチから Query(Q)・Key(K)・Value(V) を作り、全パッチ対全パッチの関連度を計算して重み付き合計を作るしくみです。

attn = (Q @ K.transpose(-1, -2)) / (dk ** 0.5)
weights = attn.softmax(dim=-1)
out = weights @ V

前提の形状：Q, K, V はふつう (B, H, N, d_k)※注（Vは最後がd_vのことも）。
- B: バッチ数, H: ヘッド数, N: パッチ(トークン)数, d_k: キー/クエリの次元。※注
  1. B … Batch size（同時に処理するサンプル数）
  2. H … ヘッド数（Multi-Head Attention の“視点”の数）
  3. N … トークン数（ViTならパッチ数＋[CLS]など）
  4. d_k … 1ヘッドあたりの Key/Query の次元（しばしば d_model / H）
K.transpose(-1, -2)：負の次元は「後ろから数える」。-1=最後, -2=最後から2番目。K を (B,H,N,d_k)→(B,H,d_k,N) に転置し、Q @ K^T（内積）ができる形にする。
/ (dk ** 0.5)：√d_k で割るスケーリング。QK^T の値が次元に比例して大きくなり過ぎ、softmax が極端に尖るのを防いで勾配を安定させる（温度を下げるイメージ）。
.softmax(dim=-1)：attn は (B,H,N,N)。最後の軸（-1）=「各クエリに対する全キーの軸」。ここで正規化すると行ごとに合計1の重み（確率分布）になる。※ dim=1（ヘッド軸）で正規化すると意味が変わるのでNG。
out = weights @ V：形 (B,H,N,N) と (B,H,N,d_v) の積 → (B,H,N,d_v)。各クエリが全キーの V を重み付き合計した結果。

最新情報