ミニバッチ学習とは？

AIの学習では、大量のデータを一度に処理するのではなく、小さなかたまり（＝ミニバッチ）に分けて順番に処理する手法がよく使われます。たとえば1000枚の画像を使って学習する場合、一度に1000枚ではなく、32枚ずつ（＝バッチサイズ32）処理するといった具合です。

たとえ話：物差しとミニバッチの関係

ミニバッチのサイズ選びは、調整精度と安定性のトレードオフです。

**フルバッチ（全部まとめて学習）**は、ちょうど1mm単位の微調整をしたいのに、1メートルの土木用の物差しを使っているようなもの。精度は出せますが、柔軟な反応ができません。大きすぎる物差しではいつまでたっても位置を特定できない。
小さすぎるバッチは、数メートル先の位置を調整したいのに、10cmのミニ定規しか使えないようなもの。すぐ反応はできるけど、ブレやすい。局所最適にはまりやすい。

そのため、多くの現場では16〜128程度の「ちょうどいいサイズ」のミニバッチが使われます。

クッション：なぜミニバッチが重要なのか

学習中のAIモデルは、1回のバッチで得られた損失や勾配をもとにパラメータを更新します。そのため、バッチサイズが大きすぎると柔軟な調整ができず、小さすぎると逆にブレやすくなってしまいます。

ミニバッチは、「ある程度の平均的な傾向を保ちながらも、学習の方向性を柔軟に変えられる」というバランスを担う存在です。

GPUメモリが足りないときの対処法

バッチ学習には大量のGPUメモリが必要になります。（理由は後述）GPUメモリが4GBなど限られている環境では、大きなミニバッチは使えません。その際は以下の工夫が有効です：

バッチサイズを小さくする（例：16以下）
torch.cuda.empty_cache() で都度メモリ解放
Gradient Accumulation（勾配の蓄積）を使う

# 勾配の蓄積の一例
accum_iter = 4  # ミニバッチ4回で1回の最適化
for i, (x, y) in enumerate(dataloader):
    output = model(x)
    loss = criterion(output, y)
    loss = loss / accum_iter
    loss.backward()
    if (i + 1) % accum_iter == 0:
        optimizer.step()
        optimizer.zero_grad()

なぜ大量のメモリが必要なのか？

ミニバッチの1単位ごとに、以下のような情報をメモリ上に保持する必要があります：

入力データそのもの（画像・テキストなど）
各層を通過した中間出力（特徴マップなど）
勾配計算に必要な情報（バックプロパゲーション用）

たとえば、1枚の画像が224×224ピクセル、3チャンネル（RGB）で、float32（1ピクセル4バイト）なら、1枚あたり約0.6MB。32枚なら約20MBですが、モデルの中間層の出力や勾配情報なども含めると、数百MB〜数GBに膨れ上がります。これが、GPUメモリを大量に消費する理由です。

ミニバッチが小さすぎるとどうなる？

局所最適にハマりやすい：ノイズが多すぎて、正しい方向に進めなくなる
収束が不安定：学習がふらつきやすくなる

そのため、小さいバッチにするなら、学習率の調整や勾配の蓄積などとセットで行うのがベストです。

まとめ

ミニバッチ学習は、限られたリソースの中で効率よくモデルを育てるための工夫です。小回りのきくAI学習を実現するために、あなたの環境に合った最適なバッチサイズを見つけてみましょう。

ミニバッチ学習とは？