Diffusers のサンプルプログラムを読み解いてみた
Diffusers に付属する公式サンプル train_text_to_image.py を題材に、初期化処理・モデル構造・データセットの前処理・学習ループの流れを丁寧に読み解いた解説記事です。Accelerate や ZeRO3、EMA、VAE/CLIP/U-Net の役割、ノイズスケジューラによる forward/reverse diffusion の仕組みなど、テキスト条件付き拡散モデルのトレーニング全体像を把握できるよう整理しています。