BatchNorm/LayerNorm/InstanceNorm详解

核心一句话：三种 Norm 本质都在做 “标准化 + 可学习仿射变换”，差别只在于 均值/方差统计的维度不同，因此适用场景与工程表现不同。

1. 归一化（Normalization）的统一形式

对任意激活值 $x$ ，归一化可写为：

$\hat{x} = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}}$

$y = \gamma \hat{x} + \beta$

$\mu, \sigma^2$ ：在某些维度上统计得到的均值与方差（Norm 的核心差异）
$\epsilon$ ：数值稳定项，防止除 0
$\gamma, \beta$ ：可学习参数，给模型“恢复尺度/偏移”的能力

2. 以 CNN 特征为例：张量形状与维度

CNN 常见激活张量：

$x \in \mathbb{R}^{N \times C \times H \times W}$

$N$ ：batch size
$C$ ：通道数
$H, W$ ：空间大小

各种 Norm 的区别就是： $\mu, \sigma^2$ 是对哪些维度进行 reduce（求平均/方差）。

3. BatchNorm（BN）

3.1 统计方式：对每个通道，在整个 batch + 空间上统计

对每个通道 $c$ ：

$\mu_c = \frac{1}{NHW} \sum_{n,h,w} x_{n,c,h,w}$

$\sigma_c^2 = \frac{1}{NHW} \sum_{n,h,w} (x_{n,c,h,w} - \mu_c)^2$

归一化：

$\hat{x}_{n,c,h,w}=\frac{x_{n,c,h,w}-\mu_c}{\sqrt{\sigma_c^2+\epsilon}}$

3.2 核心特点

✅ 利用 batch 统计，训练稳定且通常收敛更快（尤其在 CNN 分类任务中）
✅ 对同一通道的不同样本进行对齐，有助于判别式学习
❌ 依赖 batch size：batch 太小统计不稳定（常导致性能下降）
❌ 训练与推理行为不一致：训练用 batch 统计，推理用 running mean/var

3.3 常见应用

CNN 图像分类（ResNet、VGG、EfficientNet 等）
batch size 充足、分布稳定的任务非常适合 BN

4. LayerNorm（LN）

4.1 统计方式：对每个样本，把一个样本的特征维度整体统计

对一个样本 $n$ ：

$\mu_n = \frac{1}{D} \sum_{d=1}^D x_{n,d}$

$\sigma_n^2 = \frac{1}{D} \sum_{d=1}^D (x_{n,d}-\mu_n)^2$

归一化：

$\hat{x}_{n,d}=\frac{x_{n,d}-\mu_n}{\sqrt{\sigma_n^2+\epsilon}}$

在 CNN 中常理解为：对每个样本，在 $C,H,W$ 上统计（即对 $CHW$ 求均值/方差）。

4.2 核心特点

✅ 不依赖 batch size（batch=1 也可稳定工作）
✅ 训练与推理一致，无需 running stats
✅ 非常适合序列建模、Transformer、RNN
❌ 在 CNN 分类中往往不如 BN（通道统计结构被混合）

4.3 常见应用

Transformer（BERT/GPT/ViT 等）
NLP、语言建模、自回归推理（batch 很小甚至为 1）

5. InstanceNorm（IN）

5.1 统计方式：对每个样本的每个通道，仅在空间维度统计

对每个样本 $n$ 、每个通道 $c$ ：

$\mu_{n,c}=\frac{1}{HW}\sum_{h,w}x_{n,c,h,w}$

$\sigma_{n,c}^2=\frac{1}{HW}\sum_{h,w}(x_{n,c,h,w}-\mu_{n,c})^2$

归一化：

$\hat{x}_{n,c,h,w}=\frac{x_{n,c,h,w}-\mu_{n,c}}{\sqrt{\sigma_{n,c}^2+\epsilon}}$

5.2 核心特点

✅ 不依赖 batch size
✅ 训练与推理一致
✅ 强烈去除每张图像的风格统计（对比度、亮度等）
❌ 在分类任务中可能损伤性能（因为全局强度信息被删除）

5.3 常见应用

风格迁移（Style Transfer）
图像生成任务（GAN、Diffusion 的部分结构中）
强调 “内容结构” 而非 “风格统计” 的场景

6. 三者对比总结（核心：统计维度不同）

Norm	均值/方差统计维度	是否依赖 batch	Train/Eval一致性	适用典型场景
BatchNorm	对每个通道，在 $N,H,W$ 统计	✅依赖	❌不一致（running stats）	CNN 分类、大 batch
LayerNorm	对每个样本，在特征维（如 $C,H,W$ 或 $D$ ）统计	❌不依赖	✅一致	Transformer/NLP/序列建模
InstanceNorm	对每个样本每个通道，在 $H,W$ 统计	❌不依赖	✅一致	风格迁移、生成模型