Universal Adversarial Purification with DDIM Metric Loss for Stable Diffusion-AAAI-4.22
Paper信息
- 题目: Universal Adversarial Purification with DDIM Metric Loss for Stable Diffusion
- 期刊名+时间: The Fortieth AAAI Conference on Artificial Intelligence (AAAI-4.22), 2026年
- 作者: Li Zheng, Liangbin Xie, Jiantao Zhou, He YiMin
论文的创新点
首次提出了一种针对 Stable Diffusion 的通用对抗净化框架 (UDAP),通过最小化新颖的 DDIM Metric Loss 并结合动态迭代策略,高效、无差别地清除了各类生成模型专属的对抗噪声 。
理论:无论是攻击 UNet 还是 VAE,对抗样本最终会在隐空间引入误差,且由于扩散模型的 Lipschitz 连续性,该误差在 DDIM 反演过程中会被显著放大 。
现象:实验观察到,干净图像的 DDIM 重建 $L_2$ 误差极小(如 0.004),而各类对抗样本的重建误差均显著偏高(如 PID 为 0.669)。因此,该误差可作为区分和消除对抗噪声的理想指标 。
一、 为什么误差会被放大?
论文的核心思路是:对抗样本经过 DDIM 反演重建后,其与原图的距离会被急剧放大。论文通过以下完整的数学推导证明了这一点 :
定义对抗样本与噪声预测偏差: 假设有一张干净图像 $x$,攻击者加入微小扰动 $\delta$(满足$||\delta||_p \le \xi$),生成对抗样本$x^{adv} = x + \delta$ 。 一个成功的对抗攻击,必然会导致扩散模型 $\epsilon_\theta$ 在预测噪声时产生显著偏差 $Q$(Q 代表人眼可察觉的明显距离):
$$||\epsilon_{\theta}(x,t,c) - \epsilon_{\theta}(x^{adv},t,c)|| \ge Q$$(eq. 1)
DDIM 正向加噪过程的误差累积: 根据 DDIM 反演的定义,时间步 $t$ 的状态可表示为 :
$$x_t = \sqrt{\overline{\alpha}_t}x + \sqrt{1-\overline{\alpha}_t}\epsilon$$据此计算干净样本和对抗样本在时间步 $t$ 时的距离 :
$$||x_t - x_t^{adv}||=||\sqrt{\overline{\alpha}_t}(x-x^{adv})+\sqrt{1-\overline{\alpha}_t}(\epsilon_{\theta}(x,t,c)-\epsilon_{\theta}(x^{adv},t,c))||$$(eq. 2)
代入公式 1,可得:$||x_t - x_t^{adv}|| \ge ||\sqrt{\overline{\alpha}_t}\delta + \sqrt{1-\overline{\alpha}_t}Q||$ 。
关键点:当时间步 $t$ 趋近于最大步数 $T$ 时,由定义可知 $\overline{\alpha}_t \to 0$ 。因此公式简化为:
$$||x_t - x_t^{adv}|| \approx Q$$(eq. 3)
利用李普希茨连续性(Lipschitz Continuity)推导最终距离: 由 DDIM 的可逆性可知,既然对抗样本状态 $x_t^{adv}$ 服从高斯分布,必然存在一个原空间的样本 $x’0$,使得 $x_t^{adv} = q\theta(x’_0, t, c)$ 。 这意味着重建图像 $\hat{x}_0^{adv} \approx x’_0$ 。 (公式 4) 假设模型训练良好,满足李普希茨常数 $L_t$ 的连续性条件 :
$$\frac{||x_t - x_t^{adv}||}{||x_0 - x'_0||} \le L_t$$(eq. 5)
将公式 3 和公式 4 代入公式 5,并且由于扰动极小($x^{adv} \approx x$),得到:
$$||x^{adv} - \hat{x}^{adv}|| \ge \frac{Q}{L_t}$$(eq. 6)
终极结论:因为在扩散模型中,当 $t \to T$ 时,$L_t \ll 1$ 。因此:
$$||x^{adv} - \hat{x}^{adv}|| \geq \frac{Q}{L_t} \gg Q$$(eq. 7)
这在数学上严谨地证明了:对抗样本经过重建后,它与原图的距离会被放大到一个远大于 $Q$ 的值 。而干净图像的重建距离则非常小 。
二、 算法层面的具体计算框架(Inversion Optimization)
基于上述数学证明,UDAP 的具体计算过程(代码实现逻辑)如下 :
1. 初始化与正向反演计算 (Forward Inversion)
编码:输入图像 $x$ 通过冻结参数的 VAE 编码器得到隐变量 $z_0^0 = \mathcal{E}(x)$ 。
扩散计算:在第 $k$ 轮 Epoch,利用冻结的 UNet $\epsilon_\theta$,将隐变量 $z_0^k$ 通过函数 $q_\theta$ 扩散至指定的时间步 $\hat{T}$(实验中设定 $\hat{T}=10$)。计算公式为连乘概率:
$$q_{\theta}(z_{1:\hat{T}}^{k}|z_{0}^{k}) = \prod_{t=1}^{\hat{T}}q_{\theta}(z_{t}^{k}|z_{t-1}^{k})$$(eq.8)
2. 反向降噪重建计算 (Backward Denoising)
降噪计算:以倒推的隐变量 $z_{\hat{T}}^k$ 为起点(设为 $\hat{z}{\hat{T}}^k$),利用函数 $p\theta$ 将其采样回时间步 0 。计算公式为:
$$p_{\theta}(\hat{z}_{\hat{T}-1:0}^{k}|\hat{z}_{\hat{T}}^{k}) = \prod_{t=1}^{\hat{T}}p_{\theta}(\hat{z}_{t-1}^{k}|\hat{z}_{t}^{k})$$(eq. 9)
解码:利用冻结的 VAE 解码器将重建隐变量转换为图像像素:$\hat{x} = \mathcal{D}(\hat{z}_0^k)$ 。
3. 计算目标损失函数并更新梯度
Loss 计算:计算原图 $x$ 与重建图像 $\hat{x}$ 像素级别的 $L_2$ 损失距离的平方 :
$$\mathcal{L}_{DDIM} = ||\mathcal{D}(p_{\theta}(\hat{z}_{\hat{T}-1:0}^{k}|q_{\theta}(z_{1:\hat{T}}^{k}|z_{0}^{k}))) - x||_{2}^{2}$$(eq.10)
梯度更新:定义优化问题(P.1),模型所有权重冻结,仅将隐变量 $z_0^k$ 视为可训练参数。通过反向传播求 $\mathcal{L}_{DDIM}$ 对 $z_0^k$ 的梯度,并进行一步优化更新,得到 $z_0^{k+1}$ :
$$\min_{z_{0}^{k}}\mathbb{E}_{\epsilon_{\theta},z_{0}^{0}=\mathcal{E}(x)}[\mathcal{L}_{DDIM}(x, z_{0}^{k}, c, \hat{T})]$$(eq. 11)
三、 动态退出机制的定量计算(Dynamic Epochs)
并不是所有图片都要算满 100 个 Epoch,具体怎么控制停止?
1. 阈值 $\tau$ 的估算方法 作者利用 ImageNet 中的 $N$ 张($N=1000$)干净图像 ,计算它们在同样流程下的平均 $\mathcal{L}_{DDIM}$ 作为基准线 :
$$\tau \approx \frac{1}{N}\sum_{n=1}^{N}\mathcal{L}_{DDIM}(x_{n},\epsilon_{\theta},c,\hat{T})$$(eq.12)
实验得出的确切计算值为 $\tau = 4 \times 10^{-3}$ 。
2. 循环控制判定 在得到新的隐变量 $z_0^{k+1}$ 后,计算此时对应的 $\mathcal{L}_{DDIM}$ 。
Coding设置
判定 1:若 $\mathcal{L}_{DDIM} > \tau$ 且未达到最大 Epoch数 $K$($K=100$),则认为对抗噪声未消除干净,进入下一次迭代 。
判定 2:若 $\mathcal{L}_{DDIM} \le \tau$ ,说明该隐变量的重建表现已经与常规干净图像无异,达到“充分净化”的标准 。循环强制停止,并用解码器输出最后的净化图像 $x’$ 。
数据集:VGGFace2 和 CelebA-HQ,选取了 100 个身份 (IDs),每个 ID 包含 4 张图片 。
攻击方法设置:涵盖 VAE 针对性攻击 (PID)、UNet 针对性攻击 (Anti-DB)、混合攻击 (MIST),以及增强型自适应攻击 (Anti-DF, MetaCloak) 。
参数与环境:在 8 张 NVIDIA A6000 GPU 上运行,400 张 $512\times512$ 图像耗时约 20 分钟(平均 3 秒/张)。设定最大 Epoch $K=100$,DDIM 反演总步数 $T=20$,最大深度 $\hat{T}=10$ 。
评估指标:使用 DreamBooth 微调 SD 模型以验证生成质量,指标包括 FDFR, ISM, SER-FQA, BRISQUE, FID, NIQE 。
对照组:对比了常规扩散净化基线模型 DiffPure 和 GridPure 。





