Posted 2026-04-22Updated 2026-04-22Reading12 minutes read (About 1782 words)0 visits

Universal Adversarial Purification with DDIM Metric Loss for Stable Diffusion-AAAI-4.22

Paper信息

题目: Universal Adversarial Purification with DDIM Metric Loss for Stable Diffusion
期刊名+时间: The Fortieth AAAI Conference on Artificial Intelligence (AAAI-4.22), 2026年
作者: Li Zheng, Liangbin Xie, Jiantao Zhou, He YiMin

论文的创新点

首次提出了一种针对 Stable Diffusion 的通用对抗净化框架 (UDAP)，通过最小化新颖的 DDIM Metric Loss 并结合动态迭代策略，高效、无差别地清除了各类生成模型专属的对抗噪声。

理论：无论是攻击 UNet 还是 VAE，对抗样本最终会在隐空间引入误差，且由于扩散模型的 Lipschitz 连续性，该误差在 DDIM 反演过程中会被显著放大。
现象：实验观察到，干净图像的 DDIM 重建 $L_2$ 误差极小（如 0.004），而各类对抗样本的重建误差均显著偏高（如 PID 为 0.669）。因此，该误差可作为区分和消除对抗噪声的理想指标。

一、为什么误差会被放大？

论文的核心思路是：对抗样本经过 DDIM 反演重建后，其与原图的距离会被急剧放大。论文通过以下完整的数学推导证明了这一点：

定义对抗样本与噪声预测偏差：假设有一张干净图像 $x$，攻击者加入微小扰动 $\delta$（满足$||\delta||_p \le \xi$），生成对抗样本$x^{adv} = x + \delta$ 。一个成功的对抗攻击，必然会导致扩散模型 $\epsilon_\theta$ 在预测噪声时产生显著偏差 $Q$（Q 代表人眼可察觉的明显距离）：
$$||\epsilon_{\theta}(x,t,c) - \epsilon_{\theta}(x^{adv},t,c)|| \ge Q$$
(eq. 1)
DDIM 正向加噪过程的误差累积：根据 DDIM 反演的定义，时间步 $t$ 的状态可表示为：
$$x_t = \sqrt{\overline{\alpha}_t}x + \sqrt{1-\overline{\alpha}_t}\epsilon$$
据此计算干净样本和对抗样本在时间步 $t$ 时的距离：
$$||x_t - x_t^{adv}||=||\sqrt{\overline{\alpha}_t}(x-x^{adv})+\sqrt{1-\overline{\alpha}_t}(\epsilon_{\theta}(x,t,c)-\epsilon_{\theta}(x^{adv},t,c))||$$
(eq. 2)

代入公式 1，可得：$||x_t - x_t^{adv}|| \ge ||\sqrt{\overline{\alpha}_t}\delta + \sqrt{1-\overline{\alpha}_t}Q||$ 。

关键点：当时间步 $t$ 趋近于最大步数 $T$ 时，由定义可知 $\overline{\alpha}_t \to 0$ 。因此公式简化为：
$$||x_t - x_t^{adv}|| \approx Q$$
(eq. 3)
利用李普希茨连续性（Lipschitz Continuity）推导最终距离：由 DDIM 的可逆性可知，既然对抗样本状态 $x_t^{adv}$ 服从高斯分布，必然存在一个原空间的样本 $x’0$，使得 $x_t^{adv} = q\theta(x’_0, t, c)$ 。这意味着重建图像 $\hat{x}_0^{adv} \approx x’_0$ 。 (公式 4) 假设模型训练良好，满足李普希茨常数 $L_t$ 的连续性条件：
$$\frac{||x_t - x_t^{adv}||}{||x_0 - x'_0||} \le L_t$$
(eq. 5)

将公式 3 和公式 4 代入公式 5，并且由于扰动极小（$x^{adv} \approx x$），得到：
$$||x^{adv} - \hat{x}^{adv}|| \ge \frac{Q}{L_t}$$
(eq. 6)

终极结论：因为在扩散模型中，当 $t \to T$ 时，$L_t \ll 1$ 。因此：
$$||x^{adv} - \hat{x}^{adv}|| \geq \frac{Q}{L_t} \gg Q$$
(eq. 7)

这在数学上严谨地证明了：对抗样本经过重建后，它与原图的距离会被放大到一个远大于 $Q$ 的值 。而干净图像的重建距离则非常小。

二、算法层面的具体计算框架（Inversion Optimization）

基于上述数学证明，UDAP 的具体计算过程（代码实现逻辑）如下：

1. 初始化与正向反演计算 (Forward Inversion)

编码：输入图像 $x$ 通过冻结参数的 VAE 编码器得到隐变量 $z_0^0 = \mathcal{E}(x)$ 。
扩散计算：在第 $k$ 轮 Epoch，利用冻结的 UNet $\epsilon_\theta$，将隐变量 $z_0^k$ 通过函数 $q_\theta$ 扩散至指定的时间步 $\hat{T}$（实验中设定 $\hat{T}=10$）。计算公式为连乘概率：
$$q_{\theta}(z_{1:\hat{T}}^{k}|z_{0}^{k}) = \prod_{t=1}^{\hat{T}}q_{\theta}(z_{t}^{k}|z_{t-1}^{k})$$
(eq.8)

2. 反向降噪重建计算 (Backward Denoising)

降噪计算：以倒推的隐变量 $z_{\hat{T}}^k$ 为起点（设为 $\hat{z}{\hat{T}}^k$），利用函数 $p\theta$ 将其采样回时间步 0 。计算公式为：
$$p_{\theta}(\hat{z}_{\hat{T}-1:0}^{k}|\hat{z}_{\hat{T}}^{k}) = \prod_{t=1}^{\hat{T}}p_{\theta}(\hat{z}_{t-1}^{k}|\hat{z}_{t}^{k})$$
(eq. 9)
解码：利用冻结的 VAE 解码器将重建隐变量转换为图像像素：$\hat{x} = \mathcal{D}(\hat{z}_0^k)$ 。

3. 计算目标损失函数并更新梯度

Loss 计算：计算原图 $x$ 与重建图像 $\hat{x}$ 像素级别的 $L_2$ 损失距离的平方：
$$\mathcal{L}_{DDIM} = ||\mathcal{D}(p_{\theta}(\hat{z}_{\hat{T}-1:0}^{k}|q_{\theta}(z_{1:\hat{T}}^{k}|z_{0}^{k}))) - x||_{2}^{2}$$
(eq.10)
梯度更新：定义优化问题（P.1），模型所有权重冻结，仅将隐变量 $z_0^k$ 视为可训练参数。通过反向传播求 $\mathcal{L}_{DDIM}$ 对 $z_0^k$ 的梯度，并进行一步优化更新，得到 $z_0^{k+1}$ ：
$$\min_{z_{0}^{k}}\mathbb{E}_{\epsilon_{\theta},z_{0}^{0}=\mathcal{E}(x)}[\mathcal{L}_{DDIM}(x, z_{0}^{k}, c, \hat{T})]$$
(eq. 11)

三、动态退出机制的定量计算（Dynamic Epochs）

并不是所有图片都要算满 100 个 Epoch，具体怎么控制停止？

1. 阈值 $\tau$ 的估算方法 作者利用 ImageNet 中的 $N$ 张（$N=1000$）干净图像，计算它们在同样流程下的平均 $\mathcal{L}_{DDIM}$ 作为基准线：

$$\tau \approx \frac{1}{N}\sum_{n=1}^{N}\mathcal{L}_{DDIM}(x_{n},\epsilon_{\theta},c,\hat{T})$$

(eq.12)

实验得出的确切计算值为 $\tau = 4 \times 10^{-3}$ 。

2. 循环控制判定 在得到新的隐变量 $z_0^{k+1}$ 后，计算此时对应的 $\mathcal{L}_{DDIM}$ 。

Coding设置

判定 1：若 $\mathcal{L}_{DDIM} > \tau$ 且未达到最大 Epoch数 $K$（$K=100$），则认为对抗噪声未消除干净，进入下一次迭代。
判定 2：若 $\mathcal{L}_{DDIM} \le \tau$ ，说明该隐变量的重建表现已经与常规干净图像无异，达到“充分净化”的标准。循环强制停止，并用解码器输出最后的净化图像 $x’$ 。
数据集：VGGFace2 和 CelebA-HQ，选取了 100 个身份 (IDs)，每个 ID 包含 4 张图片。
攻击方法设置：涵盖 VAE 针对性攻击 (PID)、UNet 针对性攻击 (Anti-DB)、混合攻击 (MIST)，以及增强型自适应攻击 (Anti-DF, MetaCloak) 。
参数与环境：在 8 张 NVIDIA A6000 GPU 上运行，400 张 $512\times512$ 图像耗时约 20 分钟（平均 3 秒/张）。设定最大 Epoch $K=100$，DDIM 反演总步数 $T=20$，最大深度 $\hat{T}=10$ 。
评估指标：使用 DreamBooth 微调 SD 模型以验证生成质量，指标包括 FDFR, ISM, SER-FQA, BRISQUE, FID, NIQE 。
对照组：对比了常规扩散净化基线模型 DiffPure 和 GridPure 。

Universal Adversarial Purification with DDIM Metric Loss for Stable Diffusion-AAAI-4.22

Paper信息

论文的创新点

一、为什么误差会被放大？

二、算法层面的具体计算框架（Inversion Optimization）

三、动态退出机制的定量计算（Dynamic Epochs）

Coding设置

Comments

Catalogue

Links

New Article

Categories

Archives

Recents

Tags

Subscribe for updates

follow.it

Universal Adversarial Purification with DDIM Metric Loss for Stable Diffusion-AAAI-4.22

Paper信息

论文的创新点

一、 为什么误差会被放大？

二、 算法层面的具体计算框架（Inversion Optimization）

三、 动态退出机制的定量计算（Dynamic Epochs）

Coding设置

Comments

Catalogue

Links

New Article

Categories

Archives

Recents

Tags

Subscribe for updates

follow.it

一、为什么误差会被放大？

二、算法层面的具体计算框架（Inversion Optimization）

三、动态退出机制的定量计算（Dynamic Epochs）