OpenAI发布全新扩散模型方法——sCM

OpenAI又有新动作了！10月24日凌晨，OpenAI正式发布全新扩散模型方法——sCM，将开启视频，图像、三维模型、音频等实时、高质量、跨领域的生成式人工智能新阶段！

sCM实现AI生成效率提升50倍，仅需2步就能生成高质量图片、3D模型等，特别是在高分辨率任务上相当出色。目前未为止，扩散模型生成图片最快的是Stability AI开源的SD快速版本，仅需4步就能生成高质量图片。

sCM作为其前期一致性模型研究的延续和改进，简化了理论框架，实现了大规模数据集的稳定训练，同时保持了与领先扩散模型Diffusion models相当的样本质量，但仅需两步采样即可完成生成过程，OpenAI同时发布了相关研究论文(两位华人作者全都毕业于清华)

一、sCM核心原理

sCM的核心原理是通过直接将噪声转换为无噪声样本来生成数据，基于一致性模型思路，可找到一条更直接的路径，在单步或少数几步内直接从噪声状态跳跃到数据状态。在传统扩散模型中，数据生成过程被视作一条从噪声到数据的渐进路径，每一步都通过去噪来逐渐恢复数据的清晰度。

另外sCM还采用了连续时间框架，让模型在理论上可以在连续的时间轴上进行操作，在连续时间于一致性模型中，模型的参数化、扩散过程和训练目标都被重新定义，从而避免了离散时间模型中的离散化误差。例如模型的参数化直接依赖于时间本身，而不再依赖于离散的时间步，能够更精确地捕捉数据生成过程中的动态变化。

二、sCM网络架构

为提高模型的训练稳定性和生成质量，sCM新引入了改进的时间条件、自适应组归一化、新的激活函数和自适应权重，让模型能够更准确地感知时间t的变化，从而在生成过程中做出更合理的决策。自适应组归一化则有助于模型在训练过程中保持内部特征的稳定性，减少训练过程中的噪声干扰。新的激活函数被引入以增强模型的非线性表达能力，让模型能够更好地学习复杂的数据分布。而自适应权重的引入允许模型根据训练数据的分布动态调整损失函数中的权重，从而减少了不同时间步长之间的损失方差。

三、sCM与扩散模型关系

1、sCM是扩散模型的改进：sCM基于扩散模型的PF-ODE（概率流动常微分方程）来定义训练目标和采样路径，因此并不是一个完全独立的模型。

2、sCM关注单步去噪：sCM的训练目标是学习一个在单个时间步内有效去噪的函数，而不像扩散模型那样需要进行多步迭代去噪。

3、sCM采样速度更快：由于sCM仅需进行少量采样步骤（例如两步），其采样速度显著快于扩散模型。

4、sCM并非一步到位：sCM的单步去噪并不是一次性去除所有噪声，而是沿着PF-ODE的轨迹逐步朝向更清晰的方向移动，通过多次迭代操作最终实现去噪效果。

四、sCM评估结果

研究人员在CIFAR-10、ImageNet 64×64和ImageNet 512×512多个数据集上进行了sCM综合评测，在ImageNet 512×512数据集上，sCM的模型达到了1.88FID，同时使用的算力更少、更高效，总结出sCM是目前最高效的扩散生成方法。有网友表示，如果把这个方法用在视频领域，那实时视频可能很快会到来，那么Sora的推理负担也会降低很多。

广告合作
QQ群号：4114653

一、sCM核心原理

二、sCM网络架构

三、sCM与扩散模型关系

四、sCM评估结果

相关文章