生活网10月27日 消息:FreeU是一种新的人工智能技术,旨在提高生成模型的质量,而无需额外的训练或微调。它采用概率扩散模型,这是一种先进的生成模型类别,特别适用于与计算机视觉相关的任务。
与其他生成模型类别不同,如变分自动编码器(VAE)、生成对抗网络(GAN)和矢量量化方法,扩散模型引入了一种新颖的生成范式。这些模型利用固定的马尔科夫链来映射潜在空间,从而促进捕捉数据集中潜在结构复杂性的复杂映射。
项目地址:https://chenyangsi.top/FreeU/
最近,这些模型在各种计算机视觉应用中展示出了卓越的生成能力,包括图像合成、图像编辑、图像到图像的转换以及文本到视频的生成。
扩散模型包括两个主要组件:扩散过程和去噪过程。在扩散过程中,高斯噪声逐渐加入输入数据,逐渐将其转化为几乎纯粹的高斯噪声。
相反,在去噪过程中,通过一系列学习的反向扩散操作来恢复原始输入数据。通常,使用U-Net来预测每个去噪步骤中的噪声去除。现有研究主要集中在使用预训练的扩散U-Net进行下游应用,对扩散U-Net的内部特性进行了有限的探讨。
一项联合研究从扩散模型的传统应用中出发,通过研究扩散U-Net在去噪过程中的有效性,引入了一种新的方法,称为“FreeU”,它可以在不需要额外计算负担的情况下增强生成样本的质量。
在推理阶段,引入了两个专门的调制因子,以平衡主干和跳跃连接的特征贡献。首先,称为“主干特征因子”的因子旨在放大主干的特征图,从而增强去噪过程。
然而,观察到主干特征缩放因子的引入,虽然带来了显著的改进,但有时会导致不必要的纹理过度平滑。为了解决这个问题,引入了第二个因子,“跳跃特征缩放因子”,以减轻纹理过度平滑的问题。
FreeU框架展示了与现有扩散模型的无缝适应性,包括文本到图像生成和文本到视频生成等应用。通过使用稳定扩散、DreamBooth、ReVersion、ModelScope和Rerender等基本模型进行基准比较,对这种方法进行了全面的实验评估。当在推理阶段应用FreeU时,这些模型显示出生成输出质量的显著提升。总之,FreeU是一种引人注目的技术,可以显著提高生成模型的质量,而无需额外的训练或微调,已在多个应用中得到成功应用。