生活网10月30日 消息:苹果最近推出了一款新的高分辨率图像生成模型,名为俄罗斯套娃式扩散模型(Matryoshka Diffusion Models,MDM),这标志着在生成式AI领域的重要突破。高分辨率图像生成一直是一个具有挑战性的任务,因为要处理大量的输入信息,需要深层架构和复杂的注意力机制。现有的方法往往受限于512x512分辨率,而且生成质量不如主流方法。
论文地址:https://arxiv.org/pdf/2310.15111.pdf
MDM采用了嵌套UNet架构,这使得多分辨率损失和渐进式训练成为可能。多分辨率损失有助于加速高分辨率输入的去噪,而渐进式训练计划则允许从低分辨率模型开始逐步添加高分辨率输入和输出,从而平衡了训练成本和模型质量。这一方法为高分辨率图像生成提供了更好的解决方案,同时避免了级联或潜在扩散方法的复杂性。
实验结果表明,MDM在图像生成、文本到图像和文本到视频生成等方面表现出了出色的性能,即使在相对小的数据集上,它也展现出了强大的零样本生成能力。这意味着MDM有望成为生成式AI应用的有力工具,为高分辨率图像和视频生成提供了更高效和质量更高的解决方案。
总之,苹果的俄罗斯套娃式扩散模型(MDM)为高分辨率图像生成带来了新的突破,通过嵌套UNet架构、多分辨率损失和渐进式训练,提高了生成效率和质量,同时避免了复杂的级联或潜在扩散方法。它在多个生成式AI应用领域都表现出了强大的潜力,为高分辨率图像生成提供了更好的解决方案。这一技术的发布将有望推动生成式AI领域的发展。