学术资讯 » 学界研圈

  • 首 页
  • 期刊选题
  • 期刊点评
  • 期刊大全
  • 学人博客
  • 编辑征稿
  • 投稿选刊
  • 投稿群聊
  • 学术会议
  • 万维读书
  • SCI/E期刊
  • SSCI期刊
  • AHCI期刊
  • 清华团队提出“高分辨率”图像生成方法:任意分辨率无缝衔接,极大降低训练和采样成本

    阅读: 2023/9/15 17:14:22

    在火热的“AI 图像生成”领域,任意不同分辨率的无缝衔接扩散模型,出现了。

    近日,来自清华大学和智谱 AI 的研究团队联合提出了一个新型级联模型——Relay Diffusion(RDM)。据介绍,运用该模型,扩散过程可以在任何新的分辨率或模型下无缝进行,而无需从纯噪声重新开始生成。

    相关研究论文以“Relay Diffusion: Unifying diffusion process across resolutions for image synthesis”为题已发表在预印本网站 arXiv 上,相关代码已发布在 GitHub 上。

    论文链接:

    https://arxiv.org/abs/2309.03350

    GitHub地址:

    https://github.com/THUDM/RelayDiffusion

    近些年来,扩散模型(Diffusion)在图像合成方面取得了巨大的成功,显著提升了

    合成的质量。然而,扩散模型在合成高分辨率

    时仍面临较大挑战,一是低分辨率的噪声调度很难直接用于高分辨率,研究者们需要为高分辨的场景谨慎地调节噪声调度表,且仍难以获得良好的结果;二是高分辨的训练过程需要大量资源,计算成本较高。

    目前,一种普遍采用的解决方案是 latent (stable) diffusion 提出的在隐空间内训练,再映射回像素空间,但这种方法不可避免地会受到底层伪影(low-level artifacts)的影响;另一种方案则是训练一系列不同分辨率的超分扩散模型构成级联,现有的级联方法是有效的,但它需要在每个阶段从噪音开始完整采样,效率较低,且效果严重依赖于条件增强等训练技巧。

    为了更好地解决上述问题,研究团队提出的级联模型 Relay Diffusion 在具备原有级联方法优点的同时,借助模糊扩散过程(blurring diffusion)和块状噪音(block noise),可以在任意不同分辨率间无缝衔接,就像“接力赛”一样,极大地减少了训练和采样的成本。

    据论文描述,通过离散余弦变换频谱分析发现,相同噪声强度在更高的分辨率下对应于频率空间的信噪比(SNR)在低频部分更高,这意味着自然图像的低频信息没有被很好地破坏掉。

    为此,该研究提出了一种像素点间具有相关性的块状噪音——block noise,它在高分辨率下对应的 SNR 在低频部分和高斯噪音在低分辨率下的 SNR 相当。

    以 64×64 和 256×256 为例,Relay Diffusion 的整体流程为:先通过标准扩散过程生成低分辨率

    ,再将其上采样为每个 4×4 网格具有相同像素值的模糊高分辨率

    ,之后对每个 4×4 的网格独立进行模糊扩散过程(blurring diffusion)。

    这样使得前向过程的终态和上采样的模糊

    对齐,因此 Relay Diffusion 的第二阶段可以直接以模糊

    为起始点,而不是现有级联方法中的纯高斯噪音。

    实验结果显示,相比传统的级联扩散模型,Relay Diffusion 在生成高分辨率

    时,省去了生成低频信息的部分,极大地节约了计算成本,同时更加简单,不需要以低分辨率

    为条件和各种条件增强技巧,而且不需要重新设计或调节噪声调度表。

    另外,Relay Diffusion 在节省成本的同时,还可以更快地达到更好的生成性能,在无条件数据集 CelebA-HQ-256 上达到了 SoTA 的 FID,在条件数据集 ImageNet-256 上达到了 SoTA 的 sFID 以及具有竞争力的 FID,大幅超过了 ADM、LDM、DiT 等模型。当不使用无分类器指导(CFG)时,Relay Diffusion 也显示出强大的性能优势。

    研究团队表示,本次研究提出的级联模型有助于创建更先进的文本到图像模型。

    未来,他们将继续把 Relay Diffusion 中的相关技术应用到通用领域的文生图模型中,从而推动该领域进一步的研究。

    转自:“学术头条”微信公众号

    如有侵权,请联系本站删除!


    浏览(196)
    点赞(0)
    收藏(0)
  • 上一篇:多吃这几类食物,可逆转免疫系统衰老!Nature子刊揭示关键机制

    下一篇:【香樟推文2952】提供额外的证书会改善工作搜寻的结果吗?——求职者技能信息受限下的求职与招聘

  • 首页

  • 文章

  • 期刊

  • 帮助

  • 我的

版权所有 Copyright@2023    备案号:豫ICP备2021036211号