谷歌 Fluid 颠覆共识,AI 文生图领域自回归模型超越扩散模型
简要介绍下这两种模型:
扩散模型 (Diffusion Models): 这是一种最近非常热门的内容生成技术,它模拟的是信号从噪声中逐渐恢复的过程。扩散模型通过迭代地减少随机噪声来生成高质量的图像、文本和其他形式的数据。比如应用于图像生成领域中的 DDPM(离散扩散概率模型)及其变体就有很高的关注度。
自回归模型 (Autoregressive Models): 自回归模型预测序列中的下一个元素时,依赖于前面的元素。在文本生成领域,像基于 Decoder-only 的 GPT 系列(如 GPT-3、GPT-4)就是典型的自回归模型,它们逐词预测下一个词,从而生成连贯的文本段落。
谷歌 DeepMind 和 MIT 团队通过深入研究,发现了使用连续 tokens(非离散 tokens)和采用随机生成顺序(非固定顺序)两个关键设计因素,显著提高了自回归模型的性能和可扩展性。
团队表示在离散 tokens 为每个图像区域分配一个来自有限词汇的代码,这会导致信息丢失,而连续 tokens 可以更精确地图像信息存储,减少信息丢失。这让模型能够更好地重建图像,提高视觉质量。
此外大多数自回归模型以固定顺序生成图像,而 Fluid 采用随机生成顺序,让模型能够在每一步预测任意位置的多个像素,这种方法在理解整体图像结构时表现更为出色。
Fluid 模型结合了连续标记和随机生成顺序后,当其规模扩大到 105 亿参数时,Fluid 在重要基准测试中超越了 Stable Diffusion 3 扩散模型和谷歌此前的 Parti 自回归模型。
与 Parti 相比,Fluid 显示出显著的改进:拥有 200 亿参数的 Parti 在 MS-COCO 上达到了 7.23 的 FID 分数,而仅有 3.69 亿参数的小型 Fluid 模型却达到了相同的分数。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
-
华为生日礼券有什么用
华为生辰礼券有什么用是大家比拟关注的,究竟华为作为比拟受大家喜爱的品牌,很多友友都在应用,而近期该品牌新上线的生辰礼品券成了很多友 [详细] -
华为生日礼券哪些城市可以到线下领取礼物
华为生辰礼券是你购置了华为的产品就可以享有的福利,但是吧由于不是每个处所都有兑换礼物的实体店,所以华为生辰礼券哪些城市可以到线下领 [详细] -
华为会员生日礼物必须去直营店才能领到吗
华为会员生辰礼物必需去直营店能力领到吗是当下大家最为关注的话题,究竟就某书友友们晒出的礼物照片,还是值得跑一趟的,但是吧由于线下华 [详细] -
北方冬天白天冷还是晚上冷2024
随着冬季的来临,我国大部分地域的的气温都开端骤降,也正是因为这样北方冬天白天冷还是傍晚冷成了日常生活中大家茶余饭后讨论的焦点,下面 [详细] -
别来沾边是什么综艺
别来沾边是gai在很早以前中国新说唱里的豪言壮语,作为rapper的语言都是给人很冲的感到,其实gai本人挺有趣的,近期在《中国说唱巅峰对决》 [详细]