GigaGAN论文项目页
各维度得分依据公开资料与字段推算,加权后即综合评分,仅供参考。
GigaGAN(域名gigagan.com)是由POSTECH、卡内基梅隆大学、Adobe Research机构的研究者联合推出的大规模文本到图像生成研究项目,成果发表于CVPR 2023。项目核心是解决一个行业疑问:在扩散模型、自回归模型已经成为文生图主流架构的当下,传统GAN架构能否通过规模化训练达到同等甚至更优的效果?最终研究团队推出了10亿参数的GigaGAN架构,重新证明了GAN在通用文生图任务中的竞争力。
GigaGAN的核心能力是文本到图像生成,同时自带多个特色功能:首先是高速推理,生成一张512px分辨率的图像仅需要0.13秒,速度比主流扩散模型、自回归模型快几个数量级;其次是高效超分辨率上采样,GigaGAN训练了专门的上采样器,既可以处理真实图像,也可以对扩散模型等其他文生图模型的输出进行放大,仅用3.66秒就能生成1600万像素的4K图像;最后是可控性,GigaGAN继承了GAN架构解耦、连续的可控潜空间,支持解耦提示词插值、粗到细风格交换、向量运算等编辑操作,可以实现布局保留的精细化风格控制——比如固定“桌上泰迪熊”的布局,仅更换泰迪熊的材质为摇粒绒、钩针、牛仔皮草等,操作灵活度优于很多主流扩散模型。
在客观指标上,GigaGAN的FID得分低于Stable Diffusion v1.5、DALL·E 2和Parti-750M,生成质量已经达到主流水平。
优点方面,GigaGAN最突出的优势就是速度和可控性,在批量生成场景下的体验远优于扩散模型,同时潜空间的编辑灵活性也保留了GAN架构的传统优势。缺点则非常明显:目前该网站仅发布了研究论文和项目介绍,没有开放公开可用的在线生成服务,也未提及模型权重的开放下载信息,普通用户无法直接使用,仅对学术研究者和开发人员有参考价值。
目前抓取内容仅包含项目介绍内容,未测试网站连通性,访问状态未知。
整体来看,gigagan.com是一个优质的顶尖学术项目官网,为文生图领域提供了扩散模型之外的新方向,技术参考价值很高。
本测评基于公开资料整理,不构成购买建议,请以 gigagan.com 官网实际信息为准。
Adobe/CMU等CVPR图像生成研究资料。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。