几小时前,Stability AI宣布了SDXL ,这是Stable Diffusion文本到图像模型套件中最先进的开发。继4月Stable Diffusion XL测试版成功发布后,SDXL 在图像和构图细节方面比前代产品有了大幅改进。
该模型可以通过ClipDrop访问,API即将推出。随着我们进入,研究权重现在可以使用,7月中旬将公开发布。
尽管SDXL 能够在现代消费GPU上运行,但它在生成人工智能图像的创造性用例方面实现了飞跃。SDXL能够为电影、电视、音乐和教学视频生成超现实的创作,并为设计和工业应用提供进步,使其处于人工智能图像现实世界应用的前沿。
SDXL系列还提供了一系列超越基本文本提示的功能。其中包括图像对图像提示(输入一个图像以获得该图像的变体)、修复(重建图像的缺失部分)和外涂(构建现有图像的无缝扩展)。 引擎盖下面是什么? SDXL 的组成进步的关键驱动因素是其参数计数(模型训练的神经网络中所有权重和偏差的总和)比测试版显著增加。 SDXL 是所有开源图像模型中参数计数最多的模型之一,拥有的参数基础模型和的参数模型集成管道(最终输出是通过在两个模型上运行并聚合结果来创建的)。管道的第二阶段模型用于向第一阶段的生成输出添加更精细的细节。
相比之下,测试版运行在参数上,只使用一个模型。 SDXL 在两个CLIP模型上运行,其中包括迄今为止训练过的最大的OpenCLIP模型之一(OpenCLIP ViT-G/14),它增强了的处理能力和创建更大深度和1024x1024的更高分辨率的逼真图像的能力。 SDXL团队不久将发布一个研究博客,详细介绍该型号的规格和测试。
系统要求 尽管SDXL 具有强大的输出和先进的型号架构,但它能够在现代消费级GPU上运行,只需要一个Windows 10或11或Linux操作系统,带有16GB RAM,一个配备至少8GB VRAM的Nvidia GeForce RTX 20显卡(等效或更高标准)。Linux用户还可以使用带有16GB VRAM的兼容AMD卡。
Beta发布统计数据 自SDXL于4月13日推出测试版以来,我们的Discord社区收到了近7000名用户的热烈响应。这些用户已经生成了70多万张图像,平均每天超过2万张。超过54000张图片已被输入Discord社区的“决战”,3521张SDXL图片被提名为获胜者。
可利用性 SDXL 现在可以在Clipdrop by Stability AI平台上使用。Stability AI API和DreamStudio客户将于6月26日(星期一)访问该模型,以及其他领先的图像生成工具,如NightCafe。
SDXL 将仅在有限的时间内提供用于研究目的,以收集反馈并在正式公开发布之前对模型进行全面完善。运行它的代码将在Github上公开。
如果研究人员想访问这些模型,请使用以下链接申请:SDXL--Base模型和SDXL--Refiner。请使用您的学术电子邮件登录您的HuggingFace帐户以请求访问。请记住,目前,SDXL 仅用于研究目的。
接下来是什么? SDXL 之后将于7月中旬全面公开发布SDXL (时间待定)。
许可证 是在非商业、仅限研究的许可证下发布的,并受其使用条款的约束。