Stability AI 发布 Stable Diffusion 3 早期预览版

2024年 2月 24日 77.2k 0

AI 创业公司 Stability AI 宣布其最新一代的文本图像模型 Stable Diffusion 3 开放预览,该版本目前仅限部分用户参与测试,主要是为了在正式发布前收集与性能和安全性相关的用户反馈。感兴趣的用户可以申请加入等候名单。

Stable Diffusion 3 早期预览版相比前代产品在图片质量、多主题展示和文字展示方面有大幅提升。Stable Diffusion 3 模型的参数规模从 8 亿 到 80 亿不等,其架构组合了 diffusion transformer(扩散变换架构)和 flow matching(流匹配),技术报告将在晚些时候公布。

性能的具体提升内容包括:

  1. 多主题提示处理能力: 新模型对于包含多个主题或元素的提示具有更好的理解和处理能力。这意味着用户可以在一个提示中描述更复杂的场景,而模型能够更准确地根据这些描述生成图像。
  2. 图像质量: Stable Diffusion 3在生成的图像质量上有显著提高,包括更细腻的细节表现、更准确的颜色匹配以及更自然的光影处理。这些改进使得生成的图像更加逼真,更能捕捉到用户的创意意图。
  3. 拼写和文本处理能力: 这个版本在处理文本元素,尤其是在图像中直接展现的文本(如标语、标签等)时,有更好的拼写能力和文本理解。这包括更准确地识别和渲染用户提示中的文字,甚至是在复杂的视觉背景中。

Stable Diffusion 3的性能提升不仅基于其先进的扩散变换架构,还包括了以下关键的技术创新和改进:

  1. 新型扩散变换器: Stable Diffusion 3采用了一种新型的扩散变换技术,与Sora类似,这种新技术为模型提供了更强大的图像生成能力。 Transformer 是一种深度学习模型,专门设计来逐步构建图像的细节,从而生成高质量的视觉内容。
  2. 流匹配与其他改进: 模型还整合了流匹配技术和其他技术改进,进一步增强了生成图像的质量和多样性。流匹配技术有助于模型更好地理解和模拟图像中的动态元素和结构,使得生成的图像在视觉上更加连贯和自然。
  3. 利用Transformer的改进: Stable Diffusion 3充分利用了Transformer技术的最新进展,这不仅使模型能够进一步扩展其能力,还使其能够接受多模态输入。这意味着模型能够处理更复杂和多样化的数据类型,如结合文本和图像的输入,从而在理解和生成图像内容方面提供更大的灵活性和精确度。

加入等候名单:https://stability.ai/stablediffusion3

相关文章

塑造我成为 CTO 之路的“秘诀”
“人工智能教母”的公司估值达 10 亿美金
教授吐槽:985 高校成高级蓝翔!研究生基本废了,只为房子、票子……
Windows 蓝屏中断提醒开发者:Rust 比 C/C++ 更好
Claude 3.5 Sonnet 在伽利略幻觉指数中名列前茅
上海新增 11 款已完成登记生成式 AI 服务

发布评论