腾讯混元文生图模型全面开源

2024年 5月 14日 87.5k 0

腾讯旗下混元文生图大模型(混元DiT,Diffusion Models with Transformers)宣布全面开源。目前已经在Hugging Face平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

腾讯混元文生图模型全面开源-1

开源地址:https://dit.hunyuan.tencent.com/

腾讯混元文生图模型全面开源-2

腾讯混元文生图负责人卢清林表示,混元DiT开源的价值有两方面,一方面这是业内首个中文原生DiT架构,弥补了开源社区的空白;另一方面混元DiT为全面开放,与现网版本完全一致。

腾讯混元文生图模型全面开源-3

据卢清林介绍,之所以做这次开源尝试,是由于目前开源社区中技术快速迭代,缺乏先进、成熟的DiT架构可以开源利用。此外,现有模型对中文理解较差,中文应用场景受限。

此次开源的混元DiT采用了与Sora一致的DiT架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。还支持256字中文理解,全链路自研,也是一款原生中文模型,支持中英文双语输入及理解,参数量15亿。

腾讯混元文生图模型全面开源-4

评测数据显示,新一代腾讯混元文生图大模型视觉生成整体效果,相比前代提升超过 20%,在语义理解、画面质感与真实性方面全面提升,在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。

且最新的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型,是目前效果最好的开源文生图模型。

相关文章

塑造我成为 CTO 之路的“秘诀”
“人工智能教母”的公司估值达 10 亿美金
教授吐槽:985 高校成高级蓝翔!研究生基本废了,只为房子、票子……
Windows 蓝屏中断提醒开发者:Rust 比 C/C++ 更好
Claude 3.5 Sonnet 在伽利略幻觉指数中名列前茅
上海新增 11 款已完成登记生成式 AI 服务

发布评论