混元DiT-腾讯最新开源的文生图AI模型

混元DiT是腾讯最新开源的文生图AI模型,采用了与Sora、Stable Diffusion 3相同的DiT(Diffusion With Transformer)架构,支持中英文双语输入及理解,参数量达到15亿。它是业界首个中文原生的DiT架构文生图开源模型,可以作为视频等多模态视觉生成的基础。

8846ab37f3f8efaa6c53c055ae12826e混元DiT的主要特点

  1. 中英双语DiT架构:混元DiT采用了与Sora和Stable Diffusion 3相同的DiT架构,这是一种结合了扩散模型和Transformer架构的技术。扩散模型是一种生成模型,能够生成高保真度的图像,而Transformer架构则是一种在自然语言处理(NLP)领域非常成功的模型结构。
  2. 中文元素理解:混元DiT支持中文和英文的输入及理解,尤其对中文语言和文化元素有更好的理解和生成能力。
  3. 长文本理解:混元DiT能分析和理解长篇文本中的信息并生成相应艺术作品。
  4. 细粒度语义理解:混元DiT能捕捉文本中的细微之处,从而生成完美符合用户需要的图片。
  5. 多轮对话文生图:混元DiT可以在多轮对话中通过与用户持续协作,精炼并完善的创意构想。
  6. 开源和免费商用:模型已在Hugging Face平台及Github上发布,包含模型权重、推理代码、模型算法等,可供免费商用。
97dce7c6039053560af248d09cb25704
混元DiT中文元素理解
混元DiT长文本理解

混元DiT的性能表现

为了全面比较HunyuanDiT与其他模型的生成能力,研究团队构建了4个维度的测试集,包括文本图像一致性、排除AI伪影、主题清晰度、审美。超过50名专业评估人员进行评估。

评测数据显示,其效果超过现有的开源Stable Diffusion模型,属于国际领先水平。

273ab6a82de9d88c5385159aa0c28bf8混元DiT的技术架构

混元DiT使用预训练的变分自编码器(VAE)将图像压缩到低维潜在空间中,并训练扩散模型以学习扩散模型的数据分布。混元DiT的扩散模型是用Transformer参数化的。为了对文本提示进行编码,混元DiT利用了预先训练的双语(英文和中文)CLIP和多语言T5编码器的组合。

19735bbbf66956e6fb990ab58b9d132d6acf39ec9d1d3ab2ab10769d84421946

如何使用混元DiT

目前,混元DiT已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

?混元DiT已上线到吐司AI绘画平台,欢迎使用:https://www.tusi.cn/

  • 官方项目地址:https://dit.hunyuan.tencent.com/
  • Hugging Face模型:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
  • Github源码:https://github.com/Tencent/HunyuanDiT
  • 技术报告:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

另外,腾讯也基于混元DiT开发了一个AI生图产品:腾讯混元生图,感兴趣的话,可以去体验下

© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享