Any GPT

Any GPT插图

Any GPT

AnyGPT是一个统一的多模态大型语言模型,利用离散表示进行各种模态的统一处理,包括语音、文本、图像和音乐。AnyGPT可以在不改变当前大型语言模型架构或训练范式的情况下稳定训练。它完全依赖于数据级预处理,促进了新模态无缝集成到语言模型中,类似于新的语言的加入。我们构建了一个用于多模态对齐预训练的以文本为中心的多模态数据集。利用生成模型,我们合成了第一个大规模的任意到任意的多模态指令数据集。它由10.8万个多轮对话样例组成,多种模态交织在一起,因此使模型能够处理任意组合的多模态输入和输出。实验结果表明,AnyGPT能够促进任意到任意的多模态对话,同时在所有模态上达到与专用模型相当的性能,证明了离散表示可以有效且方便地在语言模型中统一多个模态。

需求人群:

[“进行多模态聊天”,”支持语音助手等应用”,”创作多模态内容”]

产品特色:

支持语音、文本、图像和音乐多种模态的输入和输出

可以进行多轮多模态交织的对话

在各个模态上都能达到专用模型的水平

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享