Instruct-Imagen
Instruct-ImagenInstruct-Imagen是一个多模态图像生成模型,通过引入多模态指令,实现对异构图像生成任务的处理,并在未知任务中实现泛化。该模型利用自然语言整合不同的模态(如文本、边缘、风...
SCEdit
SCEditSCEdit是一个由阿里巴巴提出的高效的生成模型精调框架。该框架增强了下游文本到图像生成任务的精调能力,并实现了对特定生成场景的快速适配,相比LoRA可以节省30%-50%的训练内存成本。此外,...
audio2photoreal
audio2photorealaudio2photoreal是一个从音频生成照片级逼真avatar的开源项目。它包含了一个pytorch实现,可以从音频中合成交谈中的人类形象。该项目提供了训练代码、测试代码、预训练的运动模型...
Wild2Avatar
Wild2AvatarWild2Avatar是一个用于渲染被遮挡的野外单目视频中的人类外观的神经渲染方法。它可以在真实场景下渲染人类,即使障碍物可能会阻挡相机视野并导致部分遮挡。该方法通过将场景分解为三...
A Vision Check-up
A Vision Check-up这篇论文系统评估了大型语言模型(LLMs)生成和识别逐渐复杂的视觉概念的能力,并展示了如何使用文本模型训练初步的视觉表示学习系统。虽然语言模型不能直接处理像素级的视觉...
aAMUSEd
aAMUSEdaMUSEd是一个开源平台,提供各种自然语言处理(NLP)模型、数据集和工具。其中包括aMUSEd,一个基于MUSE的轻量级遮蔽图像模型(MIM),用于文本到图像的生成。相比于潜在扩散(latent di...
TWIN PICS
TWIN PICSTWIN PICS是一款利用人工智能技术进行图像匹配和生成的产品。用户可以通过AI创建与指定图片最接近的图像,并进行两次微调。同时,用户还可以描述一张图片,然后AI将生成相应的图像。产...
Mickey-1928
Mickey-1928Mickey-1928是一个针对Stable-Diffusion-xl模型微调后的版本,训练数据集包含96张迪士尼1928年前公有领域动画片《小飞象》、《汽船威利号》和《疯狂的高卢》中的静态画面。该模型可以...
Midjourney Prime & Style
Midjourney Prime & StyleMidjourney Prime & Style是一款AI图像生成与管理工具。它使用ChatGPT生成强大的Midjourney提示,可以轻松生成多样化的场景变体,并将其整理管理。该工具还可...
sd4j
sd4jsd4j是一个使用ONNX Runtime的Stable Diffusion推理Java实现,以C#实现进行了优化移植,带有重复生成图像的图形界面,并支持负面文本输入。 旨在演示如何在Java中使用ONNX Runtime,以及获得良...