创新突破！字节跳动首创无需数据，1.58位超低量化自监督生成-龙跃AI

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

Midjourney、DALLE 3、SD3等模型的出现，使得文生图像赛道实现了快速发展。但这些模型的参数非常大，在推理、生成的过程中占用了大量内存，极大限制了使用场景和设备。

为了解决这一难题，字节跳动的研究人员发布了创新的量化方法，不需要访问任何实际的图像数据，仅依赖模型自身的自监督信号即可。研究人员在著名开源文生图像模型FLUX进行了实验。结果显示，成功将FLUX的模型量化到1.58位权重，仅用{-1, 0, +1}三种值就能表示而不是更高精度的浮点数。

尽管模型被量化到如此低的位数，但在生成 1024 x 1024 分辨率图像时，性能仍与未量化的模型基本一致。为了支持1.58位的运算，还开发了一个专用的计算内核，存储减少了 7.7 倍，推理内存减少了5.1倍，极大降低了对存储、内存的需求。

先为大家简单介绍一下什么是量化技术。量化是一种模型压缩技术，主要通过减少模型权重的精度来降低模型的大小和计算需求。在传统的深度学习模型中，权重通常以32 位浮点数存储，这占用了大量的内存空间。

量化技术通过将这些权重映射到更少的位表示，比如8 位或更低，从而显著减少了模型的存储需求。量化还可以减少模型在推理时的计算量，因为整数运算比浮点运算更快、更高效。

在1.58-位FLUX的研究中，量化的应用达到了一个新的巅峰，研究人员没使用常见的8 位或更低的精度，而是将FLUX模型中的权重量化到了1.58 位，仅用三个数值就能表示。虽然高性能量化方式极大地压缩了模型的大小，但也有一个很大难题，如何在低精度下保持模型的性能。

创新突破！字节跳动首创无需数据，1.58位超低量化自监督生成插图

为了实现这一目标，研究团队采用了一种后训练量化（PTQ）的方法。传统的 QAT 方法通常需要在模型训练过程中引入额外的量化操作，并对模型进行微调。这一过程往往涉及到复杂的训练机制调整和大量额外的计算资源投入。模型需要在训练过程中不断适应量化带来的精度损失，通过反向传播等技术手段来调整模型参数，以尽量减少量化对模型性能的影响。

而PTQ无需在训练过程中对模型进行繁琐的微调操作，直接聚焦于预训练好的模型进行量化处理，可以充分利用已经训练完成的 FLUX.1 – dev 模型所包含的丰富训练数据和强大能力，避免了重新训练所带来的巨大计算开销和时间消耗。

为了进一步确保 1.58 位 FLUX模型在推理过程中的高效性，研究团队在 PTQ 方法的基础上，还开发了专门针对 1.58 位操作优化的自定义内核。这个内核在模型推理过程中发挥着至关重要的作用。通过优化数据的存储结构和访问模式，使得模型在运行时能够以更低的内存占用实现高效计算。

创新突破！字节跳动首创无需数据，1.58位超低量化自监督生成插图1