Phi-3:微软公布的开源小型语言模型,支持移动设备

Phi-3 是微软 AI 研究院公布的一系列小型语言模型,开源可商用。Phi-3 系列包括三种模型:Phi-3-Mini、Phi-3-Small 和 Phi-3-Medium,它们在保持较小模型尺寸的同时,还能提供与大型模型相媲美的性能。这些模型特别适合于需要快速响应和低延迟的应用场景,同时还能减少对带宽和存储的需求,例如在移动设备或者边缘计算设备上。

Phi-3模型组成:

  • Phi-3-mini:mini是3.8B 的参数,3.3T token 训练数据。在多个学术基准测试中,Phi-3-mini 性能接近或等同于市场上的大型模型,例如在 MMLU 测试中得分为 69%,在 MT-bench 测试中得分为 8.38 分。
  • Phi-3-small:Small 是 7B 参数,4.8T token 训练数据,MMLU 75%,MT-bench 8.7 分。
  • Phi-3-medium: Medium 是 14B 参数,4.8T token 训练数据,MMLU 78%,MT-bench  8.9 分。

66d22cbe541165df23234c701165765fPhi-3的特色和优势

  1. 小型化:Phi-3 模型的体积小,特别是 Phi-3-Mini,只有 3.8B 参数,这使得模型可以在资源受限的设备上运行。
  2. 高性能:尽管模型小型化,Phi-3 在多个学术基准测试中表现出接近或等同于市场上大型模型的性能。
  3. 快速响应:Phi-3-Mini 能够在 iPhone 上每秒生成 16 个 token 的信息,这意味着它可以在移动设备上实现快速响应。
  4. 离线能力:Phi-3 模型支持离线运行,不需要互联网连接,这有助于保护用户隐私并减少对网络带宽的依赖。
  5. 多语言支持:Phi-3 的 Small 和 Medium 版本包含了多语言数据,虽然 Phi-3-Mini 主要处理英文,但未来可能会支持更多语言。
  6. 节省资源:Phi-3 的内存占用相对较低,这使得它能够在配置较低的设备上运行,而不会显著影响设备性能。
  7. 易于集成:由于其小型化和高效性,Phi-3 模型可以轻松集成到各种应用中,包括移动应用、嵌入式系统和物联网设备。
  8. 定制应用:小型模型如 Phi-3 更适合于定制化应用,特别是对于那些数据集较小或需要特定领域优化的企业。
  9. 成本效益:相比于大型模型,小型模型通常在计算资源和能源消耗上更为经济,有助于降低运营成本。
  10. 易于部署:小型模型易于在本地设备上部署,有助于实现快速的数据处理和响应,同时减少对云服务的依赖。

Phi-3 模型的这些优势使其成为在资源受限或需要快速、本地化处理的自然语言处理应用中的理想选择。

Phi-3的技术框架

  1. Transformer 解码器架构:Phi-3-Mini 采用了为移动设备优化的架构,支持通过 LongRope 系统扩展上下文长度。
  2. 结构设计:Phi-3-Mini 与 Llama-2 模型结构相似,使用了相同的分词器,保证了与 Llama-2 系列软件包的兼容性。
  3. 分组查询和块状稀疏注意力机制:Small 和 Medium 版本引入了这些机制,以优化长期上下文检索性能并减少内存占用。
  4. 数据训练:使用网页数据和合成数据进行训练,分为两个阶段,第一阶段注重通用知识和语言理解,第二阶段培养逻辑推理和特定技能。
  5. 训练方法:Phi-3 的训练方法受到儿童学习方式的启发,采用“课程”式训练,使用简化的“儿童读物”来教导模型。

如何使用Phi-3?

微软发布了Phi-3的技术报告,模型暂未上线。

技术报告链接:https://arxiv.org/abs/2404.14219

总之,Phi-3 系列模型的推出,展示了微软在小型化、高效能语言模型领域的最新进展,特别是在移动设备上的应用潜力。

© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享