讯飞星火开源大模型

c6ccd893a75e9e9164a6a0203eb39158讯飞星火开源大模型是什么?

讯飞星火开源大模型是科大讯飞对外开源的大模型。讯飞星火开源-13B(iFlytekSpark-13B)拥有130亿参数,在经过累计超过3万亿以上tokens海量高质量数据集上进行预训练,然后在精调的多元化对齐数据上进行微调得到。iFlytekSpark-13B在多个标准评估中展现出了卓越的性能,其表现优于同参数量级的开源模型,与一些闭源模型相比不相上下。

iFlytekSpark-13B不仅具备通用任务处理能力如聊天、问答、文本提取和分类等,还具备数据分析和代码生成等生产力功能。我们特别在学习辅助、数学、推理等领域进行了深度优化,大幅提升模型的实用性和易用性。详细的评测结果见下面评测部分。

官网链接:https://xinghuo.xfyun.cn/openSource

?讯飞星火认知大模型V3.5正式发布,立即免费使用:https://xinghuo.xfyun.cn/

讯飞星火开源大模型的评估效果

在八个具有挑战性的中英文测试集上对模型进行性能评估。其中chat模型采用0-shot进行测试,base模型在C-EVAL,MMLU,CMMLU,FinanceIQ测试集上采用5-shot进行测试,其余测试集采用0-shot进行测试。

  • C-EVAL:C-Eval 是一个全面的中文基础模型评估套件,涵盖了52个不同的学科和四个难度级别,验证集包括1346个选择题,测试集包含12342个选择题。本项目采用C-Eval验证集进行测试。
  • MMLU:MMLU 是一个庞大的多任务数据集,由各种学科的多项选择题组成。其中包括57个任务,涵盖了人文学科、社会科学、自然科学和其他对某些人学习很重要的领域。
  • CMMLU:CMMLU 是一个综合性的中文评估基准,涵盖了从基础学科到高级专业水平的67个主题。涵盖了自然科学、人文科学和社会科学等领域。
  • AGIEVAL:AGIEval 是一个专门为评估基础模型在以人类为中心的标准化考试(如大学入学考试、法学院入学考试、数学竞赛和律师资格考试)的语境中而设计的基准测试。
  • ARC:包含了ARC-E和ARC-C,它们分别是ARC数据集中的简单集和挑战集,分别有5197 和2590 个问题。这些问题是仅文本的英语语言考试问题,跨越了多个年级水平。
  • GaoKao:GaoKao收集了从 2010 年到 2022 年的高考试题,包括 1781 道客观题和 1030 道主观题。本项目报告结果为GaoKao中客观题结果。
  • FinanceIQ:FinanceIQ 是一个专注于金融领域的中文评估数据集,涵盖了10个金融大类及36个金融小类,总计7173个单项选择题。
C_EVAL MMLU CMMLU AGIEVAL ARC_E ARC_C GaoKao FinanceIQ 平均
iFlytekSpark-13B-base 70.88 58.76 70.01 50.44 84.78 71.16 56.42 60.21 65.33
iFlytekSpark-13B-chat 82.54 63.02 75.69 56.96 89.47 77.34 67.49 65.48 72.25

如何使用讯飞星火开源大模型?

  • 官网链接:https://xinghuo.xfyun.cn/openSource
  • 开源地址:https://gitee.com/iflytekopensource/iFlytekSpark-13B
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享