国内首个!科大讯飞推出星火极速超拟人交互技术:直接实现语音到语音端到端建模,对标GPT-4o语音功能「附大语言模型行业发展趋势分析」

4a36acaf2edda3cc141c98767d87460f203f926c.jpeg@f_auto

图片来源:摄图网

今年以来,以AI大模型为代表的人工智能技术持续受到广泛关注。大型语言模型应用不断扩大,其在自然语言处理、智能对话系统和文本生成等领域展现出了惊人的潜力。同时,图像识别、语音识别和推荐系统等领域也在迅速发展。这些技术的不断突破,为医疗保健、金融、教育和其他行业带来了创新应用。

8月19日,科大讯飞宣布星火语音大模型更新,正式推出星火极速超拟人交互技术,打造国内首个全新中文交互模式,并将在8月底率先在讯飞星火APP上全民开放使用。这意味着国内首个对标GPT-4o语音功能的产品正式到来。

据悉,星火极速超拟人交互响应速度更快,对话更加自然流畅,在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现突破。此次星火极速超拟人交互采用统一神经网络直接实现语音到语音端到端建模,采用最先进的深度学习技术,该系统不仅能听懂用户的言语,更能深入理解语境和意图,并能够根据上下文自动调整回复,提供更加个性化、智能化的服务。

升级后的版本可以针对高兴、悲伤、生气、害怕等情绪进行识别;自动带入符合情境的对话,用合适的情绪语气进行回复。据介绍,“星火极速超拟人交互”的情感表达“更灵活”,可以在交流中跟随用户指令控制数十种情感、风格、方言,支持调节语速。还能能够模仿包括孙悟空、蜡笔小新、小猪佩奇等多种角色的音色、语气,还会模仿他们的人设与用户聊天。

国海计算机首席分析师刘熹认为,这一技术的应用和普及还隐藏着巨大的可能性:语音市场有望迎来发展新机遇,语音市场在这个时代将再被重写,语音交互带动万物互联的第六次产业浪潮会出现一次可能的井喷。科大讯飞凭借上述技术突破有望成为产业红利的收获者。

据企查猫显示,科大讯飞股份有限公司成立于1999年12月30日。注册资本为231,537.58万人民,法定代表人刘庆峰。经营范围包括:增值电信业务;专业技术人员培训;计算机软、硬件开发、生产和销售及技术服务;系统工程、信息服务;电子产品、计算机通讯设备研发、生产、销售;移动通信设备的研发、销售等。

ca1349540923dd5459080a04ad67ccd09d8248db.jpeg@f_auto

从“科大讯飞推出星火极速超拟人交互技术”回看大语言模型行业发展情况:

——大语言模型商业化探索进程

截至2024年,中国的大型语言模型(LLMs)在商业化进程中表现出显著的活力和创新。百度的文心一言在智能办公、旅行服务、电商直播、政务服务和金融服务等多个领域实现应用,技术迭代迅速,用户规模庞大。讯飞星火在智能办公上优势明显,2024年4月,公司推出了业界性能最优的130亿参数的大模型,在效果损失仅3%以内的情况下,输出效率、语义理解准确率等均得到提升,在讯飞星火大语言模型的飞速发展下,讯飞自有的硬件产品也受到消费市场的关注,搭载讯飞星火的讯飞智能办公本、讯飞听见、讯飞智能录音笔以及讯飞AI学习机等销量不断攀升。阿里巴巴的通义千问以其开源策略和高性能,在中文大模型领域占据一席之地,推动了低成本、易于部署的商业化解决方案。整体来看,中国的LLMs正通过技术创新、行业合作和安全合规等多维度努力,加速推动AI技术的商业化落地和产业智能化转型。

79f0f736afc3793128226ec990aac84b42a91100.jpeg@f_auto

——大语言模型规模的增长与效率的提升

大型语言模型是指训练参数数量较大的自然语言处理模型,通常包含数十亿个参数。这些参数起到了决定模型性能的关键作用。大语言模型包含的参数主要包括嵌入层参数、循环神经网络参数、卷积神经网络参数、注意力机制参数、多头注意力机制参数、残差连接参数、正则化参数等。具体如下表所示:

0df431adcbef76098099035f55b3dcc27ed99ed9.jpeg@f_auto

随着计算能力的提升,特别是由于GPU和TPU等专用硬件加速器的快速发展,大语言模型的规模有望持续扩大。这将使得模型能够拥有更多的参数,从而更精细地捕捉语言的细微差别和复杂性,包括俚语、双关语、以及不同文化背景下的语境含义。这种规模的增长将推动模型在理解自然语言和生成语言方面达到新的高度,为机器翻译、自动摘要、情感分析等任务带来更准确的结果。

同时,研究者们也在积极探索更高效的训练方法。例如,通过改进优化算法,如采用更先进的学习率调度策略,可以加快模型收敛的速度。另外,研究者还在尝试使用更高效的注意力机制,如稀疏变换器(Sparse Transformer),以减少模型训练过程中的计算和存储需求。这些技术不仅可以减少资源消耗,还可以缩短模型训练的时间,使得大语言模型的训练变得更加高效和可行。此外,模型压缩和知识蒸馏技术的发展,将使得大型模型能够更容易地部署在资源受限的环境中,如移动设备和嵌入式系统,进一步扩大大语言模型的应用范围。

2018年以来,全球范围内大语言模型中的训练参数量级持续增长,截至2023年,GPT-4参数量级突破了万亿级别。

4a36acaf2edda3ccefea67557d87460f213f9232.jpeg@f_auto

——大语言模型行业特定应用的深化

大语言模型将在特定行业中发挥更加关键的作用。在医疗领域,模型可以帮助分析病历记录,提供诊断建议;在法律领域,它们可以协助进行案例研究和文书工作;在金融领域,则可以用于风险评估和市场分析。这些行业特定模型将被定制化,以适应特定场景的需求,并与现有的工作流程和系统无缝集成。此外,随着自动化和智能化水平的提升,大语言模型将推动各行各业向更高效、更智能的方向发展。

c9fcc3cec3fdfc035d2fd49ca851f89aa4c2263f.jpeg@f_auto

前瞻产业研究院分析认为,语言大模型能够模仿人类的对话和决策能力,是率先实现技术突破和应用落地的大模型,也是当下人工智能的“主赛道”。目前,语言大模型在金融、医疗、教育、工业、游戏、法律等多个行业得到了广泛的应用。前瞻初步测算,到2027年,我国大语言模型市场规模将达到600亿元,到2029年将达到1186亿元,年复合增速在40%以上。

前瞻经济学人APP资讯组

更多本行业研究分析详见前瞻产业研究院《中国AIGC产业发展前景预测与投资战略规划分析报告》。
同时前瞻产业研究院还提供产业新赛道研究投资可行性研究产业规划园区规划产业招商产业图谱产业大数据智慧招商系统行业地位证明IPO咨询/募投可研专精特新小巨人申报等解决方案。在招股说明书、公司年度报告等任何公开信息披露中引用本篇文章内容,需要获取前瞻产业研究院的正规授权。
更多深度行业分析尽在【前瞻经济学人APP】,还可以与500+经济学家/资深行业研究员交流互动。更多企业数据、企业资讯、企业发展情况尽在【企查猫APP】,性价比最高功能最全的企业查询平台。
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片快捷回复

    暂无评论内容