扣子OpenAPI突进智能语音战场!点满低延时、定制化、随时打断和音色克隆技能(内测开启!)

机器之心原创
编辑:Panda扣子 Coze OpenAPI 不仅具备低延时、定制化、随时打断和音色克隆等优势,还整合了扣子强大的智能体生态。

基于 AI 的无限游戏最近开始赢得关注,但实际上你现在就可以在自己的电脑上实现类似跑团的无限游戏。有意思的是,就算你大开脑洞,胡乱游戏,大模型 AI 也能帮你把故事圆起来,让这个游戏无限地继续下去。
你甚至可以召唤郭德纲来战斗

这个 AI 游戏主持人的声音是不是很有代入感?这其实是使用扣子正在内测的智能语音对话 OpenAPI 实现的。当然,无限游戏并非扣子智能语音对话 OpenAPI 所能实现的唯一功能。扣子智能体商店中那些智能体会的技能它都行,比如查询天气或新闻、口语练习、角色扮演、创建播客等等。
举个例子,我们这里就生成了一个播客,使用的素材是我们前些天发布的文章《LeCun 赞转!类 Sora 模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘》。

更重要的是,通过智能语音对话 OpenAPI。你还能将智能实时对话能力引入你自己的应用!
不管是微信小程序还是自己的应用或游戏,又或者就只是你自己的设备终端,扣子的 AI 智能体都能通过新上线的智能语音对话 OpenAPI 入驻进来。
简单想象一下,我们就能发现扣子智能语音对话 OpenAPI 的无穷妙用。比如我们可以将自家的产品信息配置到扣子智能体的知识库中,然后通过扣子智能语音对话 OpenAPI 为我们的网站和应用引入一个智能客服,它能以实时通话的方式为用户解答一些常见问题。

用自然语言搭建一个技术问答应用
要展现一个工具的强大,光是结果好还不够,还得用起来方便,下面我们就逐步演示一下可以如何使用扣子智能体平台和智能语音对话 OpenAPI 轻松构建一个 AI 技术问答应用(基于扣子提供的网页版 Playground)。有趣的是,这里的整个演示过程都是零代码的!
首先,你需要一个扣子专业版账户。由于目前扣子智能语音对话 OpenAPI 正处于内测阶段,因此你还需要申请内测权限,你可以在这里免费申请:https://www.coze.cn/survey/7431180581536268314?FG_source=17
接下来,你需要构建一个智能体。基于扣子智能体平台,你只需要用一句话描述你的核心功能,剩下的交给 AI,就能轻松获得一个智能体。

当然,你也可以对 AI 创建的智能体进行更进一步的编排,优化其人设和回复逻辑,还能添加知识库以及设置开场白;更重要的是,还能为其设计工作流 —— 这个过程既能使用思维链(CoT)和检索增强式生成(RAG)等技术,还能将外部工具整合进来,比如集成外部知识库、调用外部模型和工具等等。
考虑到最近 Scaling Laws 是否撞墙的问题备受热议,我们也正好做过几篇报道,下面我们就把这几篇文章导入到这个智能体的知识库中。
扣子OpenAPI突进智能语音战场!点满低延时、定制化、随时打断和音色克隆技能(内测开启!)插图 智能体编排完成后,点击发布。这里注意我们需要勾选「Agent as API」以便后续我们通过 OpenAPI 调用该智能体。
然后我们就可以进入 Playground,获取权限后,调用该智能体,同时选取合适的音色。 扣子OpenAPI突进智能语音战场!点满低延时、定制化、随时打断和音色克隆技能(内测开启!)插图1
之后,我们就可以通过扣子智能语音对话 OpenAPI 来了解所谓的「扩展律撞墙」是什么了。(我们这里顺便演示了其支持随时打断的功能,这对真实应用来说具有非常实际的价值。)

不仅如此,扣子智能语音对话 OpenAPI 也支持用户传入文本或网络链接(只要对应的智能体配置了链接读取等合适的插件即可)。当然,由于这里演示的仅仅是 Playground,还不是完整的应用,因此在传入数据时还需要采用 json 格式,下面演示了其对我们最近发布的一篇文章的分析:

如此,一个简易版的实时语音技术问答助理就搭建完成了。实际上,只要搭配上好看的网页前端,这就可以作为一个小应用发布了。而通过配置具有更复杂工作流程的智能体,扣子智能语音对话 OpenAPI 也能实现更加复杂的应用。
五大优势,以智能赋能人机交互
宏观来看,语音交互技术可以简化成四个步骤:语音识别(ASR)、语义理解(NLU)、对话管理和任务处理、语音合成(TTS)。
在相关技术发展早期,每个步骤的处理都很机械和呆板,用户和应用都只能按照预设的指令进行交互。在最早期的时候,机器甚至没法识别人类的语音指令,而是需要人类用户通过数字按键来给出反馈,比如「业务办理请按 1,业务查询请按 2,人工服务请按 * 号键」。事实上,现在许多客服系统依然还在使用这种老旧范式。
扣子OpenAPI突进智能语音战场!点满低延时、定制化、随时打断和音色克隆技能(内测开启!)插图2
之后随着语音识别和早期自然语音处理(NLP)技术的发展,人类开始可以通过语音方式与计算机互动。不过那时候不管是 ASR 还是 NLP 或是 TTS,都仅支持单一语种,也很难应对稍微复杂的交互场景。早期的 Siri 和 Google Assistant 等很多早期的语音助手便是采用了这一范式。
扣子OpenAPI突进智能语音战场!点满低延时、定制化、随时打断和音色克隆技能(内测开启!)插图3
之后,大模型时代到来了。AI 理解人类语言的能力实现了质的飞跃,但两侧语音端的处理依然有待改进。一方面是 ASR 还很难应对多语言混合输入的场景,另一方面 TTS 也无法准确实现多语言输出。用户得到的语音反馈更像是毫无特色和情感的「棒读」。
扣子OpenAPI突进智能语音战场!点满低延时、定制化、随时打断和音色克隆技能(内测开启!)插图4
到了今年,智能语音交互进入了变革之年,代表性事件便是今年 5 月份 OpenAI 发布了具备实时语音对话功能的大模型 GPT-4o。而扣子则在这个基础上更进了一步,不仅实现了实时、智能、自然的多语言语音交互,还将智能体整合进了其工作流程中,从而可以完成更加丰富多样的任务。这让其在这场正在持续的「智能语音大乱斗」中占据了一个领先位置。
扣子OpenAPI突进智能语音战场!点满低延时、定制化、随时打断和音色克隆技能(内测开启!)插图5
总结起来,扣子智能语音对话 OpenAPI 具有 5 大显著优势。
优势 1:强大的 AI 智能体能力
智能体很可能是 LLM 实现大规模实际应用的又一范式。它能让 LLM 超脱仅仅作为问答机器人的水平,更深度地参与到用户的数字或物理生活中。正如著名 AI 研究者吴恩达说的那样:「大多数 LLM 的优化方向都是回答问题,这主要是为了提供良好的消费者体验,而且我们已经能够将它们『嫁接』到复杂的智能体工作流程中,从而构建有价值的应用。现在的趋势是以原生方式为智能体构建用于特定操作的 LLM,这能极大提升智能体的性能。我相信未来几年这个方向的智能体将获得巨大提升。」
扣子智能体平台正是这一愿景的实践者,而扣子那强大的智能体生态便是扣子智能语音对话 OpenAPI 最重大的优势之一。
扣子是新一代 AI 大模型智能体开发平台,其整合了插件、长短期记忆、工作流、卡片等丰富能力,可帮助用户快速搭建个性化或具备商业价值的智能体,并发布到豆包、飞书等平台,并且其使用门槛非常低,并不需要用户具备编程能力 —— 用户只需简短几句描述需求的自然语言,该平台就能用 AI 帮你自动构建合适的智能体。
扣子OpenAPI突进智能语音战场!点满低延时、定制化、随时打断和音色克隆技能(内测开启!)插图6 使用扣子商店右下角扣子助手,一句话创建智能体
自今年 2 月份国内版上线以来,扣子智能体开发平台已经成长为国内智能体平台的重要引领者,其上已经部署了大量来自官方和社区的智能体,其中不少已经收获了数十万用户。
扣子OpenAPI突进智能语音战场!点满低延时、定制化、随时打断和音色克隆技能(内测开启!)插图7
通过整合智能体,扣子智能语音对话 OpenAPI 可让用户以语音方式完成各种不同的任务,比如执行订单、生成图像、执行重复性的工作流程等等。只要智能体能做到的,扣子智能语音对话 OpenAPI 都能将其整合进来。
优势 2:识别精准
扣子智能语音对话 OpenAPI 在语音识别(ASR)方面使用了先进的大模型技术,具备上下文理解和超强的抗干扰能力,从而能带来更为精准的语音转文本体验。
它不仅能识别常见对话内容,还能在多轮对话中进行上下文关联 —— 当用户提到前文中的名词或代称时,系统会根据对话背景自动关联,避免重复确认。此外,扣子智能语音对话在面对嘈杂环境或复杂声学背景时表现出色,能够识别出清晰的文本,减少因噪声导致的误识别问题。
针对垂直领域,OpenAPI 提供了专门的语料支持,不论是医疗、金融还是法律领域,系统均能精准识别专业术语。此外,它对中英混合表达的语音识别也有良好的支持,提升了应用在多语种环境中的适应性。
优势 3:稳健的实时通信能力
实时通信是智能语音对话体验的核心要素之一,尤其是在对话连续性和即时性要求高的应用场景中,低延迟可以极大地提升用户体验。
扣子智能语音对话 OpenAPI 在这方面的解决方案是火山引擎的 RTC(Real-Time Communication)技术。该技术已经在实践中得到了验证,可显著降低通信链路中的延迟,使得系统响应更加即时,不再有卡顿和延时问题。而这些年的研究进步已经让火山引擎 RTC 实现了超低时延视频传输和云端音频流式处理,并对 AI 语音能力的全链路进行了优化(RTC-ASR-LLM-TTS),能实现智能体的实时响应。
据了解,火山引擎 RTC 已经大幅降低了从声音采集到 AI 回复语音响应这个全链路流程的时延,最低可至 1 秒。相较之下,之前的工作流程往往需要好几秒的处理时间。
火山引擎 RTC 与儿歌点点合作的 「AI 伙伴」演示,展示了其实时性能以及支持打断的能力
这样的低延迟能力使扣子智能语音对话 OpenAPI 在客服、教育、远程协作等场景下具备明显优势,不仅可以快速响应用户的语音输入,还能在多轮对话中保持稳定顺畅的互动。
此外,火山引擎 RTC 还具备优秀的抗弱网能力,在弱网环境下也能保持通话顺畅,避免因丢字引起智能体理解和回答偏差。
RTC 还让智能体可被实时「打断」了。也就是说,智能体可根据人类对话的节奏和停顿来随时响应。它可以立马中断当前的输出,也能即时根据用户指令给出反馈。相较之前还需手动点击「打断」按钮的做法,这种做法显然更加自然,就像是与真人交流一样。
这项能力在实际应用中具有极其重要的价值。比如当用户在对话过程中突然提出新的问题或修改需求时,系统能够迅速捕捉并响应打断指令,灵活调整对话流程,无需等待当前话语结束。在客服、在线咨询和智能助理等场景中,这一能力可显著提升交互的自然度和应变性,使得对话更贴合真实人类沟通习惯,进一步提升用户体验。
优势 4:语言效果自然
在文本转语音(TTS)方面,扣子智能语音对话 OpenAPI 使用了大模型技术,从而让生成的语音更加自然、情感丰富,具有高保真的个性化特点。
基于大模型的 TTS 引擎能够智能分析文本内容,针对语句的情绪、意图和语气进行调节,使输出的语音在语调、节奏和情感表达上更贴近真人。
另外,扣子智能语音对话 OpenAPI 还支持中英文混合语句,能够实现流畅切换,在多语种表达场景中更显真实可靠。无论是客服系统需要温和耐心的语气,还是播报系统需要富有激情的表达,扣子智能语音对话 OpenAPI 都能自动适应,避免了传统 TTS 语音机械、单调的问题。
此外,生成的语音在韵律、气口和情感表达等方面也有细致优化,让用户听到的语音不仅真实可信,更富有感染力,适用于从广告配音到客户服务等广泛的应用场景。
优势 5:支持自定义音色
扣子智能语音对话 OpenAPI 不仅预置了丰富的音色(包括 20 多种中文音色以及一些英语、日语和西班牙语等其它语言的音色),还提供了一项特别的音色克隆功能,用户只需提供一小段语音录制,便可生成自己的专属音色。
扣子智能语音对话 OpenAPI 的多音色示例,包括一个定制音色
这一功能可让企业和个人用户将音色品牌化,为语音服务增加更多的个性和辨识度。在市场推广、品牌营销或个性化服务中,用户可以通过特有的音色与品牌形象建立联系,使用户的声音成为独特的品牌标识。
目前,系统在内测期间允许每位用户创建一个专属音色。未来,这一音色自定义功能将进一步拓展,或允许多音色的并行生成和使用,满足更多元化的声音需求。
内测邀请中
扣子智能语音对话 OpenAPI 现已向扣子专业版用户开放邀测申请!
作为一款强大的智能体对话工具,扣子智能语音对话 OpenAPI 拥有极其广泛的应用潜力 —— 无论是在线客服、远程教育、智能助理,还是在金融、医疗等专业领域,都能帮助企业快速实现智能化的实时语音交互。
未来,随着大模型及智能体能力的提升,扣子智能语音对话 OpenAPI 也能为开发者的应用带去更强大的智能能力,像无限游戏一样开启无限可能。或许某一天,扣子智能语音对话 OpenAPI 可以成为入口,造就钢铁侠的 Jarvis 那样的超级 AI 助理。

扣子智能语音对话 OpenAPI 支持多平台接入,团队也会提供用于不同场景和平台的 SDK。
扣子团队表示,邀测期间暂不收取语音功能费用,仅根据智能体调用次数和 Token 消耗收取专业版的基础费用。而内测用户的福利是每日 1 小时、每月 20 小时的实时通话体验时长,足以满足基础测试和常规使用。如有更高时长需求,用户可根据实际情况提出额外申请,以满足不同场景的深度测试需要。
在希腊神话中,普罗米修斯通过盗取火种赋予了人类智慧和文明的火花。同样,扣子智能语音对话 OpenAPI 就恰如应用领域的普罗米修斯,能为各行各业的应用赋予实时智能语音能力,开启技术实践的新篇章。
如果您想参与内测体验,关注「扣子Coze」公众号回复「语音」即可申请内测。期待大家的体验反馈!

© THE END 
龙跃
龙跃

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容