ai语音识别系统未来发展(快看达摩院语音AI新进展)

 2024-03-10  阅读 810  评论 0

摘要:记者 | 林北辰9月18日,在2020云栖大会上,达摩院公布了语音AI技术的最新突破:移动端的语音识别与合成可以支持断网不中断;仅从语音识别能力来看,手机上不到40兆的系统可以媲美过去云端上200G系统的效果,下面我们就来说一说关于ai语音识别系统未来发展?我们一起去了解并探讨一下这个问题吧!ai语

记者 | 林北辰9月18日,在2020云栖大会上,达摩院公布了语音AI技术的最新突破:移动端的语音识别与合成可以支持断网不中断;仅从语音识别能力来看,手机上不到40兆的系统可以媲美过去云端上200G系统的效果,下面我们就来说一说关于ai语音识别系统未来发展?我们一起去了解并探讨一下这个问题吧!

ai语音识别系统未来发展(快看达摩院语音AI新进展)

ai语音识别系统未来发展

记者 | 林北辰

9月18日,在2020云栖大会上,达摩院公布了语音AI技术的最新突破:移动端的语音识别与合成可以支持断网不中断;仅从语音识别能力来看,手机上不到40兆的系统可以媲美过去云端上200G系统的效果。

所谓的“端上”语音交互能力,指的是在例如高德地图等手机App内的语音识别和合成功能。过去,由于精确的语音交互任务长期依赖云端算力,造成了语音指令处理不可避免地延时等问题,移动端的语音功能并不完整。

很长一段时间,在语音识别领域,文字转录、体感较好的语音识别和合成功能主要在云端完成,这是由于云上的算力较强,能够支持语音识别对算力的要求。相较之下,手机端的CPU和内存容量较小,对语音识别功能来说,在不联网的情况下,手机端的算力和内存较难支持高精度的语音识别。

但本次云栖大会上,达摩院对外声称,已取得了技术上的突破,未来个人用户在移动终端也能实现更精准的语音交互,即便在断网的情况下,手机上的语音识别及合成能力仍可以媲美云端。目前这项最新的语音技术已接入淘宝直播、钉钉会议、高德导航等场景应用,并进入对外开放阶段。

从技术上来看,此次达摩院的创新在于算法模型上的突破,推出E2E-ASR端到端语音识别技术及端上KAN-TTS语音合成技术,这两项技术将高难度场景中的语音识别错误率降低近三成,可以说是近期移动端语音识别技术最大的突破。

具体应用上,高德地图近期发布了利用达摩院全新语音技术合成的李佳琦、林志玲、小团团等明星导航语音包,创新点在于断网状态下的语音导航不会中断。

这样的效果背后,是达摩院对语音模型进行了“大瘦身”,将移动端的语音模型缩小至云端的一百零一分之一,计算量压缩35倍。这是继去年发布仿真率可达97%的自研KAN-TTS语音合成模型后的又一次进步。

2019年,阿里语音AI曾入选《麻省理工评论》“全球十大突破性技术”,是唯一上榜的中国科技公司;今年7月IDC发布的《中国AI云服务市场半年度研究报告》显示,阿里语音AI以44%的市场份额,在云上语音AI市场中位居第一。

,

版权声明:xxxxxxxxx;

原文链接:http://cn.tdroid.net/ce121Cz0DAQ0BXg.html

发表评论:

管理员

  • 内容266294
  • 积分0
  • 金币0
关于我们
lecms主程序为免费提供使用,使用者不得将本系统应用于任何形式的非法用途,由此产生的一切法律风险,需由使用者自行承担,与本站和开发者无关。一旦使用lecms,表示您即承认您已阅读、理解并同意受此条款的约束,并遵守所有相应法律和法规。
联系方式
电话:
地址:广东省中山市
Email:
注册登录
注册帐号
登录帐号

Copyright © 2022 太卓开发网 Inc. 保留所有权利。 泰达科技网易库网

页面耗时0.1032秒, 内存占用1.33 MB, 访问数据库18次