在全场持续不断地鼓掌欢呼后,老罗向讯飞致敬说道,“再次向伟大的讯飞公司表示我们的敬意,这才是我们所讲的工匠精神,这么多年就做了这么一件事,做到了全球第一,非常非常了不起。”为何老罗如此偏爱讯飞语音?
科大讯飞在语音和人工智能领域行业领先很久,甚至走在世界前列。自2008年至今,连续在国际说话人、语种识别评测大赛中名列前茅。2016年又获得全球人工智能比赛Winograd Schema Challenge第一名以及国际多通道语音分离和识别大赛(CHiME)赛事全部三个项目的冠军。据知名第三方市场调研机构赛诺市场研究(SinoMarketResearch)《2016年Q3语音输入法行业分析报告》数据显示,国内语音产业形成专业语音技术厂商、传统IT巨头、互联网公司以及移动客户端开发者四大阵营,科大讯飞持续领跑语音输入行业发展。
老罗现场演示的语音“黑科技”源于语音识别(Speech Recognition)技术。打个形象的比喻,语音识别就相当于“机器的听觉系统”,让机器通过识别和理解,能够把语音信号转变为相应的文本或指令。
其实早在2011年,科大讯飞首次将DNN技术运用到语音云平台,并对外开放。
2014年科大讯飞发布讯飞语音云3.0,独家具备中文方言语音识别、高抗噪语音识别、个性化识别等功能。目前讯飞语音识别技术已实现自由说识别,从算法到模型都有质的发展。老罗所称的,讯飞输入法的语音识别率达到业界最高的97%是如何做到的?
在新的科技浪潮到来前,科大讯飞的战略向人工智能转变,毫无保留的将前沿技术应用到产品中,获得行业和用户的认可,当然还有老罗对讯飞无比的热爱。讯飞输入法的语音识别基于传统DNN框架的同时,结合了国际最新人工智能技术,综合应用CNN、DNN Sequence Training、DropOut和RELU、DNN自适应等方案,将语音识别准确率提高到一个新的高度。就像老罗说的,只要不说些奇奇怪怪特别拐的,说完都无需修改。
那么,用华少那样的语速输入也能准确识别吗?这个答案是肯定的。
讯飞输入法使用了科大讯飞专门设计的语音识别系统,针对语速等发音现象设计了自动检测及规整算法,以降低其多变性对识别效果的影响;另一方面,通过国际领先的“基于说话人编码和i-vector的深度神经网络自适应算法”,以完全不需要人工干预的方式率先在产品中解决了深度学习框架下的说话人自适应问题。在加入这些发音个性化技术以后,即使在语速特别快的情况下,讯飞输入法的语音输入也能做到准确识别。
业界有个共识“语音识别技术的现场演示,是一个世界性的难题”,因为会场除了嘈杂的人声还有音响回声等复合噪音,对语音输入来说都是“致命的”。老罗在演示前调侃自己,说他可能是在万人体育场现场演示语音输入的第一人。当老罗随口说完,大屏幕瞬间就“打”出了文字,识别结果一字不差,在停止说话那一瞬全场就沸腾了!讯飞输入法又是怎么做到噪声环境下准确识别的?
通过科大讯飞长期积累的海量且覆盖性丰富的语音数据,充分利用深度神经网络模拟人脑、学习能力强、识别分类高度准确的特性,对语音数据进行不停的噪声分类迭代,获得足以覆盖大部分的噪声环境非常细致的噪声类别,预算出可以代表各个噪声类别的统计量;应用这些噪声统计量,便能在很小延迟的情况下,做到几乎同时去除原始语音的噪声干扰和增强识别,大大提高语音输入速度和用户体验。
随着人工智能算法的突破以及大数据的应用,加上高速移动数据网络的连接,语音技术已经进入到了一个成熟阶段。像科大讯飞的前沿技术不仅应用到讯飞输入法中,还扩展到家居、教育、客服、医疗、汽车等领域,让机器不仅“能听会说”,还“能理解会思考”。如今,人对于智能设备的依赖程度与交互频率日益提升,原有的操控方式变得越来越复杂、效率低下,迫切需要语音交互,让智能设备的交互更为统一、简洁。在可预见的未来,智能化生活将会随着语音交互技术的成熟,走进千家万户。
发表于2025-07-03 14:23:44
发表于2019-06-04 11:21:00
发表于2019-06-04 10:05:00
发表于2019-06-04 09:03:00
发表于2019-06-04 08:29:00
发表于2019-06-04 06:47:00
发表于2019-06-03 22:00:00
发表于2019-06-01 13:59:00
京ICP备11027698号 CopyRight 2010-2015 All Rights Reserved