据悉,语音识别并不算是一个新兴的行业,从20世纪70年代贾里尼克教授,开始基于统计法和数据建立模型后,语音识别有了巨大飞跃。近年来,随着数据量的丰富和计算能力的提升,语音识别行业迅速崛起。据 TechCrunch 统计,仅美国至少就有 26 家公司在开发语音识别技术。美国众多企业在技术上多年的积累使之占据了绝对的行业优势,但中国互联网企业百度近年来在语音识别技术上持续发力,在汉语语音识别方面取得了领先世界的成绩,已成为该研究领域当之无愧的领头羊。
百度Deep Speech 2 端对端架构
(中文有 6000 多个字符,英语有 29 个字符)
作为中国最大的搜索引擎公司,百度收集了大量汉语(尤其是普通话)的音频数据,百度采用数千小时进行实验的预研,并应用到数万小时的语音产品数据库,这给 Deep Speech 2 技术成果提供了基本的数据优势。在该技术首次发布时,百度研究院硅谷人工智能实验室(SVAIL)就在 arXiv 上发表了一篇论文《Deep Speech 2: End-to-End Speech Recognition in English and Mandarin(Deep Speech 2:端到端的英语和汉语语音识别)》,介绍了百度的研究成果。吴恩达表示其识别的精度当时已经超越了 Google Speech API、wit.ai、微软的 Bing Speech 和苹果的 Dictation 至少 10 个百分点。据百度表示,到今年 2 月份时,Deep Speech 2 的短语识别的词错率已经降到了 3.7%!这意味着Deep Speech 2 转录某些语音的能力「基本上是超人级的」,能够比普通话母语者更精确地转录较短的查询。
值得一提的是,尽管 Deep Speech 2 在汉语上表现非常不错,但其最初实际上并不是为理解汉语训练的。百度美国的人工智能实验室负责人 Adam Coates 说:“我们在英语中开发的这个系统,但因为它是完全深度学习的,基本上是基于数据的,所以我们可以很快地用普通话替代这些数据,从而训练出一个非常强大的普通话引擎。”
百度提出的端到端的深度学习(end-to-end deep learning)方法或者将很快实现更多复杂语种的识别问题。该方法用神经网络完全替代了人工设计组件的流程,端到端学习让可以处理包含噪杂环境、口音和不同语言的许多不同的语音,所以该技术既可以被用于识别汉语语音,也可以被用于识别英语语音。
对比一年之前吴恩达所说:“SVAIL 已经证明我们的端到端深度学习方法可被用来识别相当不同的语言。我们方法的关键是对高性能计算技术的使用,相比于去年速度提升了 7 倍。因为这种效率,先前花费两周的实验如今几天内就能完成。这使得我们能够更快地迭代。”相信经过一年的技术迭代,Deep Speech 2已经“默默”创造了新的奇迹。在语音识别领域,百度、微软等巨头的各自发力,将加速用技术跨越语言鸿沟的进程,重建通天的“巴别塔”。
发表于2025-07-03 14:23:44
发表于2019-06-04 11:21:00
发表于2019-06-04 10:05:00
发表于2019-06-04 09:03:00
发表于2019-06-04 08:29:00
发表于2019-06-04 06:47:00
发表于2019-06-03 22:00:00
发表于2019-06-01 13:59:00
京ICP备11027698号 CopyRight 2010-2015 All Rights Reserved