来自 科技 2021-06-23 00:06 的文章

foganglao本地最 百度宣布AI语音调用登顶中国第一,自研芯片+最新端到端模型颠覆传统语音识别算法_技术

晓查 发自 凹非寺

量子位 报道 | 公众号 QbitAI

2019年,NLP和语音技术取得了多项技术突破,但是科技公司考虑更多的是AI的“场景”,如何在各种场景中都能方便地集成语音功能。

10月,谷歌在Pixel手机发布会上宣布,将语音识别模型压缩到50M集成在手机中,实现离线的语音转写。

而国内的几家语音技术公司想得更远,将语音技术的接口提供给更多的开发者和企业,让AI的应用场景更广阔。百度就是其中一家。

“生物在物竞天择的环境中进化,而AI在应用场景中进化。”在今天的百度大脑语音能力引擎论坛上,百度CTO王海峰如是说。

百度CTO王海峰

王海峰也透露,百度大脑的语音能力日均调用量超100亿次,居国内第一。拥有国内最大的AI开放平台的百度大脑,目前已接入开发者超过150万,开放228项技术能力。

就在同一天,权威调研机构IDC发布的《2019中国AI云服务市场厂商评估》报告显示,百度智能云凭借着在AI技术、市场和商业上的表现,在中国排名第一。这也从侧面反映了百度AI在市场中的影响力。

除了语音技术外,百度在其他AI技术上也全面开花。9月,百度在CCKS 2019“知识图谱问答”大赛中夺冠;11月,Forrester发布报告显示,百度智能云的计算机视觉能力在8大维度获得第一。

这主要是由于百度智能云入局AI最早,也是国内唯一拥有完全自主深度学习框架的云服务商,抢占了AI落地的先机。

因此用上百度语音技术的开发者越来越多,这些数字的背后,有百度大脑语音技术团队的研发实力作为支持。

团队的领头人,就是今年8月在朋友圈宣布回归百度的技术大牛贾磊。他介绍了百度语音软硬件技术独一无二的“秘籍”。

百度语音首席架构师贾磊

新算法降低30%错误率

据Canalys等第三方统计机构的数据,小度音箱在国内市场的占有率在今年登上了第一,贾磊认为这是市场对百度大脑技术的肯定。

百度语音首席架构师贾磊表示,百度大脑的语音技术在今年又取得了一项突破性进展,可以将未来小度音箱的技能进一步提升。

这项新技术全称为“基于复数CNN的语音增强和声学建模一体化端到端建模技术”。贾磊表示,这项技术颠覆了传统的语音识别算法。

目前,市面上主流的智能音箱采用的语音识别算法,是先将音频转化为文字,再对文字进行语义理解。

这就好比两个人相互交流,先把语音写成文字,然后通过阅读文字来理解内容。这种识别方式与人相差甚远,而且也存在着诸多问题。

首先,这种方式只有在唤醒识别后才能确定语音的方向,如果噪声与声音方向相同,则会导致识别率很低。而且无法应对说话者边走边说的情形。

而百度大脑提出的基于复数CNN的端到端模型,可以直接将声音转换成语义,更接近于人的语音交互方式,对噪声的抵抗力更强。

贾磊表示,这项技术让远场语音识别的错误率降低了30%以上,对语音识别性能的提升幅度属业内最大,是一项革命性、颠覆性的技术。

这种模型完全不依赖于数字信号处理等技术学科,用机器学习将最初的音节和最终语义直接打通,实现数字信号处理和语音识别一体化。

有了复数CNN的端到端模型,智能音箱难以解决的几大使用场景问题都会得到解决。

比如,我们很难一边走动一边和智能音箱不间断多轮对话;在大声播放电视或音乐时,智能音箱也无法听清我们。

这些常见场景过去一直是智能音箱难以使用的痛点,未来都有望被复数CNN的端到端模型所化解。

未来的让模型结构能成功落地,百度还研发了一种利用近场数据来模拟生成远场训练数据的方法。利用该方法,百度成功训练出可以达到落地水平的一体化声学模型。

为语音造“芯”

只有语音的软件算法还不够,近年来国内AI公司越来越多地涉猎芯片制造,一方面是出于自主可控的考虑,另一方面也是为了让硬件与软件之间更好地配合。

例如,在语音识别的场景中,如何快速加载模型,与输入信号进行快速运算,成了最大的难点之一。传统通用芯片难以解决。

})();