来自科技 2021-06-22 09:00 的文章

法拉利百度语音识别新算法准确率提升超30%，鸿鹄芯片彰显AI落地新打法_技术

今年 7 月，在开发者大会上，百度公布了其在 AI 技术上的进展。而短短四个月后，在昨日的百度语音能力引擎论坛上，百度在语音领域再次公开了最新的算法成果。同样引人关注的还有百度鸿鹄芯片的最新进展。

昨日，百度语音能力引擎论坛在北京召开。在论坛上，百度展示了其在语音技术上的最新成果，并公开了语音专用终端芯片——百度鸿鹄的落地情况。此外，机器之心也采访了百度语音首席架构师贾磊。百度通过本次发布说明，深度学习端到端技术依然大有发展空间，软件驱动专用芯片设计成 AI 落地新打法。

语音能力 100 亿次日调用，百度大脑势头正劲

论坛开始，百度 CTO 王海峰博士公布了百度在语音技术方面的最新成绩单。目前，百度语音技术的日调用量已突破 100 亿。

而目前，百度大脑已开发 AI 能力 228 项，接入开发者数量超过 150 万，现已成为国内最大的 AI 开放平台。

王海峰博士还介绍了百度在 AI 方面的两大目标，即「进化」和「赋能」。通过技术的不断进化，推动 AI 的进一步发展，同时通过赋能合作厂商和开发者的方式，创造活跃的 AI 生态环境。

在发布会上，百度语音识别新算法和百度鸿鹄芯片的最新进展最引人注目。它们无疑是对进化和赋能两词最好的注解。

完全端到端，深度学习再次颠覆语音识别

在论坛上，百度语音首席架构师贾磊介绍了百度近一段时间的语音技术突破。其中最受瞩目的便是百度最新研发的「基于复数 CNN 网络的语音增强和语音识别一体化建模」技术。

现有方法面临瓶颈

目前主要的远场语音识别方案主要将语音识别分为两个步骤：数字信号处理和语音识别。具体而言，用户首先需要对语音识别终端进行唤醒，当设备收到信号后，采用声学模型和硬件对波束来源进行定位，定位后再继续接收目标声音。

接收到目标声音后，识别终端通过方位信息，增强目标信号并压制干扰信号，从而将增强后的信号，输入到语音识别声学建模模块中。

这一方法主要存在两个问题。首先，语音增强算法大都是基于 mse 准则优化语音的听觉感知，听觉感知变得更清晰，并不一定对应识别率提升。其次，此方法需要首先唤醒语音识别终端，并要求说话者的位置保持固定。如果在识别过程中目标信号源发送移动，或波束方向上存在噪声，则识别准确率会大幅下降。

深度学习让信号处理和语音识别终成一体

而百度提出的新算法不再需要首次唤醒。在识别开始时，目标声音信号直接被多路麦克风输入到模型中，采用复数个 CNN 网络提取声音信号中的多种特征，包括不同麦克风输入信息的特征，和跨频率耦合的声学特征。在这一过程中直接实现了前端声源定位、波束形成和增强特征提取。特征提取后，直接进行声学建模，并生成最终的文字结果。

据贾磊介绍，这一算法从根本上打通了前端的信处理和后端语音识别过程，真正实现了端到端的语音识别解决方案。该算法具有以下优势。其一，这一算法不需要事先根据前一个唤醒词的方向来定人的说话方向，定出人说话方向之后，再做波束生成，这样的话，波束生成只能对下一句话的唤醒或者是识别有提升作用。这个方法是根据当前唤醒词或者是语音指令，一次性的同时做声源定向和波数生成。使得当前这一个次唤醒或者是识别就能够显著提升。

其次，由于使用 CNN 网络捕捉多种特征，因此能够最大程度捕捉声音波形中的最本质特征信息，尤其是跨频波形特征等，因此能够模型具有更好的学习能力，性能也更好。

另外，模型最终端到端直接输出文字结果，通过字错误率进行调优，因此能够最大限度上优化模型性能。

由于没有了波束定位的环节，这一方面面临的挑战在于，如何能够区分多个声音源，并只识别真正的目标声音源。

看过本文的人还看过……

})();

法拉利 百度语音识别新算法准确率提升超30%，鸿鹄芯片彰显AI落地新打法_技术

法拉利百度语音识别新算法准确率提升超30%，鸿鹄芯片彰显AI落地新打法_技术