首页 > 科技

小爱同学的每一声“我在”,背后都藏着这些黑科技!

作者: 来源:微博头条 2020-03-29 13:35:32

“小爱同学,请开一下灯” ……每天,小爱同学都会在手机、音箱、电视等各种设备上被唤醒无数次。在清晨的卧室有小爱同学,在热闹的客厅有小爱同学,在繁忙的厨房还有小爱同学……乖巧听话的小爱同学一直陪伴...

“小爱同学,请开一下灯”


……

每天,小爱同学都会在手机、音箱、电视等各种设备上被唤醒无数次。在清晨的卧室有小爱同学,在热闹的客厅有小爱同学,在繁忙的厨房还有小爱同学……乖巧听话的小爱同学一直陪伴在你的左右,但你有没有想过,为什么无论你近在眼前,还是“远在天边”,无论周围冷清拥挤,小爱同学始终能在茫茫人海中听见你深情的一声呼唤——“小爱同学”,然后温柔地回答——“我在”,而不是像沈叔叔在某知名节目当中一样,“马什么梅?马冬什么?什么冬梅?”为了进一步提升小爱同学的“听力水平”,小米自研的多通道端对端语音技术应运而生。啥?多什么道?端啥端?别急小爱同学这就给你解释解释,包教包会,若是不会,免费再学。

耳听八方——强大的多通道技术

在语音识别大牛Daniel Povey加入小米后,小米的语音交互在原有的基础上更进一步。终于让多通道端到端语音方案性能超过了传统方案。经过数据测试,多通道端到端语音技术让远场语音识别性能相对提升了10%,使用户与智能设备的交互更加顺畅。


针对这一问题,2019年,小米声学与语音团队联合推出了自主研发的阵列唤醒算法,并于2月20日上线小米AI音箱,有效提升噪声场景平均唤醒率及回声场景平均唤醒率。9月20日发布的小爱音箱Pro及小爱音箱全量采用六麦自主研发的阵列唤醒算法,成为小米首款落地的全自主研发的智能音箱。小米自研的“阵列唤醒技术”就是一种优秀的多通道处理方案。阵列中的麦克风能够在进行声音采集的同时,对噪音进行估计……高效地弥补了单通道的缺陷。

而“端对端语音技术”是把多个小的并联或者串联的算法模块用一个算法模块(比如一个神经网络)代替,初衷一是为了弥补传统算法模块中一些为了简化问题人为提出的假设,二是防止不同模块的假设和优化目标不同,带来的错误传播。简单来说,我们的“端对端语音处理技术”中,语音特征的抓取不再由人工先验,而是由我们自研的深度学习算法自行抓取,效果更加高效准确。同时,对语音的处理放在了同一个神经网络中,一方面避免了逐级传递的误差,另一方面降低了硬件要求和功耗。


“小爱同学,半个小时以后叫我起床”


从3G时代,到4G时代,再到5G时代,智能语音交互也发生着巨大的变革。多通道端到端的语音技术不仅让用户交互方式更加自由,同时也降低了硬件的产品功耗。从近讲的唤醒识别到远场的唤醒识别,从单通道到多通道,小米自研语音技术旨在帮助用户在自由的场景下实现自由说的目标。未来,小米将智能语音技术落地至更多应用场景,不断突破自研技术,为用户提供更加极致的语音交互体验。预计到Q3,“多通道端对端语音技术”就将正式完整落地新品,敬请期待!

“小爱同学,让扫地机器人充电”

如果说“多通道语音技术”是对语音进行了增强,解决的是“听得清”的问题。那么,“端对端”(end to end)就是提高了语音的识别能力,解决了“听得更清楚”的问题。那,什么是“端对端”呢?“端对端”在不同领域中有不同的含义,在语音技术中,“端对端”指的就是从“输入端”直接到“输出端”,它还有一个更为人熟知的名字,叫“深度学习”中的“端到端模型”。要识出你说了什么,就需要提取你所说话中的特征,然后将这个特征与存储在小爱同学的语料库中的语音相对比,从而理解你的意思。传统的“非端对端”语音技术,为了在远场声音中更准确的识别出目标语音,会使用空间滤波或语音分离算法,把分离出来的语音要素进行比对。但这些算法引入了较多人为设置的先验假设,特征抓取的并不够准确,在一些不符合假设的场景下,性能会有下降。另外,传统“非端对端”语音处理技术是由多个技术模块串联组成,多个麦克风的数据会被送入回声消除、降噪、去混响、寻向和波束形成等模块,每个模块处理完毕以后,往下传递的数据已经和原始数据产生了误差,而接下来的模块都只能在这样的误差上继续处理,造成逐级累积的失真。


如虎添翼——端对端语音技术加持

要能对我们发出的指令做出响应,小爱同学首先需要听到我们的声音。我们知道,听到声音,是依靠麦克风这样的拾音设备来完成的。按照采集信号的麦克风数量分类,语音增强方法可被分为单通道(single channel)、双通道(dual-channel)、麦克风阵列(microphone array)三种类型。传统的方式是仅仅靠单个麦克风拾音,也就是我们说的“单通道语音技术”。“单通道语音技术”应用成熟,而且难度较小,因而直到现在还在普遍使用。但单通道方法的缺点是缺少参考信号,噪声估计难度大,增强效果受到限制。在日常生活场景中,如果说话的人距离智能设备的麦克风较远,加上周围存在的噪声、多径反射和混响,就会导致麦克风收取信号的质量下降,影响语音识别率。

“小爱同学,下午5点记得煮饭”


上一篇 下一篇

I 热点 / Hot