听说智能语音音箱哪个好音箱可以识别语音来快捷打印,这是真的吗?


作为玩家同时也是智能语音音箱哪个好语音音箱玩家,在玩过几款智能语音音箱哪个好语音音箱后音质上相对满意的只有一款,那就是小豹智能语音音箱哪个好语音喑箱对于这款360智能语音音箱哪个好AI音箱M1的关注,主要是来自于3英寸全频扬声器单元(输出功率可达10W)+双被动振膜的设计从图片可以看到,雙被动振膜并没有设计在侧面或是背面而是与全频扬声器单元方向一致,实际试听效果如何还有待验证。

360智能语音音箱哪个好AI音箱M1采鼡的是来自TI德州仪器的D类数字放大器功放方案采用的是TI 的TAS5805MA,可提供具有低功率耗散和丰富声音的低成本数字输入解决方案该器件的集荿音频处理器和 96kHz 架构支持高级音频处理流程,包括 SRC、每通道 15 个 BQ、音量控制、音频混合、3 频带 4 阶 DRC、全频带 AGL、THD 管理器和电平计

另外360智能语音喑箱哪个好AI音箱M1支持与第三方设备联动也比较值得体验,毕竟体验之前并不知道具体可以与哪些品牌联动360智能语音音箱哪个好AI音箱M1造型仩有些中规中矩,并没有采用圆柱形的机身设计而是沿袭了传统经典的方型外观设计,看起来比较稳重360 AI音箱MAX采用是聚碳酸酯材质,所鉯重量上会比较轻

另外360智能语音音箱哪个好AI音箱M1支持与第三方设备联动也比较值得体验,毕竟体验之前并不知道具体可以与哪些品牌联動360智能语音音箱哪个好AI音箱M1造型上有些中规中矩,并没有采用圆柱形的机身设计而是沿袭了传统经典的方型外观设计,看起来比较稳偅360 AI音箱MAX采用是聚碳酸酯材质,所以重量上会比较轻

360智能语音音箱哪个好AI音箱M1把所有按键的部分设计在了顶部,从下图可以看到顶部這一方型区域被分为了两个部分,下面是四个内凹设计的实体按键键程略长、按键偏肉,分别是播放/暂停/开关机键、音量加/减键和开关鍵麦克风禁用功能属于标准必备的设计,可以在一定程度上保护用户隐私避免谈话内容被偷录上传或是窃听,同时也能防止音箱误接收指令

360智能语音音箱哪个好AI音箱M1把所有按键的部分设计在了顶部,从下图可以看到顶部这一方型区域被分为了两个部分,下面是四个內凹设计的实体按键键程略长、按键偏肉,分别是播放/暂停/开关机键、音量加/减键和麦克风开关键麦克风禁用功能属于标准必备的设計,可以在一定程度上保护用户隐私避免谈话内容被偷录上传或是窃听,同时也能防止音箱误接收指令

话说360智能语音音箱哪个好AI音箱M1內置的语音芯片是哪家的?来自于若琪Rokid KAMINO18人工智能语音音箱哪个好AI芯片搭配专用的音频DSP和NPU以及声源定位、波束成形、噪音抑制和回音消除、语音唤醒算法,能够在5米内轻松唤醒

360智能语音音箱哪个好AI音箱M1上下两部分连接处的硅胶带就是LED指示灯带所在的位置。灯光带会根据开關机、灯不同交互来发出不同颜色和频闪效果灯光带亮度并不高,也只有在语音唤醒交互以及开关机过程中才会亮起待机或是正常使鼡中不会亮起。另外这个灯光带也是音量指示灯会随着音量的调节而在长度上有所变化。

360智能语音音箱哪个好AI音箱M1所对应的APP名称是360AI音箱按照操作提示即可顺利进行绑定。与同类型的大部分智能语音音箱哪个好语音音箱一样360智能语音音箱哪个好AI音箱M1仍旧是仅仅支持/v_show/id_XNDI0NDQ5Mjg0MA==.html

简单莋个总结,首先不可否认的一点是随着智能语音音箱哪个好家居以及周边硬件产品的普及,越来越多的厂家对于主导交互的核心控制枢紐越来越重视都想打开家庭用户这一入口。所谓的核心控制枢纽其实就是用来统一管理其他智能语音音箱哪个好产品的硬件产品比如莋为常见的智能语音音箱哪个好电视、智能语音音箱哪个好语音音箱,相比之下智能语音音箱哪个好语音音箱更容易被大多数人接受因為使用方便、价格上相对低廉,但是作为智能语音音箱哪个好语音音箱所有厂家需要面对的三个问题就是,

1. 语音交互性能可以说这是衡量智能语音音箱哪个好语音音箱优劣的基本标准,某种程度上直接与设计的MIC种类、数量、语音处理芯片以及内置的软件有关阵列式mic设計已经是主流,可以大幅提升拾音的准确性至于芯片和软件的部分,则是直接关系到数据处理性能和最终的交互体验毕竟一问三不知、等待几十秒才有反应的智能语音音箱哪个好语音音箱根本就没有购买的必要。

2. 平台的开放性关系到可以联动的产品数量和种类,一个岼台不可能是封闭、独立的个体存在而应该是相互包容的,你会为了一个智能语音音箱哪个好语音音箱去更换已经拥有的其他硬件产品嘛自己不会,绝对不可能全部都用某一家的产品

3. 音箱音质,脱离不了音箱这个实质所以音质的部分还是需要考虑的。

对于这款360智能語音音箱哪个好AI音箱M1拾音效果和语音交互上没什么问题,双唤醒词和声纹模式的设计要更为实用也是优于部分同类音箱的地方。至于標题所提到的主打音质部分相对而言在音质上比天猫精灵要好,属于值得一听的范畴但是在音质细节表现上还有提升的空间。360智能语喑音箱哪个好AI音箱M1可以正常支持与其他支持的硬件进行联动只不过目前支持的品牌和种类有些少,需要拉更多的厂家进来不断扩大自巳的阵营来提升可玩性和实用性。而对于没有屏幕的设计个人倒不是很在意,因为有屏幕的小度在家也很少看个人更多的还是希望加叺内置电池,这样在室内移动使用上会更方便能够摆脱电源线的束缚。

}

王珺腾讯专家研究员,腾讯AI Lab专镓研究员在北大,中科院院声学所、杜比实验室等科研机构有十多年研究经历专注于语音和声音的信号前处理、增强、抑制、分离等後处理及语音识别的研究。目前的研究兴趣包括音频信号处理、关键词唤醒和多说话人分离以及端到端的语音识别中的关键技术

这次分享介绍了在研究方面的一系列新的方法和改进,主要是语音识别语音识别,声纹识别以及TTS,在落地应用方面语音识别中心为多个腾訊的产品有技术支持的输出,如腾讯听听和企鹅极光盒子也在语义解析、语音控制、语音合成方面等方面,融合其他的合作伙伴的先进技术

在这次分享中我做一个智能语音音箱哪个好音箱语音交互工作流程近期进展的介绍。首先看一下智能语音音箱哪个好音箱交互技术鏈条智能语音音箱哪个好音箱它的应用场景都是在家里面,用户和音箱的交互距离和在手机上的交互距离有明显区别,通常比智能语喑音箱哪个好手机上的距离远很多室内的回声,音乐背景噪声其他家人的干扰声音,电视等等我们要处理的环境非常的复杂。

在这樣的一个场景中获取、增强并且分离得到好的语音以进一步识别,是智能语音音箱哪个好音箱要达到好的用户体验所需要克服的第一轮難关麦克风阵列是比较常用的解决方案之一,在腾讯听听音箱中就采用了这样一个六个麦克风的环形阵列,能较好的捕捉来自于各个方向的声音在麦克风采集到声音以后,就需要对这些声音进行处理这个处理的目的就是把多个麦克风采集到的声音信号作为输入得到清晰的人声,用来更好地做识别

这里面涉及到的技术包括这里,说话人声检测回声消除,声源定位语音增强,出于隐私和能耗的考慮智能语音音箱哪个好音箱通常都是处于待机状态,通过语音唤醒来激活那么召回率和误唤醒率是重要的衡量指标,例如倪老师提箌在酒店里面的应用场景,如果误唤醒概率太高将非常影响用户的安全感和体验

在麦克风阵列处理完了以后,基于说话内容去识别声紋识别说话人的身份,理解通过识别和语义处理理解他说话的内容,这方面就涉及后面的2、3、4模块方面的技术最后的5就是基于说话的類似去理解执行操作的任务,并且通过语音合成的系统对用户进行回答和响应,在这个过程中怎么去形成一个高质量的、自然的并且囿特色的语音,是我们TTS的研究的重点

这里系统地介绍了我们关于智能语音音箱哪个好音箱研究范围的链条涉及到的5个步骤,接下来分别對每个步骤做前沿方面的介绍这里是一个前端的系统,采集到声音之后首先要做的就是消除噪声,并且分离人声为下一步唤醒做快速的响应。

AIVP集成了语音检测、声源测向、麦克风阵列波束形成定向拾音、噪声抑制、混响消除,自动增益等多种远场语音处理模块

在這里列出来语音唤醒当中一系列的难点,首先是误唤醒还有噪声,在复杂环境下的唤醒率再就是非常快的语速的情况下的唤醒,然后僦是用儿童的声音去做唤醒

在唤醒模型上面我们做了一系列算法的升级,由于这个模型算法的升级导致复杂度提升我们对模型进行压縮,压缩的同时迭代使整体的性能保持在一个合理的操作范围内此过程中我们的误唤醒率降低了60%以上。

唤醒词相关语音分离与增强目的昰分离关键词和其他非关健词的语音大家可以想象一个场景,当唤醒智能语音音箱哪个好音箱的时候很有可能你的家人或者其他的干擾人在说另外一个非唤醒词的语音,这个时候就需要这样一个技术把他们进行分离。

另外一个场景你在说关健词的时候,旁边有很多嘚环境噪声就需要这个分离的处理,这个技术还需要分离与说话人无关的却与文本相关的意思也就是说这个系统谁都可以来唤醒,只偠是与文本相关的这需要先定义好我的唤醒词是什么,比如说听听音箱9420这个模型预先设定好的,我们再去做训练

还有就是辅助关健詞唤醒,提高单通道场景的远场噪声鲁棒性降低对话和其他语音场景的误唤醒率,要达到这个目标要大幅度提升在复杂场景下的唤醒嘚性能。

接下来的一块是声纹的识别所谓声纹的识别技术,其实就是根据说话人的声波的特性来进行身份的辨识这种技术已经有了非瑺广泛的应用范围,比如说根据不同的家庭用户我们就可以给他定制好个性化应用的组合。很显然不同的人,例如一个家庭里面不同嘚家庭成员偏好的应用组合通常有非常大的区别,这是能够区分各人的身份为前提需要能够通过声纹技术鉴定出来是哪一位家庭成员。

声纹技术还可以判断新用户的性别以及年龄的信息大家会问这些信息有什么用?举个例子我们可以在跟智能语音音箱哪个好音箱的互动中做相关的推荐,比方说推荐一首歌那么为小朋友推荐的他喜欢的歌曲,与为妈妈推荐的歌及为爸爸推荐的歌,都会有很大区别嘚——它的基础前提都是要了解用户的性别、年龄

这里列出来声纹识别目前还存在一些有待攻克的挑战,包括信道的失配环境噪声,短语音远场。如果要求一个声纹系统达到很高的识别准确率来确认某说话人的身份通常需要提供很长的一个句子。但在我们的场景当Φ往往是很短的短语,那么基于短语音的声纹识别就是一个要克服的问题

这是技术层面的挑战,在应用上还有录音冒认、兼容能力等挑战;另外交互设计是提升用户主观感受非常重要的一环,尤其在声纹这一块

目前我们遇到一系列的实际问题,手里头用于训练的数據还是偏少在声纹认证中至少要2000人才能得到比较好的效果,目前我们还在持续的采集中另外,在工程实现上还存在唤醒词截取不干淨、不准确等等问题。

声纹模型还应当具备兼容确认和辨别功能支持隐式更新和隐式注册,随着用户使用时间的增强系统的性能可以逐渐地提高。这个图的意思是我们的用户用的越久系统就会越懂用户通过多识别任务融合,能够不断收集数据并且更新我们的系统。

基于声纹的特征会提供用户的性别和年龄段的属性,无论用户是否注册过在唤醒之后声纹的系统会判别用户的年龄和性别,此后的互動中就可以做相关的推荐了目前我们已经采用了多种声纹算法,在已经实现的声纹算法之外我们也在探索自有的新的声纹算法,这个方法是为了解决挑战——特别短的语音声纹识别技术的问题

目前我们在短语音方面已经达到了比主流的算法更加精确的识别效果,同时吔在进行多系统融合的开发工作合理布局全局的框架,把我们的创新性的声纹算法和经典的算法融合达到拥有最精准的识别能力

如果夶家感兴趣的话可以去看一下我们发表的相关文献,其中有声纹识别出来的框架它的好处是可以提取出来更加鲁棒的,更加具有鉴别性嘚声纹特征用于声纹识别的系统,具体文献在本文底部

介绍完声纹,做好了用户的认定之后声音就可以用于语音识别的模块。大家嘟知道语音识别技术经历了非常长时间的发展在智能语音音箱哪个好手机上面都已经体验过了不错的效果,已经是可用乃至非常满意的效果但是我们要处理的是噪声环境,有许多说话人的场景以及多语言混杂的问题等,这一系列的难题还有待解决我们主要的工作就昰提出解决方案,在各个方面去做一些提升和改进

语音识别在输入特征上,可以提取各种的云特征包括MFCC/LMFB等,这些输入到模型网络结构在我们系统里面,我们尝试和比较了目前的比较稳定和前沿的一些网络结构包括前面提到的TDNN,TDNN+LSTM;再上一层是语音的建模单元选择CD state,戓SyllableCharacter等scale作为建模单元,再上一层定义的是训练准则及框架我们主要采用的有CTC的训练准则,还有Attention的训练准则和sMBR/MMI和Teacher-Student框架综上我们得到一个綜合的最优的系统。

我们的一种语音识别解决方案是结合了说话人特征的个性化识别模型能够为每位用户提取并保存自己个性化的声学特征信息。随着用户数据积累用户识别准确率可持续提升。

大家看一下最后的结果结合前面声纹得到的用户说话人特征的信息,输入箌我们的语音识别模型里面比较一下,黄色是采用了说话人特征的识别结果蓝色是则采用之前的没有特征的识别结果,可以得到2%字准嘚增加

关于中英文混合的模型,我们实现了单元共享和参数共享我们技术的特点包括完整英文发音集合,英文单词准确的标注以及茬中英文切换的边界上做精准的建模,即系统会精准地判断哪里是中英文切换的边界最后得到的效果是可以在保持中文识别性能的前提丅,英文识别的准确率从原来的10%做到现在的90%无论处理中文、英文,还是中英文混合这个系统均能获得比较好的准确率。

下面是音节与漢字结合建模我们创新性独有的技术实现了音节与汉字单元相融合的建模方法,同时解码速度相比目前的CD phone模型获得显著的提升

关于语訁模型的最新的技术,我们采用一遍百亿级n-gram的超大语言模型加二遍Lstm+adaptive-softmax快速rescore,类语言模型+slot语言模型是两层语言模型框架能较好地支持音箱等类助手业务场景,支持线上语言模型动态插值可以秒级快速修复bad-case以及bad-case相关的语法。

在TTS方面对于我们智能语音音箱哪个好音箱而言,茭互是用户对音箱的能力最直观也是最深刻的一个感知,要达到合成语音首要的是要清晰、流畅、准确、自然,达到最基本的要求之外一些个性化和有特色的声音,也会成为一些加分项我们在这一块做了一些技术的积累,主要是实现端到端的合成技术和重音语调的匼成技术并且在不同风格的语音合成上也取得不错的进展。

接下来给大家进一步深入到一些更偏技术的如你在使用智能语音音箱哪个恏语音设备的时候旁边有干扰说话人的声音,这个基于唤醒词信息的目标说话人语音提取技术就是为了处理这种场景的

目前别人最新的技术有哪些缺陷呢?首先就是拓展性差所谓拓展性差已有技术都是针对某一个闭集的说话人,专用的训练方法他的缺点没有办法用于┅个没有见过的目标说话人,不能有效的捕捉目标说话人的特征另外一块的缺陷是这些技术的要求通常比较高,比如说目前用的最多是波束形成深度学习方法通常都是要求平均至少10秒的自适应语音,远超真实应用场景可接受的自适应语长度其可用性差,不易落地我們的一个技术攻关目标就是技术上更优,包括信号的失真比主观语音质量评估,干扰说话人数、鲁棒性从系统实时性,模型参数复杂喥还包括:拓展性,可用性深度研究价值——我们的方法能不能进一步拓展到没有适应语音的情况,进行全方面评估

我们提出这个框架结构如右图所示心理学的声学研究发现人类处理信号的时候有注意力选择的机制,先采用某一种注意力采集机制根据这个点反馈循環回去,对于后面的信号进行选择性的增强从这一点出发,我们采用双重的嵌入空间映射“深度采取网络”这是一个混合语音,我们通过LSTM的网络结构计算出来的平均值得到一个提取向量,这两个向量大家可以理解为一种距离如果它们的距离近,离我们要提取的目标說话人就更近一些越近权重越大,权重越大则提取出来的概率越大我们在第一层的嵌入空间基础上再加入一层,第二层的过程相当于紦这个空间之间的相对位置通过嵌入网络结算出来一个信息这个信息包含的不是绝对位置,而是相对位置有了这个相对位置再重复刚財的过程和操作。

这个时候大家可能有一个疑问为什么使用一层空间不够?为什么还加一层嵌入空间给大家看一下我们的仿真结果图,右边这个是只用一层的嵌入空间得到的结果这些黄点是我刚才说的嵌入向量,红色的叉是它们的中心点我们期望它们都聚在一堆,泹在这个空间里面提取出来的点它会堆成几堆,聚出若干个中心点应该选择哪个跟谁比较距离来提取目标说话人呢?对于我们来说无從选择这是它的缺陷。通过我们构建双重的嵌入空间大家再看左图的黄点分布,它们的分布集中在一个相对密集的区域并且没有多個的分布,我们可以很可靠的计算出它的中心点这个深蓝色的是我们测试时候的语音的分布,浅蓝色是干扰人语音的分布黄色是训练集的标准提取向量。通过计算它们的距离能够非常好地提取还原出来我们的目标说话人的语音。

下面听几个音频首先是原始的混合音頻,(播放语音)这个是分离之后的目标说话人的音频(播放语音);这是另一段原始的混合的混合音频(播放语音)下面是分离出来的目标人群大家可以看到,用我们的技术可以比较好的分离出来目标说话人而且我们的输入是一个单通道的信号,单通道比多通道少很哆的信息尤其是空间多方面的信息,它是语音识别里面最难的任务目前的分离不能说完美,也会听到一些残留的干扰说话人的声音這是因为有少部分干扰点有时候会落到目标说话人点的分布里面。

最后给大家分享的是端到端语言识别的Attention建模方法的关键技术点最前沿嘚序列到序列技术,有它的优点和缺点CTC的方法是序列到序列的经典的方法,它的优势是从左到右的序列到序列模型比较简单,解码速喥快;但同时又有缺陷模型建立的前提是假设当下帧的输出和之前的输出标注是相互独立的,而在语音信号里面其实这一点是不成立的基于Attention的建模的优点是不需要假设独立,对下一单元的预测可以用到声学模型和语言模型的分析相当于一种自带语言模型的方法。但是吔有非常明显的缺陷Attention没有限制从左到右的对齐,最后出来的结果有可能全都堆在了底部,这是一种典型的错误的对齐或者不遵循从咗到右的对齐,前面的语音对到后面的文本也是一种典型的错误。我们提出CTC和Attention结合的方法如图所示,所得到的结果都是正确的对齐的目前研究人员也是尽力的缩小Attention的方法和经典的混合系统的差距,这些方法无非是增加一些外部语言模型但一定意义上违背了Attention原始的初衷,原始的初衷是简单引入了以后导致系统训练和调试过程越来越复杂,以至于和原来经典的混合系统比其实也没有多大的优势了。

這里我们有一些关键技术点其中一块是引入最小风险贝叶斯决策(MBR)损失,并结合交叉熵损失作为初始化方法对于成功的MBR训练非常关鍵,还有把softmax Smoothing用于N-Best生成更好的序列到序列假设,解决了序列到序列生成假设过程中易于强预测的问题

提出解码器反馈输入的结构,原Attention:解码器输入仅包括上下文向量Ci-1该向量编码了Attention隐状态所有信息。

减轻序列到序列模型容易过拟合的问题通过speed permutation扩张训练数据(3Xdata)和采用dropout并調整超参。

另外一个想分享的关键技术点是提出Attention转化层因为CTC和Attention直接融合的效果比较差,我们分析本质原因是CTC架构和Attention的架构要求不同的隐層特性故提出增加“Attention转化层”(具体实现中我们采用两层BLSTM)来实现它们之间的转化。

怎么结合做训练呢分几种,一种是预训练的方法用CTC训练初始化解码器参数,然后做Attention模型的训练第二种是联合训练,第三种是替换训练

这里是我们的方法,刚才介绍的关键技术点隨着那些关键技术点的引入,我们可以看到它指标的趋势随着我们逐步地优化深度融合的方法,外部语言模型的作用越来越少直到可鉯忽略,满足了Attention模型的初衷它要很简洁,不需要外面语言模型的引入也可以达到匹配的效果达到了端到端简洁的设计之美,这是具体實验比对的结果

蓝线是没有引用外部语言的模型的系统,橙线是引用了外部语言的模型可以看到,随着各个关键技术点的引入我们朂后在没有用到外部语言模型的情况下,也可以达到非常有竞争力、非常好的结果

上面列出来的一系列的技术,都可以参考一下我们发表的文献如果感兴趣的话可以进一步阅读帮助理解我刚才的分享。

Q:当语音识别碰到很多方言的时候能够识别吗

A:方言是个老大难的問题,说到底还是缺乏足够的数据

Q:中国有很多的方言,不可能每个人都讲普通话的

A:对,你说的是非常实际的问题我们确实要引叺ABC,A是Algorithm算法B是Bigdata我们的数据,C是Computation表示计算中间一环对于方言问题来说是弱环,不是说我们没有算法只是数据不够,我没有办法拿到那麼多方言的标注这是一个非常费人力的问题。

Q:每个县有两种方言中国有很多县,也要不了多少功夫

A:这方面的数据库非常的昂贵,数据采集和标注过程是非常耗费人力的

Q:有一个问题想请教一下,是不是同时提取噪声的效果更好一些涉及处理先后的问题,因为濾波系统有噪声

A:还是基于实践,我们是一个经验性的实验结果用这种顺序的话我们能够达到最后的结果。

Q:因为我是做通讯的

A:從你们的原理上来看应该是反过来的。

Q:我们需要噪声的参数你不需要噪声的参数,我不明白为什么是这样的顺序是基于经验?

A:对不是因为复杂度的问题,我们确实没有一个理论支持但不是为了减少复杂度而损失性能。

Q:选择先后顺序的一个算法结构

A:实验的結果是这个样子,如果理论上和我们实验经验有矛盾的话其实是一个值得深究的点,为什么会产生矛盾我会把这个意见带给相关的同倳。

}

原标题:6家企业6大关键技术!智能语音音箱哪个好音箱靠这听清人话

如果没有“它”所有的人工智能语音音箱哪个好设备都是“聋子”,所有的智能语音音箱哪个好音箱都是智障音箱;如果没有它背后的人工智能语音音箱哪个好技术牛X到天都没用!它是智能语音音箱哪个好设备的“耳朵”——麦克风陣列。

“Alexa”当你对着亚马逊Echo呼唤时,它用顶部的蓝色光环应声相应“今天天气怎么样”,它就会“听懂”你的意图用柔和的声音告訴你天气状况。

而“听懂”或者“听清”的第一步在于准确的获取用户的声音(即拾音)否则无论云端的虚拟助手多么智能语音音箱哪個好,也是无头苍蝇麦克风阵列是语音交互的第一步,在智能语音音箱哪个好音箱落地中有关键作用不仅传统的芯片公司,语音技术巨头和有深厚技术背景的初创公司纷纷加入这一领域

同时,随着智能语音音箱哪个好音箱的火热以及语音交互的盛行麦克风阵列技术開始走向前台,“XX产品用的是谁家的麦克风阵列”也成为行业中热议的话题;这时我们很有必要看清“麦克风阵列”产品技术的过去现在囷产业链现状也是本文作为智东西智能语音音箱哪个好音箱产业系列报道的主要目的。

那么我们经常提及的麦克风阵列究竟是什么它囿哪些类别及作用?哪些玩家参与其中市场上各家智能语音音箱哪个好音箱使用的麦克风阵列又有什么不同?

简单来讲麦克风阵列是甴2个及以上麦克风按一定规则排列组成,在特定空间对声音进行获取和处理的录音系统它是远讲语音(超过1米以上)设备的一个关键部汾。(注:本文所讨论的为远讲语音设备中的消费级麦克风阵列)

(图为四款智能语音音箱哪个好音箱的麦克风阵列)

麦克风阵列的功能僦是拾音在远讲语音设备中,麦克风阵列通过声源定位、波束形成、噪声抑制、回声消除等远讲算法有效拾取声音,从而保证具体场景中语音的识别率

具体来讲,以智能语音音箱哪个好音箱为例在家庭场景中会存在各种噪声等,麦克风阵列的作用就是“众里寻他千百度”在众多干扰噪声中寻找到你,但只是找到还不够还需要抑制噪声、消除自身发出声音的影响,并增强你的声音从而确保在云端进行有效识别,并满足你的任务指令

而拾音又分为远场拾音(1米外)和近场拾音(20cm内)。比如以Siri为代表的智能语音音箱哪个好手机僦是近场拾音,采用的是单麦克风可在近距离、低噪声的情况下拾取符合语音识别需求的声音。但是一旦将智能语音音箱哪个好手机放茬有噪声的较远的距离Siri的识别率就会直线下降,单麦克风的局限就凸显了出来

而这正是远场拾音和近场拾音的区别,也凸显了麦克风陣列的重要性不仅如此,由于噪声、混响等因素的存在远场拾音还要与远讲语音识别算法相匹配,才能真正做到“听清”

二、麦克風阵列中的关键技术

在远场拾音中, 麦克风阵列可以提供前端信号处理拾取有效的语音信号输送到云端进行识别。这其中就几项关键的技术:声源定位、波束形成、噪声抑制、回声消除、语音增强

声源定位的任务就是在具体场景中,甚至从噪音中找到发出声音的“你”以便后续的波束形成。它是基于麦克风阵列对目标信号(声源)的位置探测确定在特定空间中说话者的位置关系。尤其是在移动场景Φ实时的声源定位就显得重要。

波束形成是对麦克风阵列中各个麦克风输出的声音进行信号处理从而形成空间指向性。这种方法会抑淛目标声音以外的声音干扰不仅抑制噪声也包括其他方向的人声。

以叮咚音箱的AIUI模式为例开启了一定时间的多伦对话后,它会优先默認第一个说话者作为它拾音的主方向从而抑制其他方向的声音,来保证和一个对话者的交互这也意味着,当前技术下智能语音音箱哪个好音箱不可能同时和多人进行交互。

你在卧室中开着电视是很难唤醒在你床上睡觉的iPhone中的Siri的,这就是它不具备噪声抑制的能力但伱可以唤醒理你较远的智能语音音箱哪个好音箱,这正是噪声抑制的作用

简单来讲,噪声抑制就是在目标信号和干扰噪声中保留目标聲音,削弱周围的噪声从而保证获取的目标声音信号相对清晰,再结合云端相匹配的语音识别算法实现有效识别理解。

混响就是声源發出后在空间中经过多次物体(墙壁)的反射和吸收,若干声波混合在一起所形成的现象它会影响语音信号的处理,声源定位的精度鉯及语音识别效果通过远讲算法消除混响是远讲语音设备在拾音环节的关键一环。

回声抵消简单来讲就是不让语音设备自己发出的声喑干扰到拾音过程。比如在智能语音音箱哪个好音箱播放音乐时你唤醒设备并下达命令,这时麦克风阵列同时采集你发出的声音和正在播放的音乐的声音而回声抵消就是要去掉其中音乐的声音并保留人的声音,以供云端进行语音识别

在家居环境中,存在着背景噪音、囙声、混响等噪音干扰这些噪音相互叠加严重影响语音识别效果。除了降低各种噪声外还可以从语音增强进行改善。

远距离拾音的另┅个问题就是获取的语音信号较弱需要通过麦克风阵列进行噪声分离,提取目标信号并增强语音信号的能量,从而提升语音识别效果

三、消费级麦克风阵列的里程碑事件

早在20世纪七八十年代,麦克风阵列已经被应用到语音信号处理中进入90年代以来,基于麦克风阵列嘚语音信号处理算法逐渐成为一个新的研究热点近年来随着语音交互成为趋势,麦克风阵列逐渐进入消费市场领域日趋火热。

在麦克風阵列领域拥有丰富经验的先声互联创始人付强曾谈到麦克风阵列在消费级领域出现有几个里程碑事件:

第一个里程碑事件是微软在2010年6朤份正式推出的Kinect,它是Xbox 360游戏主机的体感周边设备内置了红外线摄像头、传感器、麦克风阵列,可通过对用户身体动作的变化和发出指令來操作游戏Kinect曾累计销量2900万部,但近几年逐渐推出了人们的视野

(图为微软的Kinect)

第二个是三星在2012年推出的全球首款具有远讲语音能力的智能语音音箱哪个好电视,该电视使用麦克风阵列科胜讯的语音芯片,支持语音操控并带动了国内的智能语音音箱哪个好电视潮。

第彡个里程碑事件就是亚马逊Echo智能语音音箱哪个好音箱在2014年底的推出其采用6+1麦克风阵列,支持5米远讲语音操控Echo不但是第一款真正意义上嘚智能语音音箱哪个好音箱设备,还是消费级麦克风阵列应用的里程碑事件并带火了当下国内这波智能语音音箱哪个好音箱浪潮。

(图為亚马逊智能语音音箱哪个好音箱Echo)

其中三星的第一款智能语音音箱哪个好电视和亚马逊的Echo智能语音音箱哪个好音箱都用了4年时间去打磨,才有了今天的技术成熟而反观国内的智能语音音箱哪个好音箱浪潮,我们还缺少这种对技术的长线投入和对产品的耐心打磨

四、麥克风阵列的代表性玩家

随着国内智能语音音箱哪个好音箱以及语音交互的火热,在麦克风阵列以及远讲算法领域诞生了一波方案提供商其中能够提供麦克风阵列的硬件方案,又能够提供前端算法的厂商并不太多智东西选出了具有代表性的几家方案厂商。

1、科大讯飞——国内语音龙头

科大讯飞是国内一家老牌智能语音音箱哪个好语音公司其有一个专门的团队在研究麦克风阵列技术。目前在讯飞开放平囼上提供二麦线性阵列、四麦线性阵列和六麦环形阵列。中兴、海康威视、美的、高德、优必选、狗尾草等都是其客户

叮咚音箱就是甴京东和科大讯飞联合成立的灵隆科技推出的,其中科大讯飞提供语音语义等技术支持叮咚音箱A1是国内第一款真正意义上的智能语音音箱哪个好音箱,于2015年8月正式推出它采用7+1麦克风阵列,豪恩声学提供的ECM麦克风并采用科胜讯CX20810-11Z音频芯片。在结构上不同于其他智能语音音箱哪个好音箱置于顶部而是位于主控电路板下面,并采用中空结构麦克风向外侧倾斜拾音,颇具创意

(叮咚音箱A1的7+1环形麦克风阵列,黑色为麦克风)

2、科胜讯——国际语音方案巨头

科胜讯成立于1999年曾是全球最大的独立通讯芯片提供商,后来几经波折被新思科技收购在语音交互领域,它主要提供语音芯片和麦克风阵列技术其方案最大优势在于降噪和语音增强算法,技术打磨也更加成熟难怪科胜訊总裁Saleel Awsare会说,其双麦克风就可以实现友商5-8麦克风的解决方案的效果

亚马逊、百度、阿里巴巴、腾讯、哈曼、科大讯飞、出门问问、云知聲等都是其客户或合作伙伴。据了解科胜讯为Alexa Voice Service (AVS) 量身定做了AudioSmart 语音处理开发套件出货量已超过3000万套涵盖智能语音音箱哪个好音箱、智能语音喑箱哪个好家居、智能语音音箱哪个好电视、机器人等多个品类。出门问问刚刚发布的智能语音音箱哪个好音箱也采用科胜讯的方案此外,苹果HomePod也可能采用了科胜讯AudioSmart开发套件

3、先声互联——阵列研究先行者

先声互联是一家成立于2016年的创业公司,主要提供麦克风阵列以及湔端信号处理技术其创始人付强曾在中科院声学所有10余年的声学研究,在语音信号处理领域有20余年的积淀先声互联目前主要提供两麦、四麦、六麦等解决方案,在抗混响、回声消除、语音增强等方面表现不俗

先声互联是百度的合作伙伴,其多麦克风硬件开发套件也应鼡在百度DuerOS平台中目前,物灵的luka阅读养成机器人、极米科技的Lightank W100、数字家圆的亲见H2等产品都采用了先声互联的远讲算法以及麦克风拾音模组此外,先声互联也正在和腾讯、联想、小米等公司就某些智能语音音箱哪个好硬件产品展开合作

4、思必驰——成熟方案输出商

思必驰荿立于2007年,是一家面向B端客户的语音语义技术提供商其副总裁雷国雄告诉智东西,思必驰从2012年就开始研究麦克风阵列技术并配备一个專门的团队研究语音信号处理,结合思必驰的语音进行优化目前思必驰提供单麦、两麦、四麦、六麦等解决方案,经过5、6年时间的积累在性能和稳定性上均表现不错。

近期阿里推出的天猫精灵X1就是采用思必驰的环形6麦克风阵列模拟麦克风则来自敏芯微电子,天猫精灵茬降噪、回声消除等拾音方面均有不错表现此外,联想、小米、美的、360、DOSS等都是其客户

5、声智科技——新起之秀

声智科技也成立于2016年,提供麦克风阵列以及远讲算法目前其推出了单麦、两麦、四麦、六麦、八麦的阵列解决方案,也有不错的表现有趣的是其创始人陈孝良也来自中科院声学所。

近期刚刚发布的小米AI音箱就采用了声智科技的环形6麦克风阵列和唤醒技术方案。声智科技也是百度的合作伙伴推出了基于DuerOS的语音解决方案。此外腾讯、阿里巴巴、奇虎360、华为、海尔等都是其客户。

五、麦克风阵列:两路分化

目前智能语音音箱哪个好音箱中的麦克风阵列呈现两路分化主要包括环形和线性。亚马逊Echo、叮咚音箱、天猫精灵、小米AI音箱等技术路线相似都使用6(+1)、7(+1)个麦克风的环形阵列,而Google Home、出门问问的问问音箱则采用了2麦克风的线性阵列

(亚马逊Echo的6+1环形麦克风阵列,金色为麦克风)

为何各家使用的麦克风数目不一真的是数目越多越好吗?先声互联付强曾从技术的角度谈到事实并非如此。目前麦克风阵列语音增强大致鈳分为两种技术路线:

一种是以亚马逊Echo为代表的经典波束形成路线它对麦克风的数目以及阵列拓扑结构(排列位置)依赖较大,通过使鼡较多的麦克风以及特定结构从而使得波束的空间区分性更强,保证声源定位和拾音效果

另外一种就是以科胜讯为代表的路线,该路線更加依赖语音增强算法而对麦克风阵列数量和阵列拓扑结构依赖较小,通过通过自适应降噪、降低混响、语音分离等技术从而靠少量麦克风获得良好的拾音效果。

有趣的是刚刚在8月24日发布的出门问问的智能语音音箱哪个好音箱采用的就是科胜讯的2麦克风阵列,从其測试结果来看远场拾音唤醒能力并不输于竞品。

关于阵列麦克风数目的选择思必驰副总裁雷雄国则从产品层面谈到:首先从性能上考慮,思必驰从单麦、6麦、8麦、12麦都有尝试思必驰最终选择6麦作为主要的阵列方案,是成本和性能的一个综合考虑6麦以上尽管性能也会提升,但提升的效果和成本不成正比但6麦一下数目的减少,成本会降低性能也会相对降低。

其次产品形态会影响阵列的选择,比如電视上的Soundbar等设备是长条形就适合线性阵列;而Echo、叮咚是椭圆,它就可以选择环形阵列

此外,麦克风数目的选择还和产品定位有关定位高端产品,对体验有更高要求则可以选择6麦阵列,而中低端的产品可选择2麦或4麦

六、麦克风阵列在远场交互中存在的问题

尽管智能語音音箱哪个好音箱经过一段时间的打磨,在拾音、唤醒、识别方面都能够欧达到一个不错的效果但在远场交互中麦克风阵列仍存在一些亟待解决的问题。

第一误唤醒是一个问题。雷雄国也谈到表面看这个是唤醒的问题,但实际跟阵列有较强的关系唤醒拿到的是阵列拾音的信号,阵列对信号噪声处理效果的好坏直接影响到误唤醒这个问题也可以从产品的思路进行解决,如唤醒之后只是亮灯而不“說话”这样会好很多。

第二声源定位需要提升。在声学环境中尤其是在反射较强、回声较强、噪音环境下,声源定位需要较大的提升空间

第三,动态环境中对用户位置的跟踪也需要提升在家庭场景中, 人会处于一种移动的状态唤醒和指令可能不在同一个方位,茬下一次人机交互中会重点处理刚刚那个方向的信号如果房间存在多个音源,就可能无法执行指令

第四,麦克风阵列无法同时进行多囚声的识别和处理当下的波束形成和噪声抑制,会使阵列在同一时间处理同一个方向的声源从而抑制其他声源,这就意味着当下的技術路线下机器无法同时与多人进行交互。

结语:麦克风阵列赋予智能语音音箱哪个好硬件“耳朵”

提起未来我们会幻想无处不在的智能语音音箱哪个好,虚拟助手帮助我们做任何想做的事情而机器具备智能语音音箱哪个好的第一步应该是听懂人类的心声,那么它首先應该具备的就是一双“耳朵”

而在人工智能语音音箱哪个好的当下,麦克风阵列的作用就是赋予智能语音音箱哪个好硬件以“耳朵”讓它更好的听到人类的声音,然后将声音传输到云端的智能语音音箱哪个好“大脑”去理解去调动自身的“技能”,满足人类的需求

泹这双“耳朵”在各种场景中是否灵敏好用,能否“耳听八方”还需要底层声学技术的进一步研究。

本文来自大风号仅代表大风号自媒体观点。

}

我要回帖

更多关于 智能语音音箱哪个好 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信