智能家居作为物联网最重要的应用场景之一被越来越多的用户所认可。特别是语音识别等人工智能技术的融入将智能家居带入A-IoT时代。但在一些应用场景下,智能家居的简单操控并不需要联网控制,为了能够实现更好的人机交互,由用户本地操控将更加方便,因此离线语音技术也为用户体验增色不少。同时针对实现离线语音识别的IC而言,面对如今复杂的使用场景也提出了更高的要求,这也对厂商提出了新的挑战。
在语音识别领域中,有许多情况下用户会发现语音识别的准确率并不高,即使在如今的在线语音识别中,需要进行实时转写也没有到令人满意的层度,这还是在基于云端强大运算的基础上。
对于离线语音而言,由于其指令相对固定,因此只需对相应语音指令集进行处理,这对于离线语音识别IC的处理能力要求并不高,但这并不意味着离线语音识别是一件非常容易的技术。在实际使用过程中,还可能遇到用户口音及环境噪音等问题,如何将离线语音识别做好还需要厂家进行针对性的调试。
对此,《华强电子》记者采访到深圳唯创知音电子有限公司研发总工程师张兴琪,他表示:“对于用户口音的问题,可以选择不同的语音模型来处理,如果产品需要销往全国各地,那么可以使用音素模型,音素模型已经采集过较多的录音样本,对各地口音的处理相对比较平均;如果产品只需要销往某个地区(例如湖南、贵州),可以使用整词模型,整词模型只采集该地区的录音样本进行训练,那么对于该地区,语音识别IC的辨识率将会达到一个很好的效果。”
随后,张兴琪表示:“一般我们推荐用户使用音素模型的方式,像我们的WTK6900B、WTK6900C系列的IC,在3米左右的距离都能达到一个很好的效果,当然如果需要更远距离的一个辨识方案,就需要使用支持神经网络架构的IC,采集足够的语音库,像我们的WTK6900F芯片,支持远场拾音,10米距离能够达到90%以上的辨识率。”
上海华镇电子科技有限公司总经理朱建强则从系统性出发,阐述了离线语音识别如何有效的进行工作:“目前的离线语音识别是一套完整的系统,包括了声学前端处理算法(远场拾音、麦阵、语音增强、波束成型、降噪、回声抑制等)和语音识别算法,环境中的噪音,通过声学前端处理,处理后干净的声音再送到语音识别引擎里处理,确保唤醒识别的准确性。误唤醒这一块,目前华镇的语音唤醒引擎通过了百度测试规范严苛的测试,误唤醒可以做到<4次/24小时。”
可以看到,目前厂商对于离线语音识别已经有了非常成熟的解决方案。针对口音问题可以采用不同的语音模型来解决,如果在全国发行,可以采用音素模型,而只针对某地发售,则可以采用整词模型。至于噪音干扰,可以先经过声学前端,在送入语音识别引擎进行处理,能够有效降低噪音干扰,提升识别准确率。
虽然针对语音唤醒指令做了针对性的调试,但离线语音模块中还拥有数量众多的操作性指令,如果与唤醒词一样做特别训练将极大地增加厂商的工作量,同时在成本上也并不划算。
张兴琪对此表示:“对于语音命令词较多的用户,我们推荐使用目前最先进的深度神经网络语音识别技术,从语音输入开始,语音检测,语音特征提取及DNN运算完全采用硬件架构设计,软件主要进行语音解码,实现了高识别率、高实时性,在一般情况下,效果可达直接商用的程度。”
华镇方面也给出了类似的解决方案,朱建强认为:“华镇的语音识别引擎采用了TDNN的语法识别算法,后台有完整的声学模型(训练了各种口音、各个年龄层的普通话的远近场录音),大词汇量的识别指令,文字编辑后和声学模型生成语法文件,语音识别时,到语法文件中去做搜索,所以修改指令会非常方便。华镇的语音大脑6291模组,支持用户动态更新识别指令集。”
在面对大量指令词时,采用TDNN、DNN等语音识别算法,与完备的语法文件相结合,将能快速的让众多指令词达到可商用程度,后续也能通过一些语音大脑模组,进行动态更新识别指令集,保证离线识别的准确率。