一、语音识别芯片的原理
定义:语音识别芯片即智能芯片,是指能听懂并能对话的芯片。典型产品即小度、小爱。
语音识别的流程如下:
前端语音处理、模拟训练、后端识别处理
前端处理即把人声或者采集的声音转化为机器能听懂的机器音,并作信号优化处理。
所需硬件链路:MIC-Codec/ADC/PDM-NPU/DSP
MIC麦克风是采集音频的关键硬件载体,关键参数是灵敏度和信噪比。
前端采集的原理简单:音频采集,一般通过麦克风完成。通过麦克风处理过后,再进行静音切除,分侦加窗,降噪,预加重等一系列的处理。最后是特征提取,即提取主流信号匹配到匹配特征点
模拟训练:模拟就好比“查找词典”,这需要前期有所输入,即前期的语音数据采集,它形成记忆数据库,通过模拟比对正确的语音和单词,匹配答案。
后端识别又叫语音解码,将“声学模型”和“语言模型”匹配到采集的语音信号并输出结果。
二、语音识别的比对
因为篇幅有限,本文尽可能言简意赅。
语音识别技术目前有两种,分为在线语音识别和离线语音识别。其实从字面理解就大体明白,一个支持联网下工作,一个支持的是离线终端工作。在线语音一般基于手机和智能音箱,通过网络传送到云端服务器,资源更加强大,反而本地离线版仅支持硬件(MCN或者flash等)显得比较匮乏。
离线语音识别目前的应用主要体现在智能家电、语音遥控器、智能玩具、车载声控、智能家居等。
我们重点就讲这个离线型的语音芯片。
芯片对比参照说明:
识别距离&识别率:这个与消费者的体验息息相关,当然与厂商的定位有关。
误识别率:即准确性,用户不希望对方突然插话,也不希望半夜突然说话
处理器:处理器有MCU和AUDIO Core识别,前者偏向于音频信号和识别算法,后者偏向协同合作处理器。前者更加会影响语音识别的效率和准确性。
存储:即容量,不解释
语音算法:前端信号处理和后端信号识别算法。
音频通道或外设接口:芯片与周边器件的通信桥梁,对于语音识别来说,音频的输入和输出更重要。
电源功耗:一般可以忽略
1.0&2.0传统型
传统算法模拟主流是GMM+HMM,或者模拟匹配即语音标签。芯片的配置一般,没有降噪功能,安静环境下识别距离时2-5m,识别率达90%,条数3-5条。
处于成本考量和应用行业特点,各家芯片都有不同的"性能短板":外挂主控、外挂存储、OTP固定词条、词条数少、接口单一、稳定性差等等,这些短板,都是为了降低成本。
厂商分析
围绕台湾赛维算法,某台湾芯片厂商大力推广离线语音识别,国内外许多电器厂多有尝试,但是受限于技术,识别效果不佳,消费者满意度低,退货率较高。厂商损失惨重,因而语音识别技术基本被搁浅了。
但语音识别除了家电外,在玩具电子的应用还是较高的,一个玩具电子的包容性比较强,另外台湾的芯片支持多国语言识别,因而比较受欢迎。
另外上海有一家做语音的厂家,他们的软件指令编码比较齐全,但缺点是价格偏高,而且大股东之一也是北京的一家视觉识别大家的合伙人。
深圳唯创语音识别芯片的成本较低,语音播放芯片(OTP+MCU喇叭)多用于玩具开发中,芯片的开发集中在台湾和广东,但是如果从生产来讲,基本集中在广东区域,并且呈现一定的集群效应。出口代工玩具在韶关,国内玩具在汕头澄海,产业集中代动了周边的发展。
3.0分为互联网&纯芯片型
互联网偏向于网络,纯芯片偏向于硬件部分。芯片语音处理核心为NPU,同等条件下,NPU能耗高于DSP。但其前端处理能力很强大, 尤其是在降噪及远场识别等功能。
从产品的角度来看,相较于在线语音识别,离线语音识别在硬件成本和软件开发上投入成本较高。其明显的优势是对于单向控制的应用上,如风扇、空调、照明上。目前唯创知音也在这块有了几大应用了,明显的就是小蜂管家。唤醒之后能进行简单的语音对话。
从产业链的角度来看,国内语音识别芯片原厂集中在北京和上海,深圳虽然有着发达的电子企业和成熟的芯片供应体系。但芯片产业配套及国家基金支持、人才培养,北上更有优势。而且半导体行业属于长期耗钱多,成效慢的行业。
Copyright (©) 2020 深圳唯创知音电子有限公司 版权所有 地址:深圳市宝安区福永街道大洋路90号中粮福安机器人智造产业园6栋2/3层 备案号:粤ICP备15026214号