企业人物访谈
INTERVIEW
对话通用微科技创始人王云龙:语音识别将成智能家居重要突破口
5 个月前

        生活水平的提高带动了智能生活衍生产业的发展,智能家居的市场被逐步打开。据统计,2018年中国智能家居出货同比增长36.7%至1.5亿台,预计2023年增长至5亿台。与此同时,虽然智能硬件市场起步较晚,但专注于垂直领域的独角兽企业数目可观。从融资轮次的角度看,行业尚处在发展的早期阶段,但发展前景广阔。

        作为智能家居的重要入口,位于智能家居产业链上游的语音输入备受关注,通用微科技(GMEMS)采用全产业链生产的商业模式,为各大公司提供了一整套智能语音入口的声学硬件解决方案。

        软件算法的精进,也需要配合较佳的硬件麦克风相辅相成,才能提供使用者较佳的使用经验。近日,通用微科技创始人王云龙与网易广东创投频道对话,解读智能时代下语音识别技术的发展与应用。

对话通用微科技创始人王云龙:语音识别将成智能家居重要突破口

王云龙,通用微科技创始人,美国密西西比大学物理声学博士、江苏“双创人才”,拥有近四十项MEMS专利。其创立的通用微科技是一家软硬件结合的端侧语音交互方案公司。

 

        网  易:目前人工智能的细分领域的行业发展现状如何?

        王云龙:目前人工智能发展主要有两个领域,一是语音,二是视觉。视觉领域发展像人脸识别等相对于语音识别来说,已经比较成熟。这是因为人脸外观没有太多复杂的东西,一般用图像进行分辨就能解决。但声音有个比较麻烦的地方,那就是声音的频率都是相似的,而且声音的声谱是可以交叉混杂在一起的,所以声音的处理和图像处理会不太一样。

        网  易:声音混杂加大了语音识别的难度,这样的场景被成为“鸡尾酒会问题”,通用微科技针对这一难题的解决方案是什么?

        王云龙:以往语音提纯可分为两个部分,一部分是“主麦”,负责接收全部声音;一部分是“参考麦”,负责接收噪声做降噪处理,两者声音相减就是提纯的音频。我们采用的方式是盲源分离,就是先利用人工智能线下识别并训练好一系列特定的声音,等到音频输入后就可以自动分类,然后提取出音频中的任意一种声音。这样,收取声音的阵列可以做得非常小,占用很小的资源。这也是我们团队目前正在突破的核心技术之一——研发人工智能和传统统计学模型合成的混合模型。

        网  易:这项技术的应用范围和前景如何?

        王云龙:应用非常广泛,比如说会议、音乐会等,大大小小的活动都适用。应用中涉及到两个要素,一是要有质量好的麦克风,这关系到麦克风的信噪比和动态范围;二是算法要“硬”。可以肯定的是,在未来,这项技术的应用场景会越来越多。除此以外,这项技术的市场前景较明朗。除了上面提到的会议、音乐会以外,智能家电也是重点领域,目前国外已经有企业在专攻这项技术。以前智能家电需要“声音—手机—家电”的链条进行控制,如今国外企业正朝纯语音的交互形式发展,实现“去手机”的目标。

        网  易:技术攻克过程中的难点有什么?

        王云龙:“语义理解”还有很长的路要走,现在基本上还处于“幼儿园时期”。这是因为语义需要结合场景来理解,而每一个场景都需要定制。目前国内很多企业都认为语音的收集、处理和理解要针对每一个场景进行定制与训练。也正因如此,如今国内很多行业领头军无法覆盖到需要深度定制的每个场景,这就给一些小公司生存的机会。我们团队的做法是制定在场景中均比较通用的算法,强调通用性而非定制化。我们团队计划在语音入口处做标准码表,这就相当于在语音入口上做到处都能用的“麦克风”,把语音入口做成一个标准品,而不是现在这样根据不同的场景定制的麦克风阵列。

        网  易:能对家里的电器进行声控,安全问题如何解决?

        王云龙:安全问题主要是暴露个人隐私。如今智能家电在国外发展没那么快,这是因为有立法保护,比如儿童的声音是不能随便采集、上传到云端的。所以未来的需求是所有的语音识别、语义理解都必须在本地端离线进行。这是未来的趋势。这也正是我们要做端侧而非云端的整体解决方案的原因。

        网  易:针对人声音的变化,如感冒、小朋友变声等问题,技术方面该如何解决?

        王云龙:声纹识别本身的准确率并不高,大约为千分之一,而指纹的准确率能达到百万分之一。遇到变声的情况,实际所需要做的就是不断的声纹训练和更新。

        网  易:这项AI语音识别功能会随着设备系统进行同步在线更新吗?

        王云龙:目前这项功能没办法集成到设备的主系统中,因此我们团队所做的是在声音的进入端,也就是传感器件处就解决问题。我们也在传感器件里加上一些声音处理的数字信号处理芯片,在这里先处理一部分信号,如唤醒、降噪甚至声纹识别等,这样就能实现手机的低功耗待机并为主芯片释放更多的空间,这可以满足未来更多的需求。

        网  易:目前团队机构处在怎样的阶段?

        王云龙:我们主要有两块业务,一块是算法处理,国内有专攻前端研发的语音识别的龙头企业;第二块是硅麦。目前我们团队把两块业务融合起来了,国内暂时没有这样的机构。目前我们已经将硅麦跟算法结合起来,做成一体化的单芯片的方案。预计今年硬件和软件结合的智能硅麦会进入量产阶段,并在2019年底前进入国内企业及外企或与它们合作,同时向智能家电领域拓展。

        文|谭文俊

        图|王广璞

联系我们
邮箱:BD@xinyong.group
电话:020-89286602
地址:上海市普陀区金沙江路980号 华大科技园E3楼8层(上海市社会信用促进中心)