解读VR:虚拟现实中的虚拟听觉与机器人听觉

2016-03-16 09:17 阅读(335)    评论(0)   

1月14号,高盛发布了一份长达58页的报告,详细讨论了虚拟现实(VR)和增强现实(AR)产业的未来发展状况,高盛认为VR和AR拥有巨大的潜能,它可能会成为下一个大型计算平台,到2025年AR和VR硬件及软件营收将达800亿美元,如果它们迅速跳出小众市场走向大众,年营收最多可以达到1820亿美元。

这条消息真是刷爆了朋友圈,笔者不禁慨叹虚拟现实领域的热闹,终于也忍不住提提大家经常忽略的声学领域。自从电话诞生以后,甚至一直到现在,我们远程传递信息主要还是依赖声音,那个时候声学的研究自然相当重要,甚至我们国内最早的DSP就是兴起于中科院声学所,大家到我们所参观看到独特的DSP大楼也总会多问几句。但是好景不长,随着智能手机的兴起,至少在消费电子领域光学的重要性已经超过了声学,不用慨叹技术弄人,实际上这才是真正的进步,因为人类也是主要靠眼睛获取信息,而耳朵辅之。有时候我们也会开玩笑:眼睛在前,耳朵在后的人体结构决定了各自的地位。当然这样说不太准确,因为两者实际上是协同一体的,根本就无法割裂开来。

实际上,智能手机火爆的当下,真正赚钱的光学厂家也不是太多,毕竟这个领域类似计算机技术一样竞争过于激烈,而且巨头提前布局已然形成了垄断地位,从摄像头模组和电容触摸屏行业分析中就可窥探一二。反而声学这个不被重视的行业,却在国内孕育出了不少大型企业,比如山东的歌尔声学和共达电声,浙江的新嘉联等上市企业,耳机配套厂家就是更多了,就连造音箱的漫步者、奋达也已上市。

ff7c49550182bee5-c396f3f058a76100-a32cd7b5e9c5ca31da8f6c2b0d7e513b

什么是VA和RA?

从上述简单道理来看,未来虚拟现实的火爆自然也会引发虚拟听觉的火爆,虚拟听觉(Virtual Audition)是相对于虚拟现实的概念来说的。实际上现在的虚拟现实叫法还不准确,应该叫虚拟视觉,因为现在的VR/AR设备还都没有考虑声音的问题,包括现在的3D电影。这个问题在看3D电影的时候,感受应该很明显,声音或多或少总会和画面的方位脱节,特别是当坐到了影院两侧过道的时候,似乎声音总是在头顶一方。虚拟听觉就是要解决这个问题,这是个很大的研究和应用领域,包括了虚拟环绕声、虚拟3D声等等,甚至利用小声定向音箱投射产生的虚源声音也属于这个范畴。

从现在的头戴式VR/AR设备来看,虚拟环绕声和虚拟3D声应该是最有应用前景的。虚拟环绕声只能做到一个平面上的声音定位,而虚拟3D声则可以做到立体空间的声音定位,这种虚拟出来的声音会让人类的耳朵明显感觉到声音的方位,尽管只是戴了副耳机而已。

除了上述的虚拟听觉技术,未来跟随爆发的还应该有机器人听觉技术(Robot Audition)。机器人自然也是各大巨头看重的未来行业,但是仔细想想机器人的核心是什么?显然,传感系统、机械系统、控制系统、视觉系统、听觉系统、触觉系统等等都是关键要素,可谓涵盖了几乎所有相关学科。机器人自然要应用人工智能,但是最先突破又能够落地应用的人工智能又是什么呢?显然,听觉智能又会走到最前面,毕竟耳听八方,眼观六路嘛,听觉有着先天优势。从最近各大巨头收购相关声学初创企业的动作来看,这点应该是确信无疑的(见附录)。

RA主要研究什么?

50d2f8e19304f850-8bb9d7673476e422-dbf68b435ac3f7b0fd854a79acf31926

首先就是仿真人类听觉系统,人类真正解剖听觉系统是在文艺复兴时期,著名的医学家维萨里(Andreas Vesalius,1514-1564)在1543年发表了划时代的著作《人体的构造》,被认为是最早的耳科解剖学家。随后很多著名人物都对人类听觉的认知做出了贡献,而在1961年,贝克西因发现了耳蜗内部刺激的物理机制而荣获诺贝尔医学和生理学奖。虽然直到现在还是没有搞清楚听觉的原理,但是这些研究成果足以推动至今我们仍在快速发展的各声学相关学科。显然,机器人或者智能设备必须拥有一副仿真的人类耳朵,这才能解决机器人自动适应环境以及与人类的自然交流问题。通俗来说,就是要让机器人听得到,就这一个要求就必须解决远程拾音、声音定位、语音增强、噪声处理、语音识别、声纹识别等等众多技术问题。

其次机器人听觉还要解决听觉智能的问题,也就是听得懂。我们人类的听觉系统是和神经紧密相连的,而且现在也知道大脑中专门有个部分处理声音信号,医学上常称为语言中枢。当然机器人也就需要这种中枢,很多语音识别厂商包括Apple、Google、Nuance、百度、科大讯飞等等也都希望建立这种听觉中枢系统。由于语音识别大都基于DNN算法,所以当下的深度学习技术极为流行,搜索Deep Learning的论文简直就没法翻页了。但是这有个问题,Deep Learning是基于大样本的,需要初始大样本训练,恰好适合云应用。笔者认为机器人采用这种大样本训练倒不合适,训练样本总是特定的,而机器人面临的环境是多变的,这我们需要机器人能像人类一样自主学习,也就说举一反三,因此笔者认为,未来机器人的听觉智能必然是基于小样本训练的,而我们的团队也一直在这方面努力。很多关注声学在线的朋友经常反映我们的小声机器人一点不智能,实在抱歉。其实,这款小声机器人还未真正上线,我们觉得还达不到我们想要的效果,暂时就不出来挑逗大家了,我们怕走向微软小冰一样的歧途。

最后机器人听觉当然要解决自动对话的问题,也就是说得出。机器人不同于其他设备,不能听到或者听懂了后一直默不作声,想想若旁边有个人也这样简直会发疯。人机对话自然也是声学相关的领域,人类的发音系统同样也是一个复杂的结构,至今也是没有完全搞懂,总之人体就是太复杂了。目前,这方面主要是语音合成技术,虽然最近几年进步很大,但是离我们的要求还差之甚远,机器人的对话自然也需要注入语调和情感,现在看来难度有点大。

虚拟现实和机器人领域涉及的声学技术太过庞杂,这篇文章不再赘述。简单概括来说,虚拟现实不仅需要虚拟视觉,也需要虚拟听觉,至少也要让虚拟现实中的场景和声音适配起来,否则由于眼睛和耳朵的失调更容易引起观看虚拟现实的疲劳感。机器人和人工智能则更需要声学技术来实现最可能落地的人机交互,我们知道,识别声学特征明显的物理环境和采用语言传递信息是我们人类最有效的保护手段和交互手段,而真正的机器人也必须能够完全从环境中提取丰富的声音信息,以及像人类一样使用语言进行自然信息通讯。

原文源自“声学在线”

未经授权,严禁转载。

 

分享到:

相关推荐

  • 15

    你们做梦都想吃的米其林餐厅,其实全是轮胎厂的阴谋

    欧洲吃货界一直流传着一本“美食圣经”——《米其林指南》。 据说《米其林指南》收录了全欧洲最值得去的餐饮店。 这本书中最高级的便是三颗星的餐厅,而每一颗星的增减都会影响餐厅每月百万欧元的收入。 在业界人士眼里,《米其林指南》是不折不扣的“餐饮界的江湖榜”。 1900年出版第一册《...

  • 1709A2

    中国史上口技最好的男人,通晓50种语言8门学科,只因为“好玩儿”

    自从普通话成为国语后,许多人就不服了。我们总能从老一辈嘴里听说:差一点,咱这方言就是普通话啦。其实哪有那么多差一点,普通话又不是通过全民票选选出。而是通过专家研究后,再确定音质佳、韵律好、推广容易的方言作为普通话。 事实上,在语言学家眼里,国语以北方方言为基础早已是共识。 ...

  • vangogh_color and black and white

    色盲曾是超能力?人类远祖靠它度过了恐龙时代,如今却成了最高发的遗传病

    “原来你是红绿色盲(色弱)啊?!” “那你看国旗是什么颜色的?还有宝强的帽子是什么颜色的?” 这是一个色觉认知障碍者常常要面对的情景。 天知道他在决定公开这个秘密的时候经历了多久的挣扎。 很多人对色盲或色弱有着不小的误解,虽然关于色盲症的研究早在两百多年前就已经出现了。 ...

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

SME 发掘你不知道的科技故事