解读VR:虚拟现实中的虚拟听觉与机器人听觉

2016-03-16 09:17 阅读(368)    评论(0)   

1月14号,高盛发布了一份长达58页的报告,详细讨论了虚拟现实(VR)和增强现实(AR)产业的未来发展状况,高盛认为VR和AR拥有巨大的潜能,它可能会成为下一个大型计算平台,到2025年AR和VR硬件及软件营收将达800亿美元,如果它们迅速跳出小众市场走向大众,年营收最多可以达到1820亿美元。

这条消息真是刷爆了朋友圈,笔者不禁慨叹虚拟现实领域的热闹,终于也忍不住提提大家经常忽略的声学领域。自从电话诞生以后,甚至一直到现在,我们远程传递信息主要还是依赖声音,那个时候声学的研究自然相当重要,甚至我们国内最早的DSP就是兴起于中科院声学所,大家到我们所参观看到独特的DSP大楼也总会多问几句。但是好景不长,随着智能手机的兴起,至少在消费电子领域光学的重要性已经超过了声学,不用慨叹技术弄人,实际上这才是真正的进步,因为人类也是主要靠眼睛获取信息,而耳朵辅之。有时候我们也会开玩笑:眼睛在前,耳朵在后的人体结构决定了各自的地位。当然这样说不太准确,因为两者实际上是协同一体的,根本就无法割裂开来。

实际上,智能手机火爆的当下,真正赚钱的光学厂家也不是太多,毕竟这个领域类似计算机技术一样竞争过于激烈,而且巨头提前布局已然形成了垄断地位,从摄像头模组和电容触摸屏行业分析中就可窥探一二。反而声学这个不被重视的行业,却在国内孕育出了不少大型企业,比如山东的歌尔声学和共达电声,浙江的新嘉联等上市企业,耳机配套厂家就是更多了,就连造音箱的漫步者、奋达也已上市。

ff7c49550182bee5-c396f3f058a76100-a32cd7b5e9c5ca31da8f6c2b0d7e513b

什么是VA和RA?

从上述简单道理来看,未来虚拟现实的火爆自然也会引发虚拟听觉的火爆,虚拟听觉(Virtual Audition)是相对于虚拟现实的概念来说的。实际上现在的虚拟现实叫法还不准确,应该叫虚拟视觉,因为现在的VR/AR设备还都没有考虑声音的问题,包括现在的3D电影。这个问题在看3D电影的时候,感受应该很明显,声音或多或少总会和画面的方位脱节,特别是当坐到了影院两侧过道的时候,似乎声音总是在头顶一方。虚拟听觉就是要解决这个问题,这是个很大的研究和应用领域,包括了虚拟环绕声、虚拟3D声等等,甚至利用小声定向音箱投射产生的虚源声音也属于这个范畴。

从现在的头戴式VR/AR设备来看,虚拟环绕声和虚拟3D声应该是最有应用前景的。虚拟环绕声只能做到一个平面上的声音定位,而虚拟3D声则可以做到立体空间的声音定位,这种虚拟出来的声音会让人类的耳朵明显感觉到声音的方位,尽管只是戴了副耳机而已。

除了上述的虚拟听觉技术,未来跟随爆发的还应该有机器人听觉技术(Robot Audition)。机器人自然也是各大巨头看重的未来行业,但是仔细想想机器人的核心是什么?显然,传感系统、机械系统、控制系统、视觉系统、听觉系统、触觉系统等等都是关键要素,可谓涵盖了几乎所有相关学科。机器人自然要应用人工智能,但是最先突破又能够落地应用的人工智能又是什么呢?显然,听觉智能又会走到最前面,毕竟耳听八方,眼观六路嘛,听觉有着先天优势。从最近各大巨头收购相关声学初创企业的动作来看,这点应该是确信无疑的(见附录)。

RA主要研究什么?

50d2f8e19304f850-8bb9d7673476e422-dbf68b435ac3f7b0fd854a79acf31926

首先就是仿真人类听觉系统,人类真正解剖听觉系统是在文艺复兴时期,著名的医学家维萨里(Andreas Vesalius,1514-1564)在1543年发表了划时代的著作《人体的构造》,被认为是最早的耳科解剖学家。随后很多著名人物都对人类听觉的认知做出了贡献,而在1961年,贝克西因发现了耳蜗内部刺激的物理机制而荣获诺贝尔医学和生理学奖。虽然直到现在还是没有搞清楚听觉的原理,但是这些研究成果足以推动至今我们仍在快速发展的各声学相关学科。显然,机器人或者智能设备必须拥有一副仿真的人类耳朵,这才能解决机器人自动适应环境以及与人类的自然交流问题。通俗来说,就是要让机器人听得到,就这一个要求就必须解决远程拾音、声音定位、语音增强、噪声处理、语音识别、声纹识别等等众多技术问题。

其次机器人听觉还要解决听觉智能的问题,也就是听得懂。我们人类的听觉系统是和神经紧密相连的,而且现在也知道大脑中专门有个部分处理声音信号,医学上常称为语言中枢。当然机器人也就需要这种中枢,很多语音识别厂商包括Apple、Google、Nuance、百度、科大讯飞等等也都希望建立这种听觉中枢系统。由于语音识别大都基于DNN算法,所以当下的深度学习技术极为流行,搜索Deep Learning的论文简直就没法翻页了。但是这有个问题,Deep Learning是基于大样本的,需要初始大样本训练,恰好适合云应用。笔者认为机器人采用这种大样本训练倒不合适,训练样本总是特定的,而机器人面临的环境是多变的,这我们需要机器人能像人类一样自主学习,也就说举一反三,因此笔者认为,未来机器人的听觉智能必然是基于小样本训练的,而我们的团队也一直在这方面努力。很多关注声学在线的朋友经常反映我们的小声机器人一点不智能,实在抱歉。其实,这款小声机器人还未真正上线,我们觉得还达不到我们想要的效果,暂时就不出来挑逗大家了,我们怕走向微软小冰一样的歧途。

最后机器人听觉当然要解决自动对话的问题,也就是说得出。机器人不同于其他设备,不能听到或者听懂了后一直默不作声,想想若旁边有个人也这样简直会发疯。人机对话自然也是声学相关的领域,人类的发音系统同样也是一个复杂的结构,至今也是没有完全搞懂,总之人体就是太复杂了。目前,这方面主要是语音合成技术,虽然最近几年进步很大,但是离我们的要求还差之甚远,机器人的对话自然也需要注入语调和情感,现在看来难度有点大。

虚拟现实和机器人领域涉及的声学技术太过庞杂,这篇文章不再赘述。简单概括来说,虚拟现实不仅需要虚拟视觉,也需要虚拟听觉,至少也要让虚拟现实中的场景和声音适配起来,否则由于眼睛和耳朵的失调更容易引起观看虚拟现实的疲劳感。机器人和人工智能则更需要声学技术来实现最可能落地的人机交互,我们知道,识别声学特征明显的物理环境和采用语言传递信息是我们人类最有效的保护手段和交互手段,而真正的机器人也必须能够完全从环境中提取丰富的声音信息,以及像人类一样使用语言进行自然信息通讯。

原文源自“声学在线”

未经授权,严禁转载。

 

分享到:

相关推荐

  • 2000³â´ë ÃÊ¹Ý ¼­¿ï¼Ò¹æ ¼Ò¹æ°ø¹«¿ø(¼Ò¹æ°ü) È°µ¿ »çÁø

    百货大楼20秒塌为平地,1500人被埋人神共愤,只因贪图半天营业额

    在天崩地裂的20秒内,近1500人被压在42000吨瓦砾之下。 这是1995年发生的三丰百货店倒塌灾难,也是韩国和平时期里伤亡最大的事故。 这次倒塌共造成502人死亡,937人受伤,经济损失667亿韩元。 愤怒的民众走上街头抗议,数十位政府官员受到贪污指控。 时至今日,三丰百货的名字仍是许...

  • 在中国考察时的斯文·赫定

    他发现楼兰古城,首为诺奖提名华人,仍无法掩盖“掠夺文物”的罪行

    19世纪末到20世纪初有一个“探险时代”,那是一个崇尚探险的时期。 探索未知给人们带来的可能是死亡,也可能是财富、名望和地位。 因而越来越多的人向地图上那些空白点进发,沙漠、冰川、高山成就了一个个探险家。 而那神秘的东方国度——中国,成了许多人的目标。 中国经历上千年的文明...

  • 0 (30)

    阿加莎:侦探小说界的化学大咖,作品堪称“投毒指南”

    如果你喜欢推理小说,那么你已经有50%的机率是位“阿加莎迷”。 《东方快车谋杀案》、《尼罗河上的惨案》、《无人生还》、《阳光下的罪恶》等精彩作品,我们再熟悉不过。 阿加莎与她的部分作品 她被举世公认为“侦探小说女王”,在全球范围内坐拥无数拥趸。 在中国,阿加莎也被广大网友亲昵地...

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

SME 发掘你不知道的科技故事