还记得6月份苹果在 WWDC20 大会上公布的 AirPods Pro 新功能——"空间音频"吗?

1012970a.jpg

图片来源:苹果官网

所谓空间音频,从技术上来说,就是通过定向音频滤波,并对用户双耳接收到的声音频率进行细微调整,在AirPods Pro的听感上实现了对传统环绕声音响的模拟。同时,AirPods Pro通过内置的陀螺仪感应头部的移动,来实时跟踪和同步各个方向的声场,从而获得更好的空间感和立体感。

通过上述描述可以看出,要想体验到"空间音频",首先需要拥有一副AirPods Pro耳机。其次,播放的资源需要支持5.1声道、7.1声道以及杜比全景声。

目前,在国内满足以上条件的资源还比较少。即使满足条件,有些资源的效果也并不是很明显,而效果比较好的资源就更加稀少。经过多次测试,支持"空间音频"效果比较好的是《复仇者联盟4:终局之战》。

当开启空间音频功能时,可以明显地感觉到声音仿佛不是从耳机中发出来的,而是来自正对面的距离人脸几十厘米的固定空间,声场早已超出耳机所覆盖的范围,甚至会产生正在用播放设备外放的错觉。

而在向左或向右转头时,双耳与音源的相对位置发生了变化,此时模拟出的发声源会跟随人脸转动,始终保持在人脸的正对面,给人一种时刻被环绕的感觉。

但是,在体验的过程中,笔者发现模拟发声源并不是同步地跟随头部,而是会有几秒钟的延迟,大概在你转动头部6、7秒之后,模拟发声源才会移动到人脸的正对面。再一个就是头部保持不动,而将播放设备移动到一旁,模拟发声源并不会跟随设备移动,始终还是保持在人脸正对面。

那么,究竟是什么原因产生了上述问题呢?

笔者在一篇名为《预测性的头部跟踪的双耳音频渲染》的专利中,找到了延迟产生的原因。

专利中提到,在所渲染的音频通过耳机播放时,用户的头部可能已移动。当头部跟踪数据和音频在播放设备和耳机之间通过无线传输时,就会产生延迟现象。在耳机上执行音频流的渲染,可以减轻延迟问题。

但是,双耳音频渲染是计算密集型的,拿AirPods Pro耳机为例,它的H1芯片的计算力明显是不如iPhone的,因此渲染工作由iPhone端执行效果会好于耳机端。

iPhone可基于头部跟踪数据来预测头部取向/位置,并且基于该预测来渲染音频流。这可能导致虚拟音频源在头部运动改变(即,开始、结束、加速)时偏离目标,从而导致实际头部位置与预测不同。

这也就解释了模拟发声源跟随头部转动会产生延迟的原因。

1012970b.jpg

同时,专利中也提供了缓解延迟现象的解决方案。渲染设备(iPhone)不是基于已知或预测的头部位置来生成单个音频流,而是基于头部跟踪数据渲染用于多个不同头部位置的多个音频流。

耳机(AirPods Pro)基于当前头部跟踪数据从多个音频流中选择距离实际头部位置最近的一个音频流。选择音频流是一种相对简单且低成本的操作,因此在耳机上只需要最小的处理能力。如果音频流中没有任何一个音频流与实际头部位置紧密匹配,则耳机可选择两个最靠近的音频流进行混合。

通过上述方式,可以缓解或消除感知到的头部跟踪延迟。但是,从实际体验来看,延迟现象依旧比较明显。

当然,在苹果公司的这篇专利中,看杜比全景声的视频、听7.1声道的音频仅仅是空间音频技术应用的一方面,而更大的方面则是应用到VR/AR即虚拟与增强现实技术上。

专利中也公开了相关的实施例:在VR/AR系统中,用户可以穿戴头盔、护目镜或眼镜等设备,这些可穿戴设备采集环境信息(视频、深度信息、照明信息等)及用户信息(用户的表情、眼睛移动、头部运动、注视方向、手势等),然后将信息无线传输给基站,由基站负责运算,渲染出显示的虚拟内容和伴随音频,再由可穿戴设备显示给用户。图像和视频跟随人的运动而运动,使得用户会感觉自己仿佛是从第一人称角度在场景中移动,从视觉和听觉上给人一种逼真的临场感,大大提高用户的体验。

读完整篇专利,笔者感叹于苹果的科技创新,更被苹果的整体布局的大局观所震撼。空间音频仅仅是苹果未来规划路上的一小步。结合苹果之前在iPad Pro等设备上搭载LiDAR激光雷达扫描仪,我们可以预见VR/AR才是苹果布局的重要领域,空间音频不过是庞大的VR/AR应用中的一个组成部分。

当然,目前的空间音频虽然还不够完美,但相信这些问题都会在不久的未来得到解决。在未来,苹果还会有什么令人惊叹的新奇技术,又会将VR/AR引领到什么方向,我们拭目以待。

The content of this article is intended to provide a general guide to the subject matter. Specialist advice should be sought about your specific circumstances.