视频空间-Apple的空间视频技术探究

苹果于9月13日正式推出了iphone 15 Pro。随后,苹果还宣布计划在今年晚些时候发布空间视频拍摄功能。尽管这一功能尚未对外发布,但本文通过参考苹果的开发者文档和相关研究论文来对其进行初步探讨。

1. 什么是空间视频

空间视频苹果公众推介的一个新名词。在苹果的开发者平台AVFoundation上,我们可以找到三篇与空间视频直接相关的文档,分别为《ISO Base Media File Format and Apple HEVC Stereo Video Format Additions》、《Video Contour Map Payload Metadata within the QuickTime Movie File Format Additions》和《Apple HEVC Stereo Video Interoperability Profile (Beta)》。在这三篇文档中,均提到了“spatial media”(空间媒体),这一概念综合了立体视觉和立体音频的特点。

2. 苹果空间视频使用什么格式进行编码

结合前述的三篇文档以及Vision Pro的发布会资料,我们得知空间视频将采用MV(multiview)-HEVC技术进行编码。众所周知,Apple的前代手机默认的视频编码格式是HEVC,而HEIC实际上就是基于HEVC的I帧编码。MV-HEVC是为了满足多视图视频编码需求而对HEVC进行的扩展。多视图视频涉及到从多个不同角度捕获的视频序列,这正是制作3D视频、立体电视及其他多视图应用所必需的。MV-HEVC引进了一种新颖的预测模式,使得一个视角的视频块可以基于另一个视角的已编码视频块进行预测。这种跨视图的预测方法优化了编码的效率。

3. 空间视频怎么拍摄?

近来,很多人对iphone发布的空间视频表示了不屑,将其视为HTC 3D evo的旧瓜重炒,另外也有很多关注者从技术层面提出了担忧。人们普遍对iphone实现空间视频从技术层面有以下疑问:

(1)iphone的主摄与广角距离太近,无法模拟出人眼的视差效果。如下图所示,为了使3D电影拍摄的内容接近人双眼实际所见,摄影师会选用65mm焦距的相机,并确保相机与人眼保持近似的视角。

(2)iphone的拍摄高度与人眼的高度不吻合,导致观影缺乏临场感。

(3)iphone的广角与主摄在光圈和景深上存在明显的差异。

然而,笔者认为,这次iphone空间视频并不仅仅是简单地从广角镜头中裁切出一部分视野,与主摄进行合并以制作3D视频。相反,它很可能是采用广角、主摄和TOF深度相机作为输入,结合神经网络技术进行图像补全、前后景分离以及光圈模拟等,进而渲染出一个符合人眼视差的图像。尽管笔者尚未在Apple的资料中找到相关论文,但Facebook已发布了多篇有关此技术的研究,其思路至少可以解决上面(1)(2)的问题。此外,与文献中描述的技术相比,iphone 15 Pro拥有更为先进的硬件,如已标定的双目摄像头、高精度的TOF相机,以及拥有35Tops计算能力的A17 PRO神经引擎(相比之下,A16的算力为17Tops),理论上会更加容易实现。

2019年的Practical 3D photography

2020年的One Shot 3D Photography

2022年的3D Photography

2023年的3D Photography

4. 畅想:

空间视频真的超越了一时的热点,成为视觉科技的新里程碑,那么其影响将是深远且广泛的。首先,摄像设备将迎来一场革命。设备如GoPro不再满足于单一摄像头的配置。很有可能使用双摄像头+TOF的组合。我们的个人电脑手机等计算设备,其SOC将MV-HEVC的编解码能力整合,AI算力的需求也将随之增加。

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 共3条