模糊对VR同样重要?Faceb
来源:青亭网 作者:未知
大概一年前,Facebook公布了一项名为“DeepFocus”研究,这是一项通过AI实现类似人眼般的动态模糊变焦效果的技术,详情可参阅《为什么说“模糊”对VR同样重要?》。
论DeepFocus动态“模糊”的重要性
我们先来简单回顾一下DeepFocus。由于人眼天然具备“焦内和焦外”的视觉系统,而为了提升VR视觉观感,让其效果更接近人眼,Facebook Reality Labs决定通过具备人眼追踪的VR设备,结合DeepFocus算法,来实现逼真的动态焦外模糊效果。
这种所指的“焦外模糊”即像人眼般的焦点与焦外模糊切换效果。也就是说:当你注视一个区域时,其它区域就会基于“DeepFocus”进行自然的焦点切换效果。
上图中红色框代表人眼的焦点区域,可以看到整个实时的焦点切换效果非常自然。
DeepFocus算法支持偶然的眼神跳动和动态模糊效果,基本上可以模拟人眼的观看效果。而这也是DeepFocus的意义所在,也是眼球追踪对于VR的一大视觉体验提升。
显然DeepFocus是基于眼球追踪技术去发展的,而眼球追踪带来的另外的好处就是基于注视点渲染降低硬件压力,然后通过DeepFocus等技术达到“近人眼般的视觉观感”。
实际上,想要做到较佳的偶然性模糊切换效果也是比较困难的,由于“人眼动作的不确定性”因素,可能因最终模糊变化的速度不够快,导致视觉效果一般。为此,Facebook则通过一套机器学习技术算法来搞定这件事,当时演示需要4块高端GPU才能带动,对算力要求很高。不过Facebook表示后续算法还会继续优化,并让移动设备也支持,而且该算法已开源,未来的重要性不言而喻。
另一方面,前不久公开的苹果专利中也提到了类似的方案,为了解决AR中注视点渲染的连贯性和实际观感,苹果同样开发了一套AI算法,来预估眼球着落区域,以此实现虚拟图像在AR设备上更好的前景、背景切换效果。
将模糊变清晰,DeepFocus完美绝配来了
相对而言,上面的DeepFocus是将清晰的画面呈现动态模糊效果,主要是为了还原“接近人眼般的视觉效果”,相对来讲这项技术还比较容易实现,今天我们要介绍的主角就没那么简单了。
近期Facebook Reality Labs再次公布了一项新的VR/AR视频成像相关技术:DeepFovea。简单来讲,这是一个基于AI的注视点渲染方案,它可以通过较为稀疏的像素,来生成高清且逼真的图像。
首先来看看实际的效果,只需给定原图10%的像素数量,以花朵为中心点四周降噪处理。而通过DeepFovea,竟然模拟出一幅画面清晰、颜色艳丽的花朵图像,花瓣纹路、花茎结构都很清晰,甚至还有花瓣上还有些许露水。综合而言,画面主体的花朵和背景的绿叶几乎可以达到以假乱真的效果。
显然,DeepFovea的意义在于VR和AR系统呈现出更清晰的画面,尤其是在移动VR一体机算力普遍偏低的大背景下,甚至未来在云VR传输后模拟增强画质等都有极为重要的意义。
从名字来看,“DeepFovea”和“DeepFocus”名字十分接近,而且作用是相反的,前者意在呈现“近人眼的动态模糊”效果,而后者意在呈现“更清晰”的画面。
言外之意,DeepFovea和DeepFocus这对“亲兄弟”放在一块的价值更大,两项技术结合将会大幅提升VR和AR视觉体验。
DeepFovea诞生的背后
高质量的VR和AR对于图像分辨率的要求是极高的,以至于催生出小派这种追求极高分辨率的VR厂商以及Varjo这种双屏方案VR厂商,NVIDIA此前也展示过动态可调屏幕的AR眼镜原型,无一不是在追求更佳的显示效果。
然而,目前VR/AR图像在高分辨、高帧率、多视角图像等方面表现并不理想,因为这背后需要大量的计算资源,尤其是GPU资源。即便如此,我们对于很多PC VR内容的画质依然不能满足,更何况在VR一体机这种算力差距极大的移动平台。
据青亭网了解,DeepFovea的背后是一个生成式对抗网络(GAN),它能够通过较为稀疏像素的图像,生成一幅足够逼真、自然的图像。在Facebook的测试中,DeepFovea可以将渲染所需的计算资源降低10-14倍。
上面的视频展示了其中的测试方法,灰色方块代表人眼注视区域,测试时将该区域做密集区采样,而周围则作稀疏采样,目的就是模拟人眼注视效果。
细节方面,DeepFovea同样是基于人眼特性,注视区域清晰,区域外则模糊。DeepFovea目的就是通过输入这种注视区域外大幅丢失像素的视频,来帮助GAN模型学习如何填充缺失的图像细节。结果是,在60×40度视场角的视频中,通过稀疏像素的模糊视频生成的视频流在像素密度上降低了99%,并且这套系统还可以降低图像闪烁、重叠、伪影等,最终达到人眼辨别真假的阈值。
Facebook还表示,和目前最先进的注视点渲染方案相比,DeepFovea要更有效,而且不会出现明显的图像质量下降情况。为了进一步验证DeepFovea重建方法的效果,其还和现有的中心化渲染、视频压缩等方案进行对比,DeepFovea速度足够快,而且可在现代化硬件上实时驱动运行。
这里说的现代化硬件,文中指通过在4块NVIDIA Tesla V100 GPU做基础,推断一个1080p视频每帧耗时为9毫秒。然后通过c++在NVIDIA CUDA 10和cuDNN 7.6.1上实现了一个自定义推理框架,以16位半浮点精度执行,最终能在一块GPU上实现0.7毫秒每帧输出,这样在VR中足以实现90帧的画面输出。
长远来看,Facebook目标就是让让移动VR平台的算力也能运行,但显然这还有一定的距离。
据悉,DeepFovea和DeepFocus都是Facebook为了改善VR和AR图形显示质量而引入的几个研究,都用到了AI技术。如果没有意外,这些技术将应用到下一代VR头显中。
分享到:
芜湖乐善网络科技有限公司 版权所有 备案号:沪ICP备2021011711号-7