1. 首页
  2. 技术文章

使用人工智能实时生成3D全息图

一种称为张量全息术的新方法可以为虚拟现实,3D打印,医学成像等创建全息图,并且可以在智能手机上运行。

全息投影
标题

麻省理工学院的研究人员已经开发出一种几乎可以立即生成全息图的方法。他们说,基于深度学习的方法非常有效,可以在智能手机上运行。

学分

尽管进行了多年的宣传,但虚拟现实头戴式耳机尚未成为电视或计算机屏幕上观看视频的必备设备。原因之一:VR会让用户感到恶心。尽管用户实际上盯着固定距离的2D显示器,但VR会产生3D观看的错觉,从而导致恶心和眼睛疲劳。更好的3D可视化解决方案可能在于为数字世界重塑了60年的技术:全息图。

全息图可以出色地表现我们周围的3D世界。另外,它们很漂亮。(继续-请查看Visa卡上的全息鸽子。)全息图可根据观看者的位置提供变化的视角,并允许眼睛调整焦深以交替聚焦在前景和背景上。

长期以来,研究人员一直在寻求制作计算机生成的全息图,但是传统上,该过程需要一台超级计算机来进行物理模拟,这非常耗时,并且所产生的效果不如真实感。现在,麻省理工学院的研究人员已经开发出一种几乎可以立即生成全息图的新方法-研究人员说,基于深度学习的方法是如此高效,可以眨眼间就可以在笔记本电脑上运行。

该研究的主要作者,麻省理工学院电气工程与计算机科学系(EECS)的博士生Liang Shi说:“人们以前认为,使用现有的消费级硬件,是不可能进行实时3D全息计算的。” “经常有人说市售的全息显示器将在10年左右出现,但这种说法已经存在了数十年。”

Shi认为,该团队称为“张量全息术”的新方法将最终实现这一难以捉摸的10年目标。这种进步可能会推动全息技术向VR和3D打印等领域溢出。

Shi与他的顾问和合著者Wojciech Matusik共同研究了这项研究,该研究今天在《自然》杂志上发表。其他合著者包括EECS的李贝晨和麻省理工学院的计算机科学与人工智能实验室,以及前麻省理工学院的研究人员Changil Kim(现为Facebook)和Petr Kellnhofer(现为斯坦福大学)。

追求更好的3D

典型的基于镜头的照片编码每个光波的亮度-照片可以忠实地再现场景的颜色,但最终会产生平坦的图像。

相反,全息图既编码每个光波的亮度,又编码相位。这种组合可以更真实地描述场景的视差和深度。因此,尽管莫奈的“睡莲”照片可以突出画作的色泽,但全息图可以使作品栩栩如生,呈现每个笔触的独特3D纹理。但是,尽管具有现实性,但全息图仍然是制作和共享的挑战。

最早于1900年代中期开发,早期的全息照相方式是光学记录的。这就需要分开一束激光,其中一半光束用于照亮物体,另一半光束用作光波相位的参考。该参考会产生全息图的独特深度感。生成的图像是静态的,因此它们无法捕获运动。而且它们只是硬拷贝,使它们难以复制和共享。

计算机生成的全息照相通过模拟光学设置来避开这些挑战。但是该过程可能是一个计算难题。“由于场景中的每个点都有不同的深度,因此无法对所有这些点都应用相同的操作,”施说。“这大大增加了复杂性。” 指导一台集群超级计算机运行这些基于物理学的模拟,对于单个全息图像可能要花费几秒钟或几分钟。此外,现有算法无法以逼真的精度对遮挡进行建模。因此,Shi的团队采用了另一种方法:让计算机自学物理。

他们使用深度学习来加速计算机生成的全息图,从而实现实时全息图的生成。该团队设计了卷积神经网络-一种处理技术,该技术使用一系列可训练的张量来大致模拟人类如何处理视觉信息。训练神经网络通常需要庞大的高质量数据集,而3D全息图以前没有这种数据集。

该团队建立了一个自定义数据库,其中包含4,000对计算机生成的图像。每对都将一张图片(包括每个像素的颜色和深度信息)与其对应的全息图进行匹配。为了在新数据库中创建全息图,研究人员使用了具有复杂且可变的形状和颜色的场景,像素深度从背景到前景均匀分布,并且使用了一组新的基于物理的计算来处理遮挡。这种方法产生了逼真的训练数据。接下来,该算法开始起作用。

通过从每个图像对中学习,张量网络调整了其自身计算的参数,从而逐步增强了其创建全息图的能力。完全优化的网络运行速度比基于物理的计算快几个数量级。这种效率使团队感到惊讶。

“我们对它的表现感到惊讶,” Matusik说。张量全息术可以在短短几毫秒内从具有深度信息的图像制作全息图,该图像由典型的计算机生成的图像提供,并且可以通过多相机设置或LiDAR传感器进行计算(这在某些新的智能手机上都是标准的)。这一进步为实时3D全息照相铺平了道路。而且,紧凑的张量网络需要少于1 MB的内存。他说:“考虑到最新手机可用的数十和数百GB,这可以忽略不计。”

微软首席光学架构师乔尔·科林(Joel Kollin)表示,这项研究“显示出真正的3D全息显示器是实用的,只需要适度的计算需求。” 他补充说:“与以前的作品相比,本文显示出图像质量的显着改善”,这将“为观看者增加真实感和舒适感。” 柯林还暗示,这样的全息显示器甚至可以根据观看者的眼科处方进行定制。全息显示器可以矫正眼睛的像差。这使得显示图像比用户通过接触器或眼镜所看到的图像更清晰,而后者仅能校正像焦点和散光这样的低阶像差。”

“相当大的飞跃”

实时3D全息技术将增强从VR到3D打印的众多系统。该团队表示,新系统可以帮助将VR观看者沉浸在更真实的风景中,同时消除长期使用VR带来的眼睛疲劳和其他副作用。该技术可以很容易地部署在调制光波相位的显示器上。目前,大多数可负担得起的消费级显示器只能调节亮度,但是如果广泛采用,相位调制显示器的成本将会降低。

研究人员说,三维全息术还可以促进体积3D打印的发展。该技术可以证明比传统的逐层3D打印更快,更精确,因为体积3D打印允许同时投影整个3D图形。其他应用包括显微镜,医学数据的可视化以及具有独特光学特性的表面设计。

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站不拥有所有权,不承担相关法律责任。如发现有侵权/违规的内容, 联系QQ1841324605,本站将立刻清除。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

服务热线:130-0886-1890

QR code