Rapid 2D-to-3D conversion——快速2D到3D转换-白红宇

Rapid 2D-to-3D conversion——快速2D到3D转换

阅读量：4921 次

发布时间：2019-06-11

本文共 4695 字，大约阅读时间需要 15 分钟。

https://blog.csdn.net/qq_33445835/article/details/80143598

目前想做一个关于2D转3D的项目，由于国内资料比较少而且大部分都是基于国外的研究资料优化而来，所以想翻译翻译国外的论文，强化自己的理解，同时方便他人，英文水平有限，尽量做到“信达雅”的信，争取下达，如有错误，希望大家指正。文末提供论文原文PDF下载。以下为正文。

快速2D到3D转换

摘要

从现有2D图像到3D的转换已经被证明了是商业上可行的，并且满足了日益增长的对高质量立体影像的需求。当面临最新面世的3D自由立体显示器需求大量立体影像时，这种方法尤其有效。这种维度内容转换的主要技术是为2D影像的每一帧生成一幅深度图。深度图的使用，作为2D转3D过程中的一部分，拥有许多令人满意的特性：

深度图的分辨率可能要比其相关联的2D图像要低；

能够被高度压缩；

保留了2D的兼容性；

实时生成立体或者多路立体影像成为可能。

主要缺点是，从现有2D图像来创建深度图的的人工转换技术的工作量极其庞大，使得整个过程变得缓慢而又昂贵。另一个可供选择的，高产的技术就是基于机器学习（MLAs：Machine Learning Algorithms）发展而来的。此篇论文介绍了应用机器学习去生成深度图，并且展示了这个方法的商业化应用的成绩。

关键词：2D到3D转换，自由立体显示器，机器学习

1.简介

最近几年，大众对3D内容的需要如雨后春笋般勃起（强行给自己加戏）。这很大程度上是由于multiviewer3D立体显示器的商业可用性，比如Stereographics【1】，4D-Vision【2】，Philips【3】（是3家厂商）制造的这些显示器。

这些自由立体显示器要求很多场景的临近的视角，通常是八个或者九个，而不是先前的立体显示技术简单的左右眼视角。基于原材料，使用CGI可以为这些显示器创建初始的内容，同时消费者对于视频格式的需求是最强的。使用同步摄像头实时拍摄多视角已经尝试过，尤其是为了inside shots（原意为内线进球，我不太懂篮球，不知道这个该怎么翻译），但是已经被证明笨重而且耗时。

我们之前已经提到，2D到3D转换的优点是为原2D图像【4】生成深度图。这项技术让现有内容、现场直播、录像的转换到达了商业级别的服务处理层次。

深度图的使用，作为2D转3D过程中的一部分，拥有许多令人满意的特性。用户测试表明，在当前可用的自由立体显示器下，深度图的分辨率可能会比立体图像降格之前的相关联的2D图像要低，这一点显而易见。典型的，对于彩色电视广播标准分辨率的2D图像，深度图分辨率会有4:1的减少。

因为深度图有着更低的分辨率，只含有亮度信息（原文为luminance information），它的带宽和存储要求会比相关联的2D图像更低。最佳压缩技术可以将深度图压缩到不到它相关联2D图像【4】的2%的大小。这使得能将深度图嵌入到原来的2D图像中，最低限度的覆盖，能够生成一幅2D兼容3D的图像。

软件或者硬件解码器可以随后实时渲染单独的立体对，或者一系列适合展示于立体显示器上的大范围的视角图像。

2.深度图的生成

大量能够实时同步捕捉深度图以及2D资源的设备现已上市。这些设备包含“3D摄像头”，“Z轴摄像头”或者其他基于扫描激光【6】【7】的传感器。这些系统能够做到实时播放并且不再需要内容转换。在未来，实时录制最有可能成为主要的3D视频生成方法，但是在教育已有的2D内容创造者学会这项新艺术，以及在工作室实现这项技术相关联的花费两方面，仍然存在着重大的挑战。

同时，2D内容的转换，或者是已经存在的，或者是为了在3D屏幕上显示特地拍摄的，都是商业上可行的选项。考虑到巨大的已有2D材料的库存，用户是有保证的。基于深度图产生的由已有内容的2D转3D现在已经是一项确定的过程。这个技术的主要缺点是生成深度图技术的巨大人力成本，导致其成为了一项耗时昂贵的方法。

这里是一些目前应用于产生深度图的人工方法，如下：

手动人工，用艺术性选择的深度值绘制物体的轮廓；

半自动画轮廓，然后由操作员手动修正。

其中每一个都有一些缺点。手动绘制的深度图质量很高但是十分耗时而且高价。半自动绘制当遇到复杂轮廓时通常不可靠。

尽管在特定条件下基于单目2D图像序列的全自动深度图恢复已经成为可能，这些技术相关联的操作约束限制了其商业化的可行性。这些方法通常可以归入以下一至两种类别：

基于运动的深度（Depth from motion）：物体的运动（基于摄像头）和它距离摄像头的距离之间的关系可以通过分析optic flow【8】（视觉流？）来计算深度图。如果所有物体的运动与他们到摄像头的距离成比例的话，那么这项技术只能准确恢复相对深度。这个设想仅适用于遇到的是相对较小比例的连续镜头（比如，一个摄像机移过一个静止的场景）。这个原理，利用了运动视差，也是单镜头立体系统【9】和双目延迟立体影像【10】的基础。

基于运动的结构（Structure from motion SFM）：SFM是计算机视觉研究的一块活跃的区域，有关对应着随后那些被用来决定深度的帧（或者相同场景的相似视图），以及恢复摄像头参数【11】【12】。这个方法的一个限制是3D场景必须以静止为主——意味着物体必须保持静止。此外，摄像头相对这个静止的场景必须在移动。尽管这项技术已经被用于特效产业来用CGI合成实景拍摄连续镜头，这项深度恢复应用仍然有一定的局限性。

同时也应该指出，这些技术依赖找到帧之间的对应关系，而这个过程在出现低特征，快速移动物体时并不可靠。并且，在没有任何运动的情况下，这些全自动技术并不能恢复深度。

3.改良深度图生成

这篇论文中的研究介绍了一个针对2D到3D转换问题更实用的方法。我们已经开发出一种高效交互式、半自动的方法，在其之中，一位特效美术师使用机器学习算法指导深度图的生成。

3.1 机器学习算法（MLAs）

一个MLA，你可以把它当做一个被训练来学习一系列输入和输出之间关系的黑盒。就其本身而言，大部分的MLAs包含两个阶段，训练和分类。在我们对MLAs的应用中，输入是和单个像素的位置和颜色有关的。为了实现，我们对一个像素定义了5个输入参数：x,y,r,g,b。对任何给定的像素来说，x和y代表的是笛卡尔坐标，r,g,b分别代表的其颜色的红，绿，蓝分量。MLA的输出是像素的深度，我们将其表示为输出z。

3.1.1 训练

在训练的阶段中，给MLA提供的样本是有已知的深度的：