独家对话vivo工程师:详解TOF 3D超感应技术

2018-08-06 17:39:35爱云资讯阅读量:444

目前3D光学成像技术应用到手机产品层面的,按照发布时间次序分别有苹果iPhone X(Face ID)、小米8探索版、OPPO Find X、vivo TOF 3D超感。

从技术流派上区分,前三者都属于结构光(StructureLight),也是目前行业供应链比较认同的一个发展方向。只有vivo选择了另外不同的道路——TOF(Time Of Flight 飞行时间)。

凤凰网科技凰家评测在为期一周的深圳探访中,与vivo负责3D TOF技术的工程师进行了一次深度独家对话,为大家详解这项“不走寻常路”的黑科技。

一、3D成像三大主流技术

在详解TOF超感之前,我们先来了解一下目前3D成像三大主流技术:双目、结构光、TOF。

双目(StereoSystem)

双目成像的基础原理是三角测距算法,类似模拟人眼观看3D电影(左右眼看到的场景略有差异),从而带来具有空间感的立体深度信息。

这种方法对环境光照强度要求较高,更多依靠被测物体本身的图像特性。因此在光照不足、缺乏表面纹理的情况下,很难提取到有效鲁棒特征。

其实双目很早就有应用在手机上,例如早年间的HTC EVO 3D,这可能也是双摄最初的雏型。后来流行的人像模式、光效模式,其实也都是建立在双目3D成像基础之上,所衍生出来的算法效果。

另外大疆无人机上的避障功能以及3D地形建模,主要也是采用双目视觉技术。因为是被动式测距无需发射器,再加上性价比高、算法简单,双目具备很强的普适性以及宽泛的应用前景。

结构光(StructureLight)

结构光的技术特点是不依赖于被测物体本身的表面纹理,而是采取主动投射已知图案的方式获取匹配特征点,这种技术的优势在于精度高、环境兼容度高。

以色列PrimeSense公司的结构光方案采用Light Coding技术,最早应用于微软XBOX 360的体感配件Kinect1上。2013年Apple收购了这家公司,经过数年沉寂之后在iPhone X推出原深感镜头组。

可以说,iPhone X上的原深感相机,就是多年前Kinect1上的微缩强化版。传感器精度方面肯定大大提升,但基本原理都是一致的。

Dot Project投射经过DOE衍射后的伪随机散斑点阵,这些光斑具备高度随机性。但事实上,每个光点在空间分布坐标系中的位置都是唯一且已知的。因为投射前系统会进行一次光源基准标定,把整个空间的散斑点阵信息都存储下来,所以这个过程其实是一种伪随机。

这些伪随机点阵投射到被测物体上后,光斑会根据物体表面与Camera之间距离/角度产生不同形变。然后在原始数据的基础上计算出被测物体形变的偏移量,从而直接匹配出立体深度信息。

采用奥比中光Astra P模块的OPPO Find X也是基于上述散斑结构光技术,并且在光学镜头、发射器、ASIC芯片等方面会绕开Apple专利。这也是中国首个实现智能手机3D结构光量产的产品案例。

小米8探索版是最先PPT发布的,采用以色列公司Mantis Vision提供的编码结构光方案,IR垂直腔面发射器(VCSEL)阵列则来自奥地利公司AMS。

编码结构光法,不需要经过DOE衍射,打在人脸上的也不是伪随机散斑光点。而是通过mask遮挡形成的编码图案,米8探索版一共有33000个编码光点。相比LightCoding散斑结构光,编码结构光的功耗相对会高一些。

TOF(Time Of Flight 飞行时间)

最后终于轮到主角TOF了,其原理就是飞行时间测距法(Time Of Flight)。通过给目标连续发送光脉冲,然后用传感器接收从物体返回的光,通过探测光脉冲的飞行(往返)时间来得到目标物距离。

这种技术跟3D激光传感器原理类似,只不过3D激光传感器是逐点扫描,而TOF则是同时得到整幅图像的深度信息。跟结构光一样也是主动式投射红外光,但作用不是用来形成点阵纹理信息,而是利用高频调制入射光信号与反射光信号的变化来进行距离测量。

当然TOF同样也需要接收器,在接收前会先经过滤光片,确保只有与投射光源波长相同的光才能进入。然后TOF传感器会记录红外光往返与TOF模组与被测物体之间的相位数据。

需要注意的是,红外投射器和TOF传感器(也就是接收器),都需要高速信号控制才能达到深度测量精度。假如照射光与ToF传感器之间的时钟信号发生10ps的偏移,就相当于1.5mm的位移误差。

微软后来在Kinect V2上,就改用了来自以色列3DV的TOF技术。大疆无人机在智能避障方面,除了双目也会采用TOF红外的解决方案。智能手机方面,Google Project Tango采用了来自PMD的TOF深度相机,不过更多的还是红外距离传感器这种单点测距应用。

二、vivo TOF 3D超感应技术

vivo TOF 3D超感技术当然也是基于上述原理:发射器发出经调制的近红外光,遇到人或物体后反射,传感器在接收到红外光信息后,计算红外光线发射和反射的时间差,从而形成立体视觉。

行业顶级CCD传感器和低功耗的定制AFE芯片,是vivo TOF的硬件基础条件。再加上AI辅助深度优化以及3D建模算法,最终达到不输于结构光的毫米级别3D成像效果。

根据vivo官方技术文档介绍,TOF 3D超感应技术具备一下三点优势:

1.有效深度信息:vivo TOF 3D超感应技术的有效深度信息点高达30万,这里的信息点就是我们前面所有的TOF传感器。对比红外距离感应器的单点测距,30万个点就相当于有效深度信息为30万的红外面光源测距,自然能得到高精度的被测物体表面深度信息。

2.工作距离:vivo给出的数据是3米,这个距离大约是结构光技术的3倍。事实上TOF也确实具备更远的工作距离,但具体到1米范围内,特别是在20-30cm的面部识别场景下,跟结构光在精度上的差距并不大。

3.结构体积:vivo TOF的基线(BaseLine)也就是投射器与接收器之间的最短距离,要比结构光模块更短。同时Sensor的面积/体积也更加小巧,对于产品ID设计来说就不再需要那么长的“刘海”区域,同时对于内部空间特别PCB板的压力也更小。

根据vivo相关工程师描述,TOF 3D超感应技术算法的最大难点,在于如何控制30万个CCD传感器“开关”。另外如何实现毫米级响应,以及滤波算法、AI修复,也都是需要攻克的技术点。

三、“10倍”认知误区

如果你认真阅读了上面TOF相关的两个章节,应该能理解时间飞行(Time Of Flight)与3D结构光技术的本质区别。从测距建模到发射接收传感器,两者都是完全不同的理论算法和硬件基础。

在6月底上海MWC上,vivo说TOF相较于iPhone X,有效深度信息量是3D结构光的10倍。但事实上vivo并没有说明这个10倍的数据逻辑关系,所以几乎所有科技媒体都对此产生了「“10倍”认知误区」。

他们认为iPhone X的原深感镜头3D结构光的散斑点阵数是3万,vivo TOF 3D超感应的测距点是30万,所以后者就是就是前者的10倍。这里犯了一个很明显的错误。

那就是结构光这3万个点,是红外投射器经过DOE衍射,打在被测物理表面上的3万个随机散斑。而vivo TOF所谓的30万个点,是指在接收端具有30个传感器测距点。一个是打在人脸上的,一个是集成在Sensor上的,能直接进行除法运算吗?

再者从原理上讲,结构光IR接收器对点阵进行的是拍摄采集,并且衍射后的散斑都做过光源基准标定。散斑点阵说白了只是一层“带有深度信息”的纹理,并非是单个测距像素概念。

而vivo TOF投射的根本不是光点阵,而是VCSEL面激光光源。这一层红外光面根本不存在几万个光点的逻辑,30万个有效深度信息点完全在于接收端TOF传感器的数量。

所以根据iPhone X结构光的3万、和vivo TOF 3D超感应的30万,就得出10倍关系甚至认为后者的精度也是前者的10倍,显然是存在认知误区的。

四、这次没有跟随苹果

早在2017年3月,vivo内部就开始同时跟进结构光与TOF这两项3D技术。在研发过程中发现,TOF比结构光更具备量产性以及成本优势,而且精度效果差不多。

等到9月苹果秋季新品发布会的时候,iPhone X带着原深感镜头刘海登场。大家一看Apple选择了结构光,开始怀疑是不是vivo走错了路?但到了年底还是敲定了TOF。

接下来2018年的1月到6月,vivo开始进行TOF 3D超感应技术的论证调试,6月就启动了规模试产。然后我们才能在上海MWC上,体验到TOF的相关3D应用场景。

满打满算从立项到量产,一款TOF元器件前后耗费了一年半的时间。而以vivo目前的产品周期,如果研发一款手机只需要半年。好消息是搭载TOF的vivo机型,最快将于今年年底推出。

值得一提是,vivo工程师表示TOF 3D可以达到支付级别,将首先与微信合作实现人脸识别支付。不仅能解锁还能“刷脸”,已经进化到第三代的屏下指纹感觉有些瑟瑟发抖。

不过考虑TOF的工作距离优势,其实更适合应用于后置3D成像,来满足AR/VR/MR场景需求。所以vivo对于TOF的研发投入,未来很可能会在多方面开花结果。

事实上,没有跟随苹果的结构光方案,对于vivo来说是风险比较大的选择。但能另辟蹊径也是好事,至少可以尽量绕开PrimeSense的专利,发挥TOF更多的潜能。

总结:3D变革节点

就拿手机镜头来说,一开始在功能机上只有几十万像素,拍出来的照片放现在看就是马赛克。然而今天IMX600传感器有4000万像素,手机拍出来的照片拿到电脑上放大依旧很清晰。

手机摄像进化的本质,就是一个信息量从少到多、从不真实到真实的过程。那么二维光学向三维感知的进化,也会经历相同的从“差”变“好”的过程。

你认为现在TOF超感应30万个传感器精度已经很高了,其实只是个开始,就相当于功能机最初几十万像素镜头的阶段。

做3D的目的除了支付级别的人脸认证解锁,更大的意义在于「感知周围环境」。

以虚化举例,现在所谓的双摄虚化(人像模式),本质上是一种“猜测”与“欺骗”。

双摄和算法去“猜测”应该是怎样的景深关系然后模拟虚化效果,我们的人眼再被这种模拟虚化所“欺骗”以为是真实的大光圈成像。

但问题在于这个“猜测”是不精确的,如果能借助3D融入更准确深度信息,则不再需要虚化算法去模拟,最终得到的景深成像也更符合真实情况。

所以,AI与3D,或许会成为手机摄影超越单反的变量节点。物理光学空间上做不到的,通过深度学习和空间建模辅助达成。

当然3D的未来应用场景不止于此,AR方向有着更宽广的想象空间。当然这一切还要与智能手机本身的运算能力和特性相结合,很高兴vivo作为手机厂商能走在这一领域的前沿。

十一年前,乔布斯带来触屏交互革命。下一次交互革命,也许就蕴藏在3D感知空间中。

相关文章

人工智能技术

更多>>

人工智能公司

更多>>

人工智能硬件

更多>>

人工智能产业

更多>>
关于我们|联系我们|免责声明|会展频道

冀ICP备2022007386号-1 冀公网安备 13108202000871号

爱云资讯 Copyright©2018-2024