阿里达摩院谭平:XR技术将带来下一代互联网
2021-11-03 10:01:08爱云资讯阅读量:1,303
当我们在谈论VR、AR的时候,我们到底在谈什么?新风口?新概念?新技术? 新名词?从技术人的视角来看,这是技术累积的量变引发的。沉浸感体验的一个技术基础是对海量场景、物体、人物进行三维建模并渲染,是属于计算机视觉和计算机图形学的交叉领域,曾经是一个相当小众的领域。
在二十年前,谭平在选择这一研究方向时,这个领域并不像今天这般吸引眼球。在他的回忆里,这一领域的入门非常辛苦,不但要学很复杂的数学、物理,发表一篇论文要写上万行代码,甚至还需要在实验室的暗室里面动手搭设备、拍数据,出成果的周期很长。
二十年年过去,技术已进步太多:三维模型数据比过去丰富得多,渲染效果也更逼真、更快速。三维模型可以由艺术家手工设计出来,也可以通过对真实物体、场景进行三维重建得到。并且,重建结果的细节更丰富,超过了手工设计。得益于这些技术进步,VR/AR、“数字孪生”等虚拟世界有了实现的基础条件。
现如今,国内在这一领域已发展到了全球的前列水平,微软研究院的童欣、浙江大学的周昆等都是这个领域全球知名的学者。
也在最近,阿里达摩院也调集全球上百位科学家成立了XR实验室,谭平是这个实验室的负责人。
“像照片般的真实感”
“我曾经担任计算机视觉和图形学几个学术会议CVPR、ICCV、SIGGRAPH的领域主席,也担任两本学术杂志TPAMI和IJCV的副主编。回顾过去这些年三维重建和渲染方向的进展,用更好理解的话说,很多研究都是寻求——“像照片般的真实感”(photorealism)。” 谭平说。
真实感渲染中一个基本问题,就是研究光线在物体表面的反射现象。这是人类视觉感知的基础,这是谭平在博士生阶段的第一个课题。在学术界,有各种各样的反射模型来描述光的反射现象。但有一个问题一直没解决,在不同尺度上(可以简单理解为“距离”),物体的反射特性是不一样的。
不同尺度上物体的反射特性不同
比如,从10厘米左右的近距离观察,一颗沙粒表面的石英片是像玻璃一般的高反射表面,对应的反射函数是一个狄拉克函数。而从100米外看,一大片沙则是哑光、蓬松的,接近于朗伯表面,对应的反射函数是一个常数函数。
谭平的导师希望他能够建立一个统一的反射模型,把不同尺度的反射现象都统一起来。这是一个极其困难的问题,“大约我失眠的毛病就是从那个时候开始的。我花了差不多两年时间,才在这个问题上获得突破,并在欧洲图形学会的渲染分会上发表了博士阶段的第一篇论文。” 谭平说。
反射模型是一个偏光学领域的问题,此后,他们又开始研究几何层面的问题。当时的几何建模技术主要局限在对简单人造规则物体的建模,如汽车、家俱等。如何对自然界的复杂物体建模依然是一个未知问题。自然界物体的几何形状非常复杂,但往往又遵从简单的数学规则,比如斐波那契数列、分形等等。数学家们很早就注意到了这些现象,加拿大科学家Przemysław Prusinkiewicz就写过一本书,叫《植物的算法之美》(The Algorithmic Beauty of Plants),专门研究这一问题。
在这个问题上,谭平和合作者一做又是三年,提出了世界上第一个从照片构建植物三角网格模型的方法,在图形学领域最重要的学术会议SIGGRAPH上发表了一系列基于图像三维建模的论文。建模对象也从树木、盆栽扩大到建筑、街道,甚至整个城市。并获得了当时评委的称赞:“真是电影特效级的质量”。今天许多从航拍图像构建城市三维地图的工作就是基于类似的技术框架。
这些研究本质上都是为了提升虚拟世界的真实感,称得上是三维重建、渲染领域的根本问题,后期的技术发展也大多沿袭了这条道路。
下一代互联网
如今,游戏、影视和AR/VR等数字产业,在不断消化吸收关于“真实感”的研究成果,将其产品化、商业化。美国一家头部科技投资基金甚至预测,未来10年VR/AR眼镜的出货量将大大超过智能手机。
未来虚拟世界到底怎样?众说纷纭。谭平对这个概念有一个比较简单的理解,那就是VR/AR眼镜上的互联网。
“VR/AR眼镜将会推动互联网更新换代。今天的互联网应用都会在VR/AR眼镜上有新的呈现形式。从这个角度来看,过去受互联网影响非常深的通讯、社交、媒体、零售,甚至支付,都很可能会迎来一场革命。”谭平认为,这场技术革命,可以类比历史上的计算平台迁移带来的巨变。
此前,计算平台从PC端迁移到手机端。从PC到手机,通讯软件从QQ变成了微信。到了VR/AR时代,我们很可能都会有自己的虚拟形象,在一个虚拟空间里“面对面”的交流。从PC到手机,媒体、零售也发生了很大的变化,因为屏幕变小了,过去门户网站那样分门别类的罗列方式被彻底淘汰了,取而代之的是智能推荐。甚至,电商出现了新的形态——本地生活。得益于手机定位功能,本地生活类应用可以推荐附近三公里内的餐馆和服务,完全重塑了零售服务业。
而到了AR/VR时代,类似的微妙而又深刻的变革将再次发生,AR/VR将会革新显示和交互的底层基础。过去PC上、手机上显示交互的界面是二维的,是一个个的窗口(window),而在AR/VR眼镜上,显示交互的界面是三维的,是立体空间(space)。在三维空间,人们可以有更直观、更沉浸式的显示,用户和内容的互动方式也会从文字、图片进化到视频、互动,发生根本性改变。
“显示和交互是所有互联网应用的底层基础,它们的改变会带来上层应用脱胎换骨般的革命,整个互联网行业将会重新洗牌。可以说VR/AR是今天移动互联网时代最大的灰犀牛。”
远不止于游戏
在这场技术革命中,最敏感的是影视与游戏公司。他们创建了非常丰富的虚拟IP和虚拟场景,让用户沉浸在各种数字内容之中。工业制造、生物医药等行业则在设计阶段大量应用虚拟数字孪生仿真技术。
但这不是想象力的全部。通过虚实结合,有更多现实问题可以借助技术初步尝试解决。“我们正在探索一种更高效的三维重建体系。它已经应用在我们对外贸工厂、城市街道的空间重建中。”谭平说。
沉浸式虚拟探厂
在新冠疫情之后,调研显示70%-80%的B2B交易都要通过远程互动,更有效的方式是直接看到工厂和样品的三维实景。但这面临硬件设备的困局——一直以来,空间三维模型需要依托专业扫描设备、专业操作人员投入极大的成本才可构建。
为了解决这个问题,XR实验室自研扫描机器,配合云端三维重建算法,实现快速、便捷地构建VR内容。软硬一体的设备,让普通摄影师即可操作。通过新方法重塑的三维模型,精度高、细节丰富,结合高清全景图的浏览方式,兼顾了虚拟沉浸感和视觉体验。在不久后,这套技术将在杭州文三路上部署的街景增强现实也将上线。
关于虚拟世界技术的另一个落地案例,是摘苹果。
每年到丰收季节,农场都需要临时招聘大量的采摘工人。以苹果为例,每年全国有4000多万吨苹果需要采摘,需要超过100万采摘工人,要求在2周左右的时间内完成。疫情当前,熟练的工人无法区域流动,有些果园因为找不到足够人手,苹果直接烂在果园里。
机器人摘苹果
今年,达摩院XR实验室开始尝试与行业生态伙伴合作,通过结合虚拟建模与机器人技术,解决这一问题。通过三维重建技术构建果园环境和植物的三维地图,技术团队采集了大量苹果图片,训练苹果识别算法,并研制高效自动采收机器人系统。今年9月,团队开始在陕西的千阳和洛川苹果基地进行试验测试,初步取得了不错的效果。
将来,随着这一仿真数字模型不断完善,机器人数字孪生体在仿真环境中不断优化作业技能,就可迁移到实体机器人进行作业。机器人在果园作业过程中也会不停地采集数据反馈给果园模型,用于实现自我更新和优化。如此一来,也许能优化一套标准化、数字化、自动化的苹果生产方式,帮助果农降低生产成本,提高有效产量,最终提升苹果品质。
XR的终局是什么?
不管是场景展示,还是结合机器人进行实地劳作,都只是虚拟世界技术的一种形式。XR的终局是什么?谭平认为可以把未来XR或“虚拟世界”的技术分为四个层次:
第一层,是全息构建,就是用三角形网格建立出整个世界的外表,并在终端上显示,制造一种沉浸式的体验。当前,VR看房、看店,就是这一层技术的应用。这一层的技术再深入发展,需要对物体的内部精细结构建模。比如,建筑行业的BIM模型,不仅要有楼宇的外观,还要有内部管线,要知道各管线是走水的还是走气的。BIM模型在建筑施工、运维阶段都有很多的应用。同时场景中的物体要可以被操作,结构要可以重新组合。比如,一些室内装修设计平台可以让用户随意搭配不同的家具,提前体验装修的效果。
第二层,是全息仿真。要让虚拟世界能够无限逼近真实世界。虚拟世界里,水要往低处流,扔一块石头要能打碎玻璃,虚拟角色对外界能做出合理反应。电影《头号玩家》展现了这一场景。这一层的技术在游戏、电影中已经有过比较多的应用,但还可以应用到更广泛的领域。除了游戏,还可以是工业设计、模拟仿真等等,可以用来优化产品设计、城市治理、作业流程管理。许多数字孪生的应用就是在这一层。前两层的技术结合起来就能实现VR眼镜中的虚拟世界。
第三层,是虚实融合,要让虚拟世界和真实世界融合起来。技术上要实现这一点就要能建立真实世界的高精三维地图,并在地图中实现厘米级精准定位、定姿,准确叠加相关信息。可以为真实世界的任何物品建立一个信息图层,并根据不同用户的profile,呈现出来适当的内容。千人千面的基于厘米级精准定位的信息推送将无时不刻,无所不在。到这一层,就能实现AR眼镜中的虚拟世界。虚拟世界和真实世界的边界从此被打破。而这里建立的高精地图和定位也可以用于自动驾驶汽车、机器人,为下一个阶段做好准备。
第四层,是虚实联动,虚拟世界的改变能够被自动闭环到真实世界上去。换而言之,通过改变虚拟世界而改造对应的真实世界。要做到这一层需要解决机器人的问题。解决全部技术问题以后,我们可以通过第二层的全息仿真寻求问题的最优解决方案,然后通过第三层的虚实融合把方案映射到真实世界,再通过第四层的机器人技术来在真实世界执行。
关于未来,人们总是有各种畅想,谭平表示,未来达摩院XR实验室也会在这个方向不断努力,不断打破技术和想象力的边界,加速一个更好、更新的互联网时代的到来。
相关文章
- AI安全新突破!阿里云实现Confidential AI全栈覆盖
- Elastic亮相云栖大会,在阿里云上隆重发布企业版
- 高通携手阿里参加国际广播电视展,展示最新VVC视频编码技术
- 阿里云旗舰级合作伙伴端木软件亮相2024云栖大会
- 2024云栖大会:阿里云通信发布大模型语音机器人,响应时间仅500毫秒
- 奇墨ITQM亮相2024云栖大会,荣获阿里云产品生态伙伴成长进步奖
- 共创云上数字基建,智加科技与阿里云开启全面合作
- 阿里云服务器操作系统Alibaba Cloud Linux全新升级,核心场景性能提升超20%
- “JetBrains与阿里云战略合作发布JetBrains Al Assistant”
- 强强联合!亚信科技、阿里云携联盟之力,助力行业“零门槛”玩转大模型
- 2024云栖大会亮点:丰坦机器人与阿里巴巴钉钉签署AI+建筑机器人战略合作
- “茶郎中”喜获阿里健康大药房年度新星官旗,入选优秀案例
- IDC最新报告:阿里云连续四年领跑中国公有云大数据平台市场
- 阿里云×端木软件助力温州市企业云化转型研讨会暨温州市十朵云系列活动圆满举行
- AI驱动智慧办公革新浪潮,微软/阿里/微美全息加速数字办公垂直领域领航
- 阿里云、字节、浪潮信息、英特尔、电标院: OpenBMC是服务器固件大势所趋