特斯联实现计算机视觉科研突破,多项研究成果入选CVPR、TPAMI等国际顶会顶刊

2022-05-09 15:23:37爱云资讯阅读量:724

随着京津冀、长三角、粤港澳大湾区、成渝等地启动建设全国一体化算力网络国家枢纽节点,“东数西算”工程全面正式启动,作为数据处理的核心新型基础设施,人工智能、物联网、云计算、区块链等技术将迎来更为精细化的发展前景。近期,作为成渝地区东数西算的深度参与者,特斯联对外公布了其计算机视觉(CV)领域的多个科研突破,并有8篇论文被CVPR、TPAMI等顶级国际学术会议和期刊收录。

此次,特斯联在 CV 领域的科研突破涵盖了语义分割、图像增强、显著物体识别、迁移学习、行为识别,等方面。其中不少创新技术打破了现有技术上限,亦开发了数个性能更优、识别更快、效率更高的模型,这些技术研究的应用与推广将会成为特斯联赋能城市数字化、智能化的有力保障。

在机器视觉行业产业链中,如上游的光源、镜头、工业相机、图像处理器、图像采集卡等硬件,图像处理软件和底层算法等软件系统会随着机器视觉的迭代而快速发展,推进整个产业链的升级。全球知名AI专家、特斯联集团首席科学家兼特斯联国际总裁邵岭博士及其团队在该领域中提出的图像和视频的识别和学习各算法,极大缩短了训练和推理时间,从图像识别提升、识别效率提升以及解决数据标注瓶颈三个方面,提升了整体视觉应用效果:

1)图像识别提升

在图像识别方面,团队的技术突破主要集中在算法层面,囊括背景消除模块、图像特征突出等。这些可以从图像本质入手,丰富图像本身信息,去除多余噪点,为后续图像识别提供高清的图像数据,是高效率识别的基础。更有技术突破采用创新的手法,如加上声音信息来协助识别,提高信息准确度。

在被收录于顶会CVPR的《Learning Non-target Knowledge for Few-shot Semantic Segmentation》(《学习用于小样本语义分割的非目标知识》)研究中,团队从挖掘和排除非目标区域的新角度重新思考了少样本语义分割,继而提出了一个新颖的非目标区域消除(Non-target Region Eliminating)框架,其中包含了一个背景挖掘模块(Background Mining Module)、一个背景消除模块(Background Eliminating Module)和一个分散注意力的目标消除模块(Distracting Objects Eliminating Module)以确保模型免受背景和分散注意力目标的干扰进而获得准确的目标分割结果。不仅如此,该研究还提出一个原型对比学习(Prototypical Contrastive Learning)算法,通过精炼原型的嵌入特征以便更好的将目标对象与分散注意力的对象区分开来。

采用不同模块的目标分割表现

在被收录于TPAMI期刊的《Learning Enriched Features for Fast Image Restoration and Enhancement》(《学习用于快速图像修复和增强的丰富特征》)研究中,团队发现现实中的相机存在诸多物理限制,尤其在复杂的照明环境,采集的图像经常会出现不同程度的退化现象。比如智能手机相机的光圈很窄,传感器很小,动态范围也有限,因而经常产生噪声和低对比度的图像。为此团队提出了一种全新架构,其整体目标是通过整个网络维持空间精确的高分辨率表征并从低分辨率表征中接收互补的上下文信息。 方法的核心囊括以下关键元素的多尺度残差块:(a) 用于提取多尺度特征的并行多分辨率卷积流,(b)跨多分辨率流的信息交换,(c)用于捕获上下文信息的非局部注意力机制,(d)基于注意力的多尺度特征聚合。 该方法学习了一组丰富的特征,即结合了来自多个尺度的上下文信息,同时保留了高分辨率的空间细节。该技术可以解决现实中物理相机的缺陷,提高图片质量,也为后续识别提供良好的载体。

采用我们所提出方法(下排右二)生成的图像在视觉上更接近于亮度和整体对比度的地面真实情况

团队还就显著目标检测(SOD)数据集的严重设计偏差问题进行了研究,并收集了一个全新高质量,目前最大的实例级SOD数据集- Salient Objects in Clutter(SOC),以缩小现有数据集与真实场景之间的差距。通过对203个代表性模型的回顾,和一个线上基准模型的维护,以及100个SOD模型全面的基准和性能评估,实现对SOD发展的动态追踪以及更深入的理解。此外,团队还设计了三个数据集增强策略,包括标签平滑,随机图像增广和基于自监督学习的正则化技术以有效提高尖端模型的效果。该技术可以在复杂环境中让目标突出,在信息混乱的图像或者视频中,准确抓取目标,为识别分析提供准确信息。此研究成果被收录于TPAMI期刊中。

与实例级ILSO数据集(a)和MS-COCO数据集(c)相比,我们的SOC数据集(b&d)可标注精细、平滑的边界

由布景或摄像机视点变化引起的域偏移下的行为识别问题也是团队重点研究的方向。在收录于顶会CVPR中的《Audio-Adaptive Activity Recognition Across Video Domains》(《跨视频域的音频自适应行为识别》)的研究中,团队提出了一种新颖的音频自适应编码器,借助丰富的声音信息来调整视觉特征以便模型在目标域中学习更多的判别特征。 它通过引入一种音频注入识别器(Audio-infused Recognizer)以进一步消除特定域(domain-specific)的特征,并利用声音中的域不变信息来实现有效的跨域跨模态的交互。此外,还引入了一个actor shift的新任务,以及相应的数据集,以在行为外观发生巨大变化的情况下挑战该模型。该技术加入声音参数来识别物体活动,可以更加准确识别和分析出物体的行为,在智慧城市应用中可以有更准确的分析结果。

当同一活动的视觉相似性在不同领域间难以发现时,我们的模型(红色)可以使用来自声音的额外线索来提高识别精度

基于自注意力的网络在图像描述取得了巨大成功但仍存在距离不敏感和低秩的瓶颈。为解决这一问题,团队在发表于IEEE Transactions on Multimedia期刊中的《Multi-Branch Distance-Sensitive Self-Attention Network for Image Captioning》(《用于图像描述的多分支距离敏感自注意力网络》)研究中,对自注意力机制从两个方面进行了优化:一个是距离敏感的自注意力方法(DSA),通过在SA建模过程中考虑图像中目标之间的原始几何距离,来提高图像场景理解;另一个是多分支自注意力方法(MSA),以打破SA中存在的低秩瓶颈,并在可忽略的额外计算成本下提高MSA的表达能力。

我们的方法(下排)和标准Transformer模型(上排)生成的注意力可视化和图像描述示例。一些准确的单词用绿色标记,错误和不准确的单词用红色标记。我们的方法可得到更精确的描述。

2)识别效率提升

为提高识别效率,团队研究出新的算法框架以及新的采样器,可以显著提高识别效率,大大缩短训练时间。在图像识别中,快速的识别可以提高服务质量,减少延迟,让人们感受更智能的交互。

团队发现大多数基于循环神经网络的视频物体分割(RVOS)方法采用基于单帧的空间粒度建模,而视觉表征的局限性容易导致视觉与语言匹配不佳。基于此,团队提出一种新颖的多级表征学习方法,通过探索视频内容的固有结构来提供一组视觉嵌入,从而实现更有效的视觉-语言语义对齐。具体来说,它在视觉粒度方面嵌入了不同的视觉线索,包括视频级别的多帧长时信息、帧级别的帧内空间语义以及对象级别的增强对象感知特征。其次,它还引入了动态语义对齐(DSA),可以更紧凑、更有效地动态学习和匹配具有不同粒度视觉表征的语言语义。从实验结果来看,该研究《Multi-Level Representation Learning with Semantic Alignment for Referring Video Object Segmentation》(《具有语义对齐的多级表征学习用于参考视频对象分割》)具有较高的推理速度,也因此被顶会CVPR收录。

在视觉研究中,团队发现业界最流行的随机采样方法,PK采样器,对深度度量学习来说信息量不足且效率不高,为此提出一种可用于大规模深度度量学习的高效的小批量采样方法,称为图采样(Graph Sampling)。该模型的思想是在每个epoch开始时为所有类别构建最近邻关系图。然后,每个小批量由随机选择的类别和其最近邻组成以便学习信息丰富的示例。该方法显著提高了重新识别率,大大缩短了训练时间。该技术为通用技术,可用于图像检索、识别等。该技术主要目的是提升效率,这是在当下高负荷多信息的智慧领域必不可少的技术,快速分析识别能够在一些图像检索和识别应用快速满足用户需求。该研究《Graph Sampling Based Deep Metric Learning for Generalizable Person Re-Identification》(《基于图采样的深度度量学习用于可泛化的行人重识别》)同样收录于今年的CVPR。

3)解决图像标注问题

数据标注是一个重要的过程,传统人工数据标注费时费力。团队提出了一种新技术以更高效地解决背后的问题。该研究被收录于今年的CVPR中,标题为《Category Contrast for Unsupervised Domain Adaptation in Visual Tasks》(《视觉任务中无监督域适应的类别对比》)。团队提出了一种新的类别对比技术(CaCo),该技术在无监督域适应(UDA)任务的实例判别之上引入了语义先验,可以有效地用于各种视觉UDA任务。该技术构建了一个具有语义感知的字典,其中包含来自源域和目标域的样本,每个目标样本根据源域样本的类别先验分配到一个(伪)类别标签,以便学习与UDA目标完全匹配的类别区分但域不变的表征。与当下最先进的方法对比,简单的CaCo技术可以实现更优越的性能表现,也可以成为现有UDA方法的补充,推广到其他机器学习方法中去,如无监督模型适应,开放/部分集适应等。该技术解决了传统监督学习需要大量人工标注的问题,比现有技术拥有更高的效率。

相关文章

人工智能技术

更多>>

人工智能公司

更多>>

人工智能硬件

更多>>

人工智能产业

更多>>
关于我们|联系我们|免责声明|会展频道

冀ICP备2022007386号-1 冀公网安备 13108202000871号

爱云资讯 Copyright©2018-2024