京东云与AI 10 篇论文被AAAI 2020 收录，京东科技实力亮相世界舞台-爱云资讯

美国时间2月7-12日，AAAI 2020大会在纽约正式拉开序幕，AAAI作为全球人工智能领域的顶级学术会议，每年评审并收录来自全球最顶尖的学术论文，这些学术研究引领着技术的趋势和未来。京东云与AI在本次大会上有10篇论文被AAAI收录，涉及自然语言处理、计算机视觉、机器学习等领域，充分展现了京东用技术驱动公司成长的发展模式以及技术实力，技术创新和应用落地也成为这些论文最吸引行业关注的亮点。

本届会议共收到的有效论文投稿超过8800篇，其中7737 篇论文进入评审环节，最终录取数量为1591篇，录取率为20.6%。京东云与AI共有10篇论文入选AAAI 2020，研究领域涵盖人脸识别、人脸解析、机器阅读理解、文本生成、对抗样本与模型鲁棒性、智慧城市等前沿的技术研究领域，这些能力目前已在市政安防、实体零售、智能客服等业务场景下规模化落地，未来京东云与AI作为值得信赖的智能技术提供者，会持续进行技术与业务融合的探索，这些落地的技术能力也将迎来更加广阔的应用前景。

以下是京东云与AI此次入选10篇论文：

对抗样本与模型鲁棒性研究

1. 基于Frank-Wolfe框架的高效对抗攻击算法

A Frank-Wolfe Framework for Efficient and Effective Adversarial Attacks

论文链接：https://arxiv.org/pdf/1811.10828.pdf;

根据模型攻击者可获取的信息量来区分，对抗样本攻击可分为白盒与黑盒两种攻击形式。虽然基于优化的攻击算法如PGD等可以在白盒攻击情况下获得较高的攻击成功率，但它们生成的对抗样本往往有着较高的失真度。此外，它们相应的黑盒攻击算法通常查询效率较差，需要对被攻击的黑盒模型访问非常多次才能实现攻击，从而大幅限制了它们的实用性。针对这一问题，京东、弗吉尼亚大学和加州大学洛杉矶分校合作提出了一种基于Frank-Wolfe框架的高效对抗攻击算法，可灵活运用于白盒和黑盒对抗样本攻击。

作者从理论上证明了所提的攻击算法具有较快的收敛速率，并在ImageNet和MNIST数据集上验证了所提出算法的性能。对比所有参评的白盒与黑盒攻击基准算法，本文提出的算法在攻击成功率，攻击时间和查询效率上均显著占优。

2. 通过对抗样本评估序列到序列模型鲁棒性

Seq2Sick: Evaluating the Robustness of Sequence-to-Sequence Models with Adversarial Examples

论文链接：https://arxiv.org/pdf/1803.01128.pdf;

利用对抗样本攻击的难易度来评估深度神经网络的鲁棒性已成为业界常用的方法之一。然而，大多数现有的对抗攻击算法都集中在基于卷积神经网络的图像分类问题上，因为它的输入空间连续且输出空间有限，便于实现对抗样本攻击。在本文中，来自京东、加州大学洛杉矶分校和IBM研究院的研究者们探索了一个更加困难的问题，即如何攻击基于循环神经网络的序列到序列(Sequence to Sequence)模型。这一模型的输入是离散的文本字符串，而输出的可能取值则几乎是无穷的，因此难以设计对抗攻击方案，在本文之前也未被成功攻破过。为了解决离散输入空间带来的挑战，研究者们提出了结合group lasso和梯度正则化的投影梯度方法。针对近乎无限输出空间带来的问题，他们也设计了一些全新的损失函数来实现两种新的攻击方式：(1) 非重叠攻击，即保证模型被攻击后的输出语句与正常情况下的输出语句不存在任何重合，(2)目标关键词攻击，即给定任意一组关键词，保证模型被攻击后的输出语句包含这些关键词。

最终，研究者们将算法应用于序列到序列模型常用的两大任务机器翻译和文本摘要中，发现通过对输入文本做轻微的改动，即可以显著改变序列到序列模型的输出，成功实现了对抗样本攻击。同时，研究者们也指出，虽然攻击取得了成功，但与基于卷积神经网络的分类模型相比，序列到序列模型的对抗攻击难度更大，且对抗样本更容易被发现，因此从对抗攻击的角度进行衡量，序列到序列模型是一种鲁棒性更优的模型。

机器阅读理解

3. 多跳多文档阅读理解研究

Select, Answer and Explain: Interpretable Multi-hop Reading Comprehension over Multiple Documents

论文链接：https://arxiv.org/pdf/1911.00484v2.pdf;

可解释的对多文档多跳阅读理解(RC)是一个具有挑战性的问题，因为它需要对多个信息源进行推理并通过提供支持证据来解释答案预测。《Select, Answer and Explain: Interpretable Multi-hop Reading Comprehension over Multiple Documents》论文中提出了一种可解释的多跳多文档阅读理解的方法，通过设计一个有效的文档筛选模块和基于图神经网络的推理模块，针对给定问题可以同时准确的找出问题的答案以及支持答案的证据。

图1. 多跳多文档阅读理解方法示意图

文本生成

4. 基于要素感知的多模态电商商品摘要

Aspect-Aware Multimodal Summarization for Chinese E-Commerce Products

论文链接：http://box.jd.com/sharedInfo/2926429040ECC7D3;

论文《Aspect-Aware Multimodal Summarization for Chinese E-Commerce Products》中提出了一个基于商品要素的多模态商品信息自动摘要系统，其可以根据商品的文本描述和商品图片自动生成商品营销短文。商品的外观决定了用户对该商品的第一印象，商品的功能属性最终决定了用户的购买行为，论文提出的多模态商品信息自动摘要系统可以有效的整合商品的外观和功能信息，自动捕捉到该商品的特色卖点，并为其生成一段简短的营销短文。不同的用户关注的商品要素往往是不同的，比如冰箱的“能耗”和”容量”，手机的“内存”和“屏幕”。系统以商品要素为切入点，挖掘商品最有卖点的商品要素，并从商品要素维度控制输出文本的信息冗余度、可读性和对输入信息的忠实度，最终生成一段简洁凝练、卖点突出、流畅、合规的商品营销短文，以期待引起潜在购买者的共鸣。

图2. 模型框架图

5. 基于关键词指导的生成式句子摘要

Keywords-Guided Abstractive Sentence Summarization

论文链接：http://box.jd.com/sharedInfo/B2234BB08E365EEC;

《Keywords-Guided Abstractive Sentence Summarization》论文中提出了一种文本摘要的新方法，即利用输入文本的关键词信息提高了文本摘要模型的质量。论文模拟了人类生成摘要的过程：当人类为某一段文本生成摘要时，首先会对该文本进行阅读，并识别出里面的关键词，进而通过创作加工，将这些关键词以流畅的语言表达出来。另外，文本摘要和文本关键词抽取在本质上是相通的，即都是在输入文本中提取关键信息，仅仅是输出的形式有所差异。基于上述思考，论文提出一个多任务学习框架，通过一个共享的编码器，互相强化文本摘要和关键词抽取任务。在解码器生成摘要时，利用关键词的信息和原始输入文本进行交互，通过双重注意力和双重拷贝机制，在关键词的指导下，为输入文本生成摘要。

图3. 共选择编码模型的框架

6. 基于多模态信息指导的多模态摘要

Multimodal Summarization with Guidance of Multimodal Reference

论文链接：http://box.jd.com/sharedInfo/36929195FF05B01F;

论文《Multimodal Summarization with Guidance of Multimodal Reference》提出了一种基于多模态信息监督的多模态自动摘要模型，该模型以文本和图片作为输入，生成图文并茂的摘要。传统的多模态自动摘要模型在训练过程中，往往以文本参考摘要的极大似然损失作为目标函数，然后利用注意力机制来挑选与文本相对应的图片。这种做法容易带来模态偏差的问题，即模型会倾向于优化文本生成的质量而忽视了图片挑选的质量。论文提出的模型优化了多模态摘要模型的目标函数，即在文本参考摘要的损失函数的基础上增加了图片参考摘要的损失函数。实验发现，在引入了多模态信息监督训练后，多模态自动摘要模型的图片挑选质量得到了显著的改善，文本生成质量也有所改进，从而可以生成更高质量的图文摘要。

图4. 多模态基准指导的多模态自动文摘框架图

7. 文本到SQL的生成研究

Zero-shot Text-to-SQL Learning with Auxiliary Task

论文链接：https://arxiv.org/pdf/1908.11052.pdf;

近年来，在Text-to-SQL任务中使用神经Seq2Seq模型取得了巨大的成功。但是，很少有研究关注这些模型如何推广到实际不可见数据中。论文《Zero-shot Text-to-SQL Learning with Auxiliary Task》通过设计一个有效的辅助任务支持模型以及生成任务的正则化项，以增加模型的泛化能力。通过在大型文本到SQL数据集WikiSQL上实验评估模型，与强大的基线粗到精模型相比，论文中打造的模型在整个数据集上的绝对精度比基线提高了3%以上。在WikiSQL的Zero-shot子集测试中，这一模型在基线上获得了5%的绝对准确度增益，清楚地证明了其卓越的通用性。

图5. 论文设计的模型示意图

智慧城市研究

8. 车站潜在客流的智能化预测

Potential Passenger Flow Prediction: A Novel Study for Urban Transportation Development

论文链接：https://arxiv.org/pdf/1912.03440.pdf;

随着城市人口的增多和城市化的不断发展，公共交通工具如地铁正在发挥着越来越重要的作用。为了让地铁能够发挥更大的作用，方便人们出行，需要精准预测每个车站在未来的潜在客流量，从而为地铁站的选址和建设规模提供建议。针对这一问题，京东和悉尼科技大学的研究者们合作提出了一种多视图局部相关性学习方法。其核心思想是利用自适应权重来了解目标区域及其局部区域之间的客流相关性，并通过嵌入一些领域知识到多视图学习过程中的方法来综合提升对潜在客流的预测准确性。

图6：潜在客流预测问题

图7：模型流程图

文中通过大量的实验结果表明，相比于一些其他预测算法，论文中提出的方法取得了显著更优的预测准确性，可以为车站规划和城市智能化建设提供更为有力的保障。此外，文中所提的思路也对解决推荐系统中的冷启动问题提供了一定的借鉴意义。

人脸识别

9. 基于分错特征引导的损失函数

Mis-classified Vector Guided Softmax Loss for Face Recognition

论文链接：https://arxiv.org/pdf/1912.00833.pdf;

在人脸识别领域，各个场景下的应用对算法能力提出了更高的要求。人脸识别的规模已从原来的千人、万人级增大到百万人甚至千万人。目前研究面临的一大挑战是在识别规模越来越大的场景下，如何在较低的误识率的同时保持识别通过率。现有的人脸识别主流训练算法主要归类为margin-based和mining-based两大类，但都存在各自的方法上的缺陷。论文《Mis-classified Vector Guided Softmax Loss for Face Recognition》就针对如何让模型学习得到判别能力更优秀的人脸特征，研究了一种新的人脸识别训练算法，利用论文中提出的Mis-classified Vector Guided Softmax，能够同时优化现有方法存在的缺陷，并且帮助识别网络在训练过程中获得更有针对性的难例强调，实现更据鉴别能力的模型训练。论文的方法在目前多个公开人脸识别测试集上验证了有效性，并且识别精度超过了现有的方法。

图8. MV-Softmax特征的几何解释

人脸解析

10. 数据库和一种边缘感知的语义分割方法

A New Dataset and Boundary-Attention Semantic Segmentation for Face Parsing

论文链接：http://box.jd.com/sharedInfo/C1BEAD9CBDB50DA3;

近年来，人脸解析因其潜在的应用价值而受到了越来越多的关注。论文《A New Dataset and Boundary-Attention Semantic Segmentation for Face Parsing》从人脸解析领域存在的问题出发，在数据和算法两个方面做出了贡献。首先，论文提出了一种高效的像素级的人脸解析数据标注框架，该框架极大的降低了数据的标注难度，使他们在短时间内构建了一个大规模的人脸解析数据集(LaPa)。该数据集包含了超过22,000张人脸图片，且覆盖了多种姿态、光照和表情变化。同时，本文还提出了一种有效的边界注意力的语义分割方法(BASS)，该方法从网络结构和损失函数两方面着手，充分利用图像的边界信息来提升语义分割精度，论文中设计了大量的实验来验证该方法的有效性，同时该方法取得了公开数据集Helen上SOTA的性能。

图9.BASS的网络结构示意图

从这些前沿的研究成果不难看出，京东云与AI正致力于将语音语义、计算机视觉、机器学习等技术在商品推荐、实体零售等领域持续落地应用，不仅注重技术的先进性，更注重应用的可信赖。一直以来京东云与AI致力于践行可信赖的AI，“可信赖的AI”不是口号，也不仅仅是价值观层面。它有六个维度，公平、鲁棒性、价值对齐、可复制、可解释和负责任，此次入选论文中就包含着对“对抗样本与模型鲁棒性”的研究。一面是对技术的巨大挑战，一面是人文精神，成为最值得信赖的智能技术提供者正是京东云与AI执着追求的社会责任与价值体现。

2019年8月，以NeuHub京东人工智能开放平台为载体，京东入选智能供应链国家人工智能开放平台，依托这一平台的技术积累，京东云与AI在疫情期间快速推出应急资源信息发布平台，上线半个月时间即帮助湖北、武汉及其他疫情波及地区供应医疗类、消毒类、生活类等各类救援物资超过2.6亿件，供应药品超过4亿盒。其中包含各类口罩1.5亿只、护目镜40.6万个、防护服鞋套283.72万套等抗疫必需品;基于京东云与AI领先的语音语义技术研发的智能疫情助理，已在北京、山东、安徽、江苏、江西、四川等地的十多个行业、一千余家组织和机构中快速落地，免费提供疫情咨询服务，累计服务咨询数量达数百万条。切实让民众在疫情这一特殊时期感受到技术带来的温暖和便利。

2019年，京东在云、AI、IoT等技术领域和业务的探索完成了京东云与AI在ABCDE技术战略的布局。这个战略是我们技术上深度融合，融合AI(人工智能)、Big Data(大数据)、Cloud(云计算)、Devices(IoT)和Exploration(前沿探索)对外赋能，为产业融合、科技创新，提供最坚实、最前沿、最可信赖的基础设施和服务。

京东云与AI总裁、京东集团技术委员会主席周伯文博士表示，京东技术战略“ABCDE”的本质是促进技术融合带来的价值叠加，通过前沿技术的研发，与行业Know-how进一步紧密结合，与合作伙伴一道共建良好的技术合作生态，并时刻要以用例为中心，用京东云与AI的技术积累对外赋能，解决真实场景问题，以最终实现面向社会创造更多价值。

如何进行技术和产业的融合一直是AI行业和企业关注的重点。2020年，京东云与AI作为“技术输出”的先行者，他的身影还将在更多的全球顶级学术、科技大会上出现，并持续深耕技术与实体经济的融合，探索技术的边界与应用价值，推动产学研用的一体化建设。京东云与AI也将继续用扎实的技术积累对外赋能，与社会各界共同创造并见证云智联世界、产业互联网蓬勃发展的新时代!

京东云与AI 10 篇论文被AAAI 2020 收录，京东科技实力亮相世界舞台

相关文章

人工智能技术

人工智能公司

人工智能硬件

人工智能产业